赞《字表》与汉字国际化相互促进

作者 张轴材 来源 《语言文字报》第725期 发布时间 2014-11-05

汉字成为国际文字,这已是不争的事实。下至iPhone、iPad,上至云端的搜索系统,汉字已无所不在。汉字国际化、标准化的重要标志是ISO/IEC 10646的重要组成部分-中日韩汉字统一编码(CJK nifieIdeographs)。由于中国两岸四地专家与美国、日本、韩国、越南、新加坡等国专家长期以来的通力合作,CJK已成为国际上最先进、最富权威性的编码字符集标准。CJK在计算机与通信领域的实现与应用已成为多种文明发展的基础和象征。

真实世界存在的每一个汉字都应在计算机世界有其对应的“代表”或代码。在ISO属下的汉字组(IRG)领导下,国际标准编码汉字已逼近8万,相当充分地反映了中文汉字的需求,并且正在向甲骨文、金文等古文字方面拓展。毫无疑问,这项巨大的文字整理工程有着深远的经济、文化和技术意义。

但在另一方面,对现代语言生活而言,由于语言的复杂性和ISO工作的优先级问题,CJK有两方面较重要的工作始终悬而未决:

第一,面对巨大的超级字符集,亟需基于海量分类加权语料库的现代字频统计、权威性地指明一个通用的子集,以利于基础教育和各项一般社会应用在各个层级的信息化实现。防止“大而全”的倾向,合理地利用资源。

第二,CJK完成了各个国家与地区的汉字形态上的认同,但是没有指明未认同的汉字之间的字意上的关联(简繁、正异、新旧字形等等)。

现在,由于《通用规范汉字表》的颁布,可以说上述“通用子集”和“关联字”两大问题都在很大程度上得到了圆满解决。

当今,国际互联网正在迈入一个新的阶段,IPv4地址枯竭而IPv6正在启用,更大的地址空间被开辟出来,不仅国家与地区的顶级域名(ccTLD)、通用顶级域名(gTLD)等一系列新域名都在迅速国际化(IDN)。可以说,这是互联网上的“第二代”身份证问题。国际域名分配机构ICANN正在紧锣密鼓地研究顶级域名国际化的异体字问题,以中国CNNIC为组长的专家工作组正在与各国家地区的专家一起重点探讨中文异体字的问题。从文字角度,这实质上是包括简繁、正异、新旧字形在内的广义的异体字问题。

作为专家工作组的成员,对于《通用规范汉字表》可以说是“翘首以盼”。首先,8000字规模的通用子集,具有法律上的权威性,大大缩小了待处理异体字的范围,使之更适应现代生活;其次,字表附件1——《规范字与繁体字、异体字对照表》收录了3120个规范字,并分别列出了相应的繁体字、异体字。这对于互联网国际化域名异体字的处理,也不啻是场“及时雨”,对于中文域名问题的解决,构筑实用的中文域名异体字表,有重要指导意义。

(作者系北京书同文数字化公司总裁)

QQXIUZI.CN 千千秀字