书同文、文同码与无字库

作者 张时钊 来源 《汉字书同文研究》第7辑(2008年) 发布时间 2014-12-17

  春秋战国五百多年,诸侯割据,各自为政,造成文字相异,迫使秦始皇要搞书同文。此后汉字字形几经变化,好像再没有提出这种任务。两千年后的今天,不到五十年工夫,大陆成功推广了简化字,海峡两岸文字就不一样了,又需要搞第二次书同文。文字本身虽没有阶级性,但也会受政治政策的影响。不过政策不符合文字发展的本性,恐怕也难起作用,如武则天造的字和第二简化字表,就都以失败告终。第一批简化字既已被大陆和世界最大多数华人所接受,决无倒退回去的道理。至于由于简化和归并造成的某些问题,在使用中完全可以理智地避免。实际上任何文字,包括繁体字,都可以找到这种会造成歧义的特例。同样不能把繁体字定为非法。我认为可以搞三五千字的常用字表,但不应该搞什么规范字表,限定汉字数。规范文字(包括规范字音、字义)通常应该由字典去承担。写文章总要求能让读者看得懂,采用读者熟识的字,不会用大量的生僻字,除非不想给别人看。为做到这点,作者可能翻字典而不会去查字表。我想现在最影响中文纯洁性的网络词语中的字母数字,不会纳入规范字表吧,但不能禁止许多人用它。如果不计偏旁替代产生的简化字,简繁不同的字就不多了,大陆青年即使没学过繁体字,现在接触多了也认得了,第一次常常是猜得的。因为大多数简体字来自草书或手写俗字,港澳台也是熟识的。简繁转换有时不一定是必要的,尤其对不对称的简繁字,不同时期、不同地区、不同的人用不相同的字,可能有不同含义,转换之后会丢掉一些信息。总之,我主张兼容并包,两岸交流多了,自然会书同文了。

  限定汉字数的做法更要不得。现在的电脑只能使用字库里有的汉字,还要依靠种种输入法,已经扼杀了汉字的发展,逼出奇形怪状的网络词语。我们应该让电脑也能自由使用任何字形,由实践来选择、形成新时代的字集。比起上百万的英文字来,九、十万汉字并不算多。虽然绝大部分是死字,但不能抹杀它的存在,说不定某时某刻要用到它,甚至复活或获得新含义。我们搞文字的,都应该首先致力于研究汉字的科学排序法,通过自动组字软件,把电脑的输入码、内码统一为同一个,编出易用易查的字典,那么什么问题都解决了。

  我说的不是输入码,而是汉字内码。二十年前,两岸文字不只是简繁不同,而是更严重的内码不同,软件不配套时,会显示一堆乱码,要经过内码转换才能阅读。现在中日韩所有汉字都统一在统一码Unicode中,没有乱码问题了,而且可以简繁转换。但是问题并没有完全解决。按Unicode的计划,要把世界上所有文字都纳进来,任何一个不同的字形,都有一个唯一的内码,完整的内码要4个字节,可容纳20亿个码位。因为世界上到底有多少种文字,复杂的如汉字到底有多少个字,都不能一次确定,妥善安排,只能由各个国家或地区分次申请注册。汉字已申请到7-8万个码位,但不是连成一片,而是割裂成许多段。字太多了,容易出错,有网友发现所谓的“电脑错字”,也有重复的。更难的是输入法,如何从近十万个汉字中选取您需要的。最后,还是有缺字,尤其缺一些人名用字,使不少人办不了第二代身份证。有一本电子书“国学备览”,就要用一千个图片,用来显示字库里没有的汉字。这说明用扩大字库的方法是不能解决问题的。于是Tom Bishop 和 Richard Cook提出汉字描述语言CDL,据说他们就在Unicode工作的。使用CDL,任何汉字都可以用比它简单的汉字或部件,最后都可以用笔画组出。

  比较一下中文和英文,英文字(词)虽然上百万,电脑里也永远不会缺字。原因在于:他们不是对字而是对字母编码的。字是开放的,可以任意造新字,且有自然的字典序。我们也改为对笔画编码,行吗?英文字母是线性排列的,汉字笔画是平面排列的,有可能笔画序列相同而汉字不同,怎么办?这个问题以及笔顺等等,都可以加一些约定来解决,难解决的还是汉字笔画数(平均10-11)比英文字母数(平均5-6)大一倍,码太长,也不直观。如果改为对部件编码,部件又太多。能不能将部件归并成100类,每类定一个高位为1的字节作为内码,只有该类内出现频率最高的部件直接用该码,其他部件则另加一个数码来分辨。这样,使两个高频部件的10000个组合能够囊括两千左右高频字,每字两字节。其他低频字,码长些,击键次数多一些也没有关系。这需要摸索试验,如果成功,输入码与内码相同,自然排序也有了,而且永不缺字,所有问题都解决了。为此,如果需要对常用字形作少量改变或限制,也是值得的,文字工具的改变引起汉字形态的一些变化,历史上就发生过,是正常现象。

  在汉字系统中使用组字技术,远不是我开始的。1985年陕西省气象局领导要求我,把已开发的袖珍机PC1500无字库汉字搬到微机上去。因而接触到当时的苹果机时,就知道了朱邦复先生的汉字系统,猜想他就是使用组字技术的。可惜这个课题很快就被停止了。到了新世纪之交,在网上联系到朱先生,下载了他的技术资料,但最终未能读懂。看来读懂别人的这种资料是很困难的,我写的也可能难以被人看懂。下面我尽量简单地介绍我的笔画组字概要。

  2003年,台湾易符公司叶健欣先生等6人来西安看我,他曾在朱先生手下工作过,当时与戚桐欣先生合作,是戚先生推荐了我。他向我介绍了他的无限字库及CDL(汉字描述语言)等。虽然因我的英文太差,未能通读所有资料,但基本搞懂了一般的组字办法是:给每个部件指定在汉字中的位置(左上角和右下角)或在两部件间加一个结构码(Unicode已有这种码)。我早在1984年搞的袖珍机无字库汉字,各部件已不必指定位置,其位置由各部件的笔画数按比例自动计算。每个部件都规定一个缺省的组字特性,只有小部分不按缺省特性组字的,才加结构符。进入新世纪,我又提出了由笔画组成部件(独体字)的层积理论。该理论认为,笔画都是按笔顺由上而下,逐步层积才形成汉字的。与横向笔画相交的,按笔顺必排在该笔画下部能到达的那个层,可以认为是它向上伸展了N层而发生的,在该笔画后加一个数N即可。凡左右并列的笔画,放在方括号内,被看作是一个层,可以各自上伸不同的高度,如果第一个笔画后加*N,则都从上一层开始上伸N层。这样一来,笔画序列就可正确地组成字形。所有汉字都可由笔画组出来了。但是,若用通常的图形拷贝方式,笔画和部件经过压缩、拉长等变形,笔画转角的特有形态及首尾笔锋就会变形,笔画粗细也不能保持一致,所以笔画只能用画线方式,即字体只能采用明线体。我循笔画的转折,在每笔中心设一条骨干折线,它可以伸缩变形。真正的笔画轮廓线采用贝塞尔曲线,其控制点则相对于最近的骨干线折点来定位。这样,问题就就解决了,如图所示。

书同文、文同码与无字库

  我的软件已经可以组出所有字形了,只是字形还不够美观,显示速度跟不上。最近推出的小字库WORD,原计划常用字采用字库字,罕用字才用组出的合成字,2.0版实际上可用所有字库字,且字库字也可用来组字。

(陕西省气象局 张时钊)

QQXIUZI.CN 千千秀字