繁简“非对称”字组的自动转译实验

作者 李牧 来源 《汉字书同文研究》第8辑 发布时间 2014-12-18

1. 提要

1.1 定义:

本文所谓“繁体”,泛指台湾规范字;“简体”泛指大陆规范字。“非对称”的繁简对应也包括异体关系,笔者刻意不予区分,因为无论它们的关系如何,其解决的方式一样,须化“非对称”为“一对一”的对应。

1.2 样本:

各家得出的“非对称”字组数量有相当差异,其原因除是否包含异体关系之外,还有就是各人所依据的样本资料不同。笔者是以大陆规范《现代汉语通用字表》7000字,以及台湾规范CNS11643常用5401字为主要样本,加上为求二者对应而采录的1700多个台湾次常用字,合计样本字数7376字,共得“非对称”270字组(一简对二繁240组,一简对三个以上繁体字30组)。字组数量曾依实际情况更新,并用繁简自动对译一一验证无误。

1.3 自动转译的实验:
因为“非对称”字组中包括不少异体关系,所以,要解决此项问题,使两岸文字成为”一对一”的对称,必须彻底解决异体字的分歧,甚至需要两岸文字规范的统合;但这并非短期内能达到的目标。目前海峡两岸交往频繁,繁简字的转译全赖计算机自动转换。以短程目标而言,如果自动对译时没有误译,则即使存在“非对称”字组,也不至于影响文意的正确传达。基于这个理念,笔者作了全部270字组自动转译的实验(见文末附表),并假定完全没有词汇的智能设计。转译实验的结果显示:“繁转简”时,都没有误译,“非对称”字组皆可保持现状;“简转繁”时,大部分字组也没有误译,只有18组字出现误译,须作改变。

2.0 自动转译实验的方式及结果

2.1 实验的方式:

就“一简对二繁”言,某一简体字(代号J)对应了二个繁体(代号F1,F2),设“>”表示繁简或简繁自动转译,则第一步:J > F1 > J ,第二步:F2 > J 。经过转译后,如果3个简体字(J)完全相同,则表示“繁转简”应该没有问题。例如:郁>鬱>郁,郁>郁,转译后3 个简体字J (郁)完全相同。而“一简对三繁”或一对三以上的字组则照上述方式,继续作“繁转简”的对译,即F3>J,F4>J,…。至于“简转繁”的对译有否误译,除观察上述结果之外,还要考量日常用词问題。例如:前面所举“郁鬱”字组,转译后3 个简体字J (郁)完全相同,而“郁”是姓氏用字,就可能会有“郁”某人>“鬱”某人的误译。因此繁体“鬱”应加以处理。由于“鬱”笔画太多,与其由大陆规范增添,不如由台湾规范取消,并认同简化字“郁”的现行字义,以“郁”代“鬱”。目前台湾书局销售简体书籍的不少,台湾民众认识简化字也相当多,相信个别字的取代应是可行。其实台湾现行规范也不必改订,只要在“简繁转译”时,简化字“郁”保持原字形就可。

2.2 实验所得结果:

  在“非对称”270字组中,就一般应用而言,“繁转简”几乎全无问题。这是因为“一对多”中的多个繁体字对应的都是同一个简体字。例如:繁体“績”对应简体“绩”,“勣”为异体,但对应的简体也是“绩”。繁体词汇“成績、功勣”转译为“成绩、功绩”,文意没有改变。另一方面,“简转繁”时,在270组“非对称”字中,虽然大部分没有问题(理由同上),但却有18个字组(占7%)须作一些调整,否则就会有错译出现。例如:卜卦>蔔卦,丁丑>丁醜,划船>劃船…。须更改的“非对称”字组,如表1 所示。

表1.  须改进的18个非对称字组

非对称字组

繁译简(无误)

简译繁(误译)

J

F1

J

F2>J

建议: +(增)

卜/蔔卜:

卜挂>卜挂

卜挂>蔔掛

卜>卜

[陆规]+蔔

丑/醜丑:

丁丑>丁丑

丁丑>丁醜

丑>丑

[陆规]+醜

斗/鬥斗:

五斗>五斗

五斗>五鬥

斗>斗

[陆规]+鬥

或改成[门斗]

发/發髮:

梳頭髮>梳头发

梳头发>梳頭發

髮>发

[陆规]+

或改成[发彡]

范/範范:

范某人>范某人

范某人>範某人

范>范

[台规]改用[范]

复/複復:

復興>复兴

复兴>複興

復>复

[陆规]+復

谷/穀谷:

山之谷>山之谷

山之谷>山之穀

谷>谷

[陆规]+穀

后/後后:

皇后>皇后

皇后>皇後

后>后

[陆规]+後

划/劃划:

划船>划船

划船>劃船

划>划

[台规]改用[划]

坏/壞坏:

陶坏>陶坏

陶坏>陶壞

坏>坏

[台规]坏改作坯

几/幾几:

茶几>茶几

茶几>茶幾,

几>几

[台规]改用[几]

姜/薑姜:

姜某人>姜某人

姜某人>薑某人

姜>姜

[陆规]+

里/裏里:

6里遠>6里远

6里远>6裏遠

里>里

[陆规]+裡或裹

历/曆歷:

歷經>历经

历经>曆經

歷>历

[陆规]+

么/麼, 幺/么

么喝>么喝

么喝>麼喝

么>么

[台]么改作幺

咸/鹹咸:

咸豐>咸丰

咸丰>鹹豐

咸>咸

[陆规]+

郁/鬱郁:

憂鬱>忧郁

郁先生>鬱先生

郁>郁

[台規]改用[郁]

干/幹榦干:

干與>干与

干与>幹與

干>干

[陆规]+

    此外,为求简繁文本转译后文意表达的准确,有6个字须作改进,如下表所示。

并/並併并:并vs并/並,

併(如併吞),动词

[陆规]+

局/局侷跼:局vs局/侷        

跼,曲身,宜另列

[陆规]+

蒙/蒙濛矇懞:蒙vs蒙/矇/懞  

濛(如濛濛细雨)

[陆规]+

台/台臺檯颱:台vs 臺檯         

颱(颱风与台风有别)

+颱[风台]

系/系係繫:系vs系/繫             

係有“乃”义,宜另列

[陆规]+

只/只隻衹:衹/只;[qi2]僧衣

只/隻对应, 衹另列

[陆规]+

由上表可知,大陆规范须增加12字:蔔、鬥、醜、髮、復、穀、後、薑、裡、歷、鹹、幹。它们可恢复为繁体,有的亦可简作其它字形。如:

鬥,亦可改作[门斗],以便书写。

髮,亦可简作[发彡],新的形声字。[发]用作声符,[彡]用作形符,类如”须”的形符。

後,常有“皇後”之类的错译,简转繁对译时不妨直接以“后”代“後,即两岸同用“后”表“後”义。

穀,可照“壳”的方式予以简化。

鹹,形旁“鹵”可类推简化作“卤”,以省笔画。

幹,亦可取“幹”的右旁。

台湾规范字要改的6字:範、劃、幾、鬱、坏、么 。

繁体“範、劃、幾、鬱”笔画太多,应从简;使用“范、划、几、郁”,达成与简体一致。

繁体“坏”是“坯”的异体,又是“壞”的简体,二者形同而音义互异,故宜用“坯”代“坏”,“坏”专用作“壞”的简体。

繁体“么”[yao]的简体是“幺”,而同形的“么”[mo]又作为“麼”的简体,形同而音义互异,故繁体“么”[yao]应改作“幺”,以与简体作对应。

3.0 某些非對稱字轉譯的調整(举例说明)

    目前繁简自动转译在市场上有不同的软件,但所依据的是大家公认的一个繁简对照表。笔者在作自动转译实验时,发现这个对照表的一些字组,若能作合理的变更,对解决非对称问题,有所助益。须更正的”自动转译”的字组共31个字例,如下表所示。表中最后一栏注明更正的理由。理由共有六项:

  a. 原译字为繁体字异体    b.新译字与简体字同形或对应   c.新译字可免二义性误译

d. 改正原译字错误        e. 新译字结构简单            f. 新译字具有形声功能

   表 2.   简繁转译时现译字的更正 (31)

 

非对称字

说           明

原译

新译

理由

1

痴/癡痴

癡,台规异体;痴,形声兼意,两岸共作规范

a.b e.f

2

虫/蟲虫

虫义同蟲,虫另有虺(hui3)义

b.e

3

冬/冬鼕

象声不宜用冬, 鼕vs咚

b.d

4

党/黨党

黨,本义为黝黑;党,本义地方组织,更近今义

b.e

5

炖/燉炖

炖义含燉(煮)

b.e

6

挂/掛挂

掛为挂或体

a.b

7

饥/饑飢

宜从简;饥/飢对应较佳

b.e

8

汇/彙匯

汇可兼彙义,汇与匯对等对应

b.e.f

9

荐/薦荐

薦,台湾规范的异体, 两岸共用荐为规范

a.b.e

10

据/據据

据除含據义外,尚有“拮据”义

b.c

11

霉/黴霉

黴,异体,两岸同用霉为规范字

a.b.f

12

捻/撚捻

捻,以指搓,捏; 说文作撚

b.e.f

13

啮/齧嚙

齧,同啮

b.e

14

确/確确

确, 说文作确,徐铉:今俗作確,非是

b.f

15

晒/曬晒

曬,台湾规范的异体

a.b.e

16

尸/屍尸

尸含屍义

b.e

17

叹/歎嘆

歎,或体

a.b

18

体/體体

从简,體不用;两岸共用体为规范

b.e

19

万/萬万

万,台湾规范次常用字,但亦常见

b.e

20

污/汙污

污,或体,但污常用

b

21

吁/籲吁

从简,籲不用

b.e

22

勋/勳勛

勳,台湾规范的异体

a.b.e

23

愿/願愿

愿义同願,形符心较能表意

b.e

24

艳/豔艷

台湾规范艷为豔异体,但”艷”字理明白

b.

25

药/藥葯

葯,台规次常用字,但药亦常见

b.

26

岳/嶽岳

嶽,异体;用岳可免岳飞译成嶽飞

b.c

27

云/雲云

雲,累增,云兼雲義;如孔子云>孔子雲

b.c

28

涌/湧涌

涌为湧或体;取涌舍湧

b.e

29

证/證証

在凭证/验证上,证證相通

b.e

30

冢/塚冢

塚,累增

b.e

31

袅/嫋嬝裊

台规裊/嬝常用;嫋,次常用

b.e

    这样在二(多)个繁体中选用一个较佳的字,与简体配对,等于为传统汉字做了一番文字整理工作。原用字(如“癡”)目前字频可能较高,择优选用(如用“痴”)之后,由于网络的频繁转译,新译字(如“痴”)将渐渐取得优势,而为大家所乐用。这不仅解决了繁简的“非对称”问题,更有优化汉字的作用。“痴(病于知)”不仅比“癡”更符合字理,而且结构简单,易于分析与编码。

4.0建议剔除的异体字

4.1 剔除异体字的原则及字例

    前文己说明,要彻底解决繁简“非对称”的问题,必须使它们“一对一”的对应,亦即在“多繁”中删除异体,或把“非异体”的字加入大陆规范中。如果甲乙二字的字义全合(犹如二个同心等径的圆),则为“迭合异体”;如果甲字的字义包括了乙字(大圆含着小圆),则为“包孕异体”;这二种情况都可取一舍一。很多情形是甲乙二字的字义有交叉但并不全等(二圆互交),就要二字并取。异体字的研究因涉及古书的训诂,是很费力而难精确的事。笔者浅陋,只举出一些字例作尝试。尚请方家给予指正。

表3. 建议剔除的93个异体字

非对称字(异体字)说明

拟删字

非对称字(异体字)说明

拟删字

杯/杯盃:盃,或体

尝/嘗嚐:嘗含嚐(试味)义

吃/吃喫:喫,或体

锤/錘鎚:鎚为锤或体

棰/棰箠:箠为棰或体

堤/堤隄:隄,或体

唇/唇脣:脣,或体

挂/掛挂:掛为挂或体

焊/焊銲:銲通焊(接)

绩/績勣:勣,或体  

哗/嘩譁:譁,或体

迹/跡蹟:蹟为跡的或体

鉴/鑒鑑:鑑义己为鉴/镜义取代

尽/盡儘:儘累增

剿/剿勦:勦为剿或体 

浚/浚濬:从简,濬不用

坑/坑阬:阬,或体

漓/漓灕:漓义含灕,灕罕用

璃/璃琍:琍,异体

帘/簾帘:簾,异体

梁/梁樑:樑,累增,台湾规范异体

炉/爐鑪:鑪,或体

菱/菱蔆:蔆为菱本字

霉/黴霉:黴,异体

秘/秘祕:秘,或体

娘/娘孃:孃,或体

乃/乃迺:迺,或体

盘/盤槃:槃,异体

炮/炮砲:砲,或体

强/強彊:彊,或体

戚/戚慼:戚可含慼义

箬/箬篛:篛,或体

剩/剩賸:賸,异体

搜/搜蒐:蒐,异体

湿/溼濕:溼,或体

蓑/蓑簑:簑,异体

叹/歎嘆:歎,或体

眺/眺覜:覜,异体

藤/藤籐:籐,异体

溪/溪谿:谿,异体

谿

嘻/嘻譆:譆为嘻异体

弦/弦絃:絃,异体

衔/銜啣:啣,或体;衔义含啣

闲/閑閒:閒,异体

筱/筱篠:《集韵》:筱或作篠

恤/恤卹:卹,或体

泄/泄洩:洩,或体

烟/煙菸:菸,今字作煙

岩/岩巖:岩,会意;巖,形声

肴/肴餚:餚,累增;餚同肴

焰/焰燄:燄异体

迤/迤迆:迆,异体

咱/咱喒:喒,异体

棹/棹櫂:櫂为棹或体;棹义含櫂

占/占佔:佔,累增;占含佔义

背/背揹:揹动词,背可兼揹义

别/別彆:彆,弓末端;别扭=彆扭

出/出齣:出可兼齣义

彩/彩綵:彩义含綵义(色彩,彩衣)

杆/杆桿:从简,桿不用

杠/杠槓:从简,槓不用

克/克剋:剋,累增,克兼剋义

卷/卷捲:捲,累增,卷兼捲义

累/累纍:累含纍义;纍,不常用

卤/鹵滷:繁体鹵又作滷,滷异体

念/念唸:念可兼唸义

球/球毬:毬,今字作球

虱/虱蝨:蝨,字亦作虱(或体)

席/席蓆:席含蓆义

熏/熏燻:熏含燻義

效/效傚:傚,累增

咽/咽嚥:咽义含嚥(yan4,吞)

扬/揚颺:扬含颺(飘扬)义

照/照炤:照含炤(明,耀)义

沾/沾霑:沾含霑义(浸湿,附着)

致/致緻:致含緻义(精细)

冢/塚冢:塚,同冢

赞/贊讚:贊含讚义(称赞)

殷/殷慇:殷含慇义

筑/築筑:筑含築义(建造)

注/注註:注含註义(批注,附记)

泛/泛氾汎:汎,氾或体;          

汎/氾

刨/刨鉋鑤:刨可兼动名词

捆/捆梱綑:綑通捆

袅/嫋嬝裊:裊/嬝常用;嫋,次常

嬝/嫋

苏/蘇甦囌:甦为异体

囌/甦

升/升昇陞:升含昇/陞義

昇/陞

愈/愈瘉癒:愈含瘉/癒义          

瘉/癒

4.2 异体字研究中的困难——以“累/纍”为例

  由《汉语大字典》查得“累/纍”的古今字义如次,(所引录古籍字句在此均省略)。

lei3

1)堆积;2)连续、屡次;3)重迭;4)增加;5)拖累;6)合计;7)絫;计量单位;8)转行貌;9)通裸;10)姓。

lei2

1)绳索,亦作缧;2)拘捆;3)同交配期牡牛。

lei4

1)负担;2)伤害;3)嘱托;4)罪行;5)缺陷;6)忧患;7)疲劳;8)从;9)恐;10)指妻子与资产;11)亏欠;12)缠绕。

lv4

古匈奴官名。

lie4

地名。

lei2

1)连缀;2)绳索,亦作缧;3)缠绕;4)拘捆;5)无罪而被迫致死;6)延及;7)联络貌;8)盛甲的器具;9)公牛;10)姓。

lei3

同累;堆积、重迭。

lei4

同累;拖累。

  《汉字形义分析字典》则着重今义解释,并表示“纍”是“累”的包孕异体,查得“累”的字义如下:

lei4

疲劳

 

lei2

1)累赘; 2)累累成串的。

 

lei3

1)堆积;2)连续、多次;3)牵连。

     笔者相信“累”的原字形是“纍,声符“畾”兼意,表示累赘、连绵;犹如“雷”的原字形是“雨/畾”,雷声隆隆,连续重迭。但“雷”的原字形被淘汰,而“累”的原字形“纍”与“累”并存。在并存期中古人或用“累”或用“纍”,以致有《汉语大字典》那样纷歧的音义释解。因此,若从古今字义去判断,“累/纍”似应分列为二字;但若着重今义,则“纍”是“累”的包孕异体。

    假定“书同文”的目标是5000个通用字,笔者主张,核定异体字不妨从宽,也就是应着重今义,使较多的异体淘汰。所谓淘汰是使它离开“通用字集”,回到汉字的“备用字库”,让专家学者在必要时访问它。台湾文字学家赵友培说:“字无生死,只有存废”,便是这个意思。偏爱繁体字的网友,大可放心吧。

5.0 结语

经过繁简自动转译的实验后,得到如下结果:

1.“繁转简”自动对译 ---即使存在“非对称“字组,亦极少有错译问题,笔者多年来的实践也证明了这一点。

2.“简转繁”自动对译 ---大部分没有问题,只有18个字组有误译的情况,有待改进 (详表1.)。

3. 有31个现译的字组若能作一些合理的变更,选择一个适当对应的繁体字,对解决“非对称“问题,有所助益 (详表2 ) 。

4.异体问题的研究相当不易,笔者建议着重在今义的分析。为达到书同文(5000通用字)的目标,古义或罕用义暂可忽略。笔者拟议删除的 93个异体字(详表3),是否妥适,尚待方家给予审阅并指正。

5. 在“非对称”270字组中,本文已提出建议的共148(18+6+31+93)组,尚余122组是待决的异体问题。

笔者生长在繁体字的语境中,迄今仍习惯使用繁体打字。在网站上发表的简体文章,完全是自动转译而成的。多年来实践的经验,得知”繁转简”的文本极少出问题。出问题的还是一些词汇的不当转译,例如繁体“字元”译作简体“字符”,有违笔者的原意。由此可知智能设计的功能有其限度,而繁简“非对称“问题的解决,根本之道还是自改进两岸文字规范本身着手。

【主要参考文献】

李牧《两岸汉字字形的比较与分析》,周胜鸿、陈明然主编《汉字书同文研究》第6辑(33-56页),香港鹭达文化出版公司2005年5月版。www.yywzw.com/stw 。

《语讯》编辑部《汉字简一繁多对应表》,香港《語文建設通訊》第90期;URL:http://www.huayuqiao.org 。

作者简介:
李 牧,台湾退休工程师,现定居加拿大。

QQXIUZI.CN 千千秀字