谈资料检索中的用字规范问题
由于电脑的普及和互连网的发展,资料检索越来越受到人们的重视。然而就现状来看,现行的资料检索存在着许多问题。我们可把这些问题分为三类。1、程序问题。例如输入“工作”,却检索出“笨猪”;输入“矿泉水”,却检索出一堆乱码。这跟计算机编程有关。2、知识问题。例如有这么个故事。有一个12岁的少年,在院子里踢球,把邻居家的玻璃踢碎了。这块玻璃12.5美元买的,你赔。孩子没办法,回家找爸爸。爸爸说,你踢碎的你就赔。没有钱,我借给你,一年后还。在接下来的一年里,这个孩子擦皮鞋、送报纸、打工挣钱,挣了12.5美元还给父亲。那么这个故事的主人公——那个12岁 的孩子——是谁呢?杂文作家朱慧松想在网上寻个究竟,结果:“输入关键词,不查不知道,一查吓一跳,类似的新闻在网上有上千条,故事内容大同小异,不过主 人公却五花八门,除了里根、华盛顿外,还有两位美国总统林肯、克林顿也‘有幸’赔了玻璃,另外英国前首相丘吉尔也榜上有名,不过文中的12.5美元换成了12.5英镑。最新版本的主人公是比尔·盖茨。”(《究竟是谁赔的玻璃》,《中国青年报》2003年4月28日)3、 用字问题。这个问题似乎比上面的两个问题要小,但也不可忽视。我们曾力图在一个小的语料库(由广西师大中文系语言学及应用语言学制作)中检索“坐落”二 字,以便明确该词的用法,结果却大失所望,这个库中只能检索到“座落”二字。这跟资料的原始存贮有关。这就涉及了资料检索中的用字规范问题。本文拟就这个 问题做一点探讨。
本文的研究方法是,选择28个常见别字和两个人名,对它们及其相应的正确写法加以检索,通过检索的数据发现问题,进而提出解决问题的方法。
我们分别在搜狐网和人民网中检索。检索结果见所附“调查简表”。
* * * * *
从表中可以看出以下两个问题。1、别字在电脑资料中是普遍存在的。就像出版界的“无错不成书”一样,可以说,无别字不成电脑资料。我们所检索的只是易错词语的一部分,假如把所有易错词语都做一下检索,那结果肯定是令人吃惊的。我们还对两个人名做了检索,一个是“吕叔湘”,一个是“侯耀文”,结果如下:
(吕叔湘)
|
吕叔湘 |
吕淑湘 |
吕叔相 |
吕淑相 |
搜狐网 |
994 |
210 |
2 |
1 |
人民网 |
41 |
1 |
0 |
0 |
(侯耀文)
|
侯耀文 |
侯跃文 |
候耀文 |
候跃文 |
搜狐网 |
6214 |
1344 |
280 |
93 |
人民网 |
75 |
87 |
3 |
1 |
看来,在电脑资料中,别字并不是个别现象。2、别字的分布是不均匀的。不仅两个网站的检索有一定的差异,不同的用字中别字所占比例也相差悬殊。有的别字在两个网站中比例都不大,如“不卑不亢”的“亢”;有的别字在两个网站中比例都不小,如“急流勇退”的“急”;有的别字比例超过50%,也就是说,别字比标准字用得还多,如搜狐网中“坐落”的“坐”,这是不正常的现象。当然,有人说网上重复的内容很多,可是别字有重复的,标准字也会有重复,因此总的看来应该是差不多的,一般不会出现这样的现象:标准字的几十万都是重复的,别字的几十个都不重复。
根据以上情况,我们认为:1、应该从根源上解决问题,尤其是在电脑资料的存贮阶段,应该花大的力气作好校对及录入工作,把别字尽量扼杀在源头;2、应该做更多的调查,把经常出现的别字按比例排一个表,把错误比例极高的一些用字当作重点规范对象,深入到中小学、媒体、窗口行业进行宣传,使大家对这些字烂熟于心,从而促进汉字规范化工作,为进一步实现书同文奠定基础。
附:调查简表
|
搜狐网 |
人民网 |
||||
标准字及用例数 |
别字及用例数 |
别字占总数的比例 |
标准字及用例数 |
别字及用例数 |
别字占总数的比例 |
|
莫名其妙 |
名194192 |
明9002 |
4.4% |
名3194 |
明155 |
4.6% |
励精图治 |
励23128 |
厉75 |
3.2% |
励507 |
厉0 |
0% |
义愤填膺 |
膺12292 |
赝110 |
0.8% |
膺841 |
赝2 |
0.2% |
甘拜下风 |
拜11648 |
败476 |
3.9% |
拜108 |
败5 |
4.4% |
川流不息 |
川11899 |
穿490 |
3.9% |
川618 |
穿8 |
1.2% |
按部就班 |
部22539 |
步4718 |
17.3% |
部842 |
步37 |
4.2% |
流连忘返 |
连32914 |
恋134 |
0.4% |
连1070 |
恋36 |
3.2% |
指手画脚 |
画10948 |
划6986 |
38.9% |
画509 |
划322 |
38.7% |
一如既往 |
既143346 |
继7042 |
4.6% |
既3862 |
继64 |
1.6% |
沧海一粟 |
粟12012 |
栗965 |
7.4% |
粟125 |
栗3 |
2.3% |
名副其实 |
副59780 |
符16492 |
21.6% |
副3441 |
符477 |
12.1% |
墨守成规 |
墨7364 |
默109 |
1.4% |
墨366 |
默2 |
0.5% |
铤而走险 |
铤13733 |
挺1736 |
11.2% |
铤2072 |
挺28 |
1.3% |
张皇失措 |
皇602 |
慌101 |
14.3% |
皇12 |
慌2 |
14.2% |
不卑不亢 |
亢6998 |
抗20 |
0.2% |
亢215 |
抗0 |
0% |
名列前茅 |
茅52192 |
矛5026 |
8.7% |
茅2716 |
矛34 |
1.2% |
急流勇退 |
急3472 |
激2772 |
44.3% |
急102 |
激129 |
55.8% |
变本加厉 |
厉19277 |
利1064 |
5.2% |
厉1107 |
利18 |
1.6% |
山清水秀 |
清18620 |
青13300 |
41.6% |
清580 |
303 |
34.3% |
文过饰非 |
饰1106 |
是11 |
0.9% |
饰132 |
是0 |
0% |
明察秋毫 |
察4494 |
查420 |
8.5% |
察163 |
查1 |
0.6% |
既往不咎 |
咎2814 |
究308 |
9.8% |
咎132 |
究1 |
0.7% |
平心而论 |
平10990 |
凭7742 |
41.3% |
平710 |
凭125 |
14.9% |
轻歌曼舞 |
曼4298 |
慢378 |
8.0% |
曼106 |
慢1 |
0.9% |
妥帖 |
帖2352 |
贴3723 |
61.2% |
帖82 |
贴59 |
41.8 |
脉搏 |
搏108220 |
博4494 |
3.9% |
搏2147 |
博37 |
1.6% |
欢度 |
度2052 |
渡196 |
8.7% |
度1308 |
渡22 |
1.6% |
坐落 |
坐114156 |
座208180 |
64.5% |
坐4166 |
座907 |
17.8% |
(广西师范大学图书馆 魏芙蓉)