谈资料检索中的用字规范问题

来源 《汉字书同文研究》第5辑(2004年) 发布时间 2014-12-13

由于电脑的普及和互连网的发展,资料检索越来越受到人们的重视。然而就现状来看,现行的资料检索存在着许多问题。我们可把这些问题分为三类。1、程序问题。例如输入“工作”,却检索出“笨猪”;输入“矿泉水”,却检索出一堆乱码。这跟计算机编程有关。2、知识问题。例如有这么个故事。有一个12岁的少年,在院子里踢球,把邻居家的玻璃踢碎了。这块玻璃12.5美元买的,你赔。孩子没办法,回家找爸爸。爸爸说,你踢碎的你就赔。没有钱,我借给你,一年后还。在接下来的一年里,这个孩子擦皮鞋、送报纸、打工挣钱,挣了12.5美元还给父亲。那么这个故事的主人公——那个12岁 的孩子——是谁呢?杂文作家朱慧松想在网上寻个究竟,结果:“输入关键词,不查不知道,一查吓一跳,类似的新闻在网上有上千条,故事内容大同小异,不过主 人公却五花八门,除了里根、华盛顿外,还有两位美国总统林肯、克林顿也‘有幸’赔了玻璃,另外英国前首相丘吉尔也榜上有名,不过文中的12.5美元换成了12.5英镑。最新版本的主人公是比尔·盖茨。”(《究竟是谁赔的玻璃》,《中国青年报》2003年4月28日)3、 用字问题。这个问题似乎比上面的两个问题要小,但也不可忽视。我们曾力图在一个小的语料库(由广西师大中文系语言学及应用语言学制作)中检索“坐落”二 字,以便明确该词的用法,结果却大失所望,这个库中只能检索到“座落”二字。这跟资料的原始存贮有关。这就涉及了资料检索中的用字规范问题。本文拟就这个 问题做一点探讨。

本文的研究方法是,选择28个常见别字和两个人名,对它们及其相应的正确写法加以检索,通过检索的数据发现问题,进而提出解决问题的方法。

我们分别在搜狐网和人民网中检索。检索结果见所附“调查简表”。

*          *          *          *          *

从表中可以看出以下两个问题。1、别字在电脑资料中是普遍存在的。就像出版界的“无错不成书”一样,可以说,无别字不成电脑资料。我们所检索的只是易错词语的一部分,假如把所有易错词语都做一下检索,那结果肯定是令人吃惊的。我们还对两个人名做了检索,一个是“吕叔湘”,一个是“侯耀文”,结果如下:

(吕叔湘)

 

吕叔湘

吕淑湘

吕叔相

吕淑相

搜狐网

994

210

2

1

人民网

41

1

0

0

    (侯耀文)

 

侯耀文

侯跃文

候耀文

候跃文

搜狐网

6214

1344

280

93

人民网

75

87

3

1

    看来,在电脑资料中,别字并不是个别现象。2、别字的分布是不均匀的。不仅两个网站的检索有一定的差异,不同的用字中别字所占比例也相差悬殊。有的别字在两个网站中比例都不大,如“不卑不亢”的“亢”;有的别字在两个网站中比例都不小,如“急流勇退”的“急”;有的别字比例超过50%,也就是说,别字比标准字用得还多,如搜狐网中“坐落”的“坐”,这是不正常的现象。当然,有人说网上重复的内容很多,可是别字有重复的,标准字也会有重复,因此总的看来应该是差不多的,一般不会出现这样的现象:标准字的几十万都是重复的,别字的几十个都不重复。

    根据以上情况,我们认为:1、应该从根源上解决问题,尤其是在电脑资料的存贮阶段,应该花大的力气作好校对及录入工作,把别字尽量扼杀在源头;2、应该做更多的调查,把经常出现的别字按比例排一个表,把错误比例极高的一些用字当作重点规范对象,深入到中小学、媒体、窗口行业进行宣传,使大家对这些字烂熟于心,从而促进汉字规范化工作,为进一步实现书同文奠定基础。

附:调查简表

 

搜狐网

人民网

标准字及用例数

别字及用例数

别字占总数的比例

标准字及用例数

别字及用例数

别字占总数的比例

其妙

名194192

明9002

4.4%

名3194

明155

4.6%

精图治

励23128

厉75

3.2%

励507

厉0

0%

义愤填

膺12292

赝110

0.8%

膺841

赝2

0.2%

下风

拜11648

败476

3.9%

拜108

败5

4.4%

流不息

川11899

穿490

3.9%

川618

穿8

1.2%

就班

部22539

步4718

17.3%

部842

步37

4.2%

忘返

连32914

恋134

0.4%

连1070

恋36

3.2%

指手

画10948

划6986

38.9%

画509

划322

38.7%

一如

既143346

继7042

4.6%

既3862

继64

1.6%

沧海一

粟12012

栗965

7.4%

粟125

栗3

2.3%

其实

副59780

符16492

21.6%

副3441

符477

12.1%

守成规

墨7364

默109

1.4%

墨366

默2

0.5%

而走险

铤13733

挺1736

11.2%

铤2072

挺28

1.3%

失措

皇602

慌101

14.3%

皇12

慌2

14.2%

不卑不

亢6998

抗20

0.2%

亢215

抗0

0%

名列前

茅52192

矛5026

8.7%

茅2716

矛34

1.2%

流勇退

急3472

激2772

44.3%

急102

激129

55.8%

变本加

厉19277

利1064

5.2%

厉1107

利18

1.6%

水秀

清18620

青13300

41.6%

清580

303

34.3%

文过

饰1106

是11

0.9%

饰132

是0

0%

秋毫

察4494

查420

8.5%

察163

查1

0.6%

既往不

咎2814

究308

9.8%

咎132

究1

0.7%

心而论

平10990

凭7742

41.3%

平710

凭125

14.9%

轻歌

曼4298

慢378

8.0%

曼106

慢1

0.9%

帖2352

贴3723

61.2%

帖82

贴59

41.8

搏108220

博4494

3.9%

搏2147

博37

1.6%

度2052

渡196

8.7%

度1308

渡22

1.6%

坐114156

座208180

64.5%

坐4166

座907

17.8%

(广西师范大学图书馆 魏芙蓉)

QQXIUZI.CN 千千秀字