[摘要]“中华字库”预计会收集人口信息中3000个左右未编码生僻字,该项目在明年年底完成后,可以有效解决取名生僻字在经济社会中难通用的问题。
注:图中“读音”栏中的5表示轻声
只因自己的名字里含有一个生僻字——“瓛”(音同“环”),多年来,银行存折、火车票、社保卡、驾照等处都无法正确显示全名,如今只要牵扯到电脑录入姓名或核实身份证上的姓名,不得不耗费很长时间。市民邵先生反映的取名生僻字困扰有望在近期得到解决。
4月13日,本报记者独家从北京北大方正电子有限公司(下文简称“方正电子”)获悉,方正电子确定承担“中华字库”中第17包“当代人名地名用字搜集与整理”和第20包“字库制作一:中间字库、宋体楷体等成果字库”项目研发,前者预计会收集人口信息中3000个左右未编码生僻字,该项目在明年年底完成后,可以有效解决取名生僻字在经济社会中难通用的问题。
名字被五角星号替代
邵先生的名字中含有一个生僻字“瓛”,该字由王字旁及“献”字组成,在由商务印书馆出版的《现代汉语词典》中收录该字,词典中解释该字义为玉圭的一种,多用于人名。据他回忆,最初起这个名字是按照辈分排下来的,名字取“玉石”的寓意,至今已用了58年,虽然这个字一直都不常用,但年轻时办很多手续都可以手写,没有对生活造成太多困扰。近年来,随着计算机的普及,好多手续都需要电脑输入信息,多个输入法打不出他的名字,即使一些输入法能打出来,程序却不承认,这让他感到非常不便。
在邵先生的证件中,仅有他身份证上的姓名完全正确;在多个银行存折中,“瓛”字被五角星号代替,在社保卡及驾照中,该字为手写添加;而在一些医院的报销单上该字被写成了其他形似汉字;火车票中该字被拼音代替。
因为身份证上的姓名与其他证件上的姓名并不完全一样,邵先生每次办事时都需花费多于别人几倍的时间。在银行,别的窗口都办完了十几个人的业务了,他想取钱都需要找相关负责人,最后在存折名字旁盖章才可以。为了节省时间,现在他都将钱放在银行卡中,以至于每次出门都得加倍小心——就冲这个名字,银行卡要是不小心丢了,挂失估计更麻烦。
字库汉字明年超7万个
像邵先生这样的烦恼,很多名字中包含生僻汉字的市民也都遇到过,主要原因还是人口信息部门使用的字库内容,与社会单位使用的字库并不完全吻合。为此,“中华字库”中专门启动了针对当代人名地名用字的搜集与整理。
承担该项目研发的方正电子字库业务部副总经理黄学钧介绍,“中华字库”工程由相关部委推出,是一项引领中华文化步入信息化、数字化时代的先导性、奠基性工程。工程共分为28个包,近30家高校、研究院所和企业参与了研发工作。其中,方正电子承担了第17包“当代人名地名用字搜集与整理”、第20包“字库制作一:中间字库、宋体楷体等成果字库”的研发。方正电子承担的第17包的主要任务是建立当代人名、地名用字字表与属性库,为“中华字库”的字库集成提供基础资料。
说起收集生僻字,黄学钧用“经验丰富”来形容他的研发团队,近年完成过多次同类项目:2011年,公安人口管理系统用字;2012年,第二代居民身份证用字;2013年,外交部电子护照用字。“计划纳入第17包的3000个字,我们也是根据相关部门的要求,将近年发现的人口身份信息中出现频率较高的姓氏、人名、住址所在地生僻字,纳入常用字库中,同时为‘中华字库’的字库集成提供基础资料。”他解释说,这部分字库计划于明年年底前完成,届时,字库中的汉字总量将会超过7万个。
给每个字都设一个“门牌号”
“不论是常用字还是生僻字,只有被纳入到字库当中,才算是找到家了。”在举例时,黄学钧说得最多的,就是给每个字都设一个门牌号,整个字库相当于一个网格式的大厦。比如,“住”在大厦左上角的“啊”字,其字库编码为“B0A1”。然而,要让一个个生僻字找到回家的路,其工作量远不止这些。
根据“中华字库”的编制要求,对搜集到姓氏、人名、地名用字进行查重整理后,建立相应的属性数据库,包括:序号、字形图像、读音、释义、汉字描述序列、用途类别、姓氏、人名用字需注明民族和属地信息,提交登记资料图像、地名用字需注明从省级地名下溯到包含该字的地名,提交登记资料图像。同时,本项目包资源搜集范围应在公安、民政、教育、邮政、测绘、银行等领域中选取,但必须包含公安和民政部门。搜集整理的姓氏、人名、地名用字尽可能覆盖社会用字的实际需求。属性数据库的属性项设置全面,标注完整,符合工程相关要求,差错率小于万分之一。
方正电子字库业务部总经理张建国介绍,作为国内最大、市场占有率最高的字体厂商,方正电子在完成上述字库项目后,将与“中华字库”共同拥有知识产权。凭借商业推广,这些生僻字有望在银行、医疗、教育留学,乃至电商领域被广泛使用,从而大大减少部分市民在经济社会中为“名”所累的烦恼。