中文分词算法 从洗手机谈中文分词技术
昨天有消息说,为了杜绝甲型H1N1流感,台湾省花莲一家饭店在大厅放置酒精消毒洗手机让游客洗手。不过,这样贴心举动却意外闹出笑话。一群到花莲游玩的大陆游客却把“消毒洗手机”,误以为是洗手机的机器,一进大厅全都把手机拿去洗,令业者当场傻眼。 好笑之余,不禁想提醒诸网友,大陆游客之所以将“洗手的机器”误以为“洗手机的机器”,完全是因为“中文分词”在作怪。 所谓的“中文分词”,是指将连续的中文字的序列按照一定规范重新组合成词的序列的过程。像上述所说的“消毒洗手机”,如果用英文描述,应该是“disinfection Washing”。与中文不同,在英文中,词与词之间是由空格来分开的,所以不会发生游客“洗手机”的笑话;而我们所使用的中文就不同了,在一个句子当中词与词之间没有任何的间隔,而要切分出合乎本意的词序,这就要用到“中文分词”技术了。 中文分词常用的方法有如下四种:一是正向最大匹配法,即按照每词包含字数先多后少的原则,从左向右切分原字序;二是逆向最大匹配法,也就是按照每词包含字数先少后多的原则,从左向右切分原字序;三是最少切分法,也就是按原字序中切出的词数最少;四是双向匹配法,即正向最大匹配法与逆向最大匹配法的组合。 以“消毒洗手机”为例,如果按照正向最大匹配法切分,结果是:消毒/洗手/机;如果按照逆向最大匹配法切分,结果则会是:消毒/洗/手机;而如果按照最少切分法,结果又会是:消毒洗手/机。几种切分结果,第一种无疑是最符合本意的。但是几千年所成就的中文历史,博大精深之处在于其切分方法并没有什么规律可循。有数据表明,正向最大匹配法切分的错误率为1/169,而逆向最大匹配法的错误率为1/245,正好与“消毒洗手机”的切分结果相左。 中文分词技术并不是枯燥贬味的屠龙之技,在现实生活中,其广泛应用于信息检索、自动翻译等领域,特别是在互联网搜索引擎中,中文分词则更是一个极其重要的核心技术。熟练掌握中文分词技术并运用到文档写作中,对于搜索引擎优化、提高网站访问量具有不可替代的作用。
更多阅读
从发音方法谈“气沉丹田”的理论依据(王希) 气沉丹田的四字口诀
从发音方法谈“气沉丹田”的理论依据王希(山东艺术学院老干部处)摘 要:从声乐、戏曲演唱发音方法研究“气沉丹田”与“声贯顶”的互动关系,由演唱生理机制系统分析腹式呼吸机能活动与丹田气对胸腔、喉腔气息的真气贯通。养气与演唱过
从中医角度谈脑血管原因之一 中医治疗脑血管破裂
从中医角度谈脑血管原因之一中国人传统中喜欢喝开水,开水也就是把水放到水壶中加热至沸腾,生水就变成了开水。虽然同样是水,但对人体来讲,生水和开水却有天壤之别。这里不谈它们的区别,且说烧水过程中的变化。水壶中的水受热,便开始对流
从企业角度谈大学生消费市场 -中国市场监测中心-中国市场监测网 消费者角度
从企业角度谈大学生消费市场日期:2005-11-7 14:40:14 来源: 编辑: 432对很多企业来是说,大学生市场无疑是一个值得注意的巨大市场,蕴藏着很大的商机,把握住大学生这一市场对企业来说是有重要意义的,不仅仅在于当今,从长远利益来讲,也把握住
转载 从黄色歌曲谈一代文艺创作者的自我修养文/王路 王路 凤凰网
是篇好评论。原文地址:从黄色歌曲谈一代文艺创作者的自我修养(文/王路)作者:王路一、能对三观进行深入破坏的作品,不啻革故鼎新的佳作1980年,海政歌舞团苏小明唱了一首《军港之夜》,军队有首长说,苏小明的歌,咿咿呀呀,没有革命气势,纯属靡靡之
有事找百度,百度真的是神吗?请看分词技术 百度中文分词接口
(2011-05-25 21:14:19)有事找百度。不知道这句话,大家陌生不?反正我是现在不陌生了。还记得没有创业,做饰品这一行业开始,在大连去学过软件编程等等。那时候老师就说,让我们多学会运用百度。而,听陈老师最近的讲解后,终于知道了百度。我们