中文分词其实有点像古代的句读(dou),韩愈的《师说》中就有:“彼童子之师,授之书而习其句读者也”。古人文章是没有标点符号的,行文一气呵成。如果不懂离经断句,就很难理解古文的意思。从某种程度上,句读就类似今天要讲的中文分词。
北京航空航天大学的梁南元教授提出了查字典的方法
查字典的方法就是把句子从左到右扫描一遍,遇到字典里有的词就标示出来,遇到不认识的字串就分割为单字词。如果分割出的词与后面的字不会组成更长的词,那么分割点就最终确定了。这种最简单的方法可以解决七八层以上的分词问题,在不太复杂的前提下,取得了还算满意的效果。
20世纪80年代哈尔滨工业大学的王晓龙博士将查字典的方法理论化,发展成最少词数的分词理论,即一句话应该分成数量最少的词串。但是并非所有最长匹配都是正确的,语言的歧义性是分词的最大难题。
1990年清华电子工程系的郭进博士率先使用统计语言模型成功解决分词二义性问题,将汉语分词错误率降低了一个数量级。最为简单的思考是有N中分词所得,统计各种分词结果出现的概率,选择最大概率的分词结果作为最好的分词方法。这里有一个实现技巧,如果穷举所有分词结果,显然会导致计算量大增。因此,可以看成一个动态规划问题,利用维特比算法快速找到最佳分词。这样就可以构造分词器:输入字串,输出分词字串,中间需要词典和语言模型作为辅助。
清华大学郭茂松教授解决了没有词典时的分词问题;香港科技大学吴德凯教授较早将中文分词方法用于英文词组的分割,并将英文词组和中文词组在机器翻译时对应起来。
另外,对于平板电脑和智能手机的出现,英文手写体中的分词常常是需要的,因此,中文分词方法可以帮助判别英语单词的边界。
衡量分词的结果可以采用分词的一致性;人工分词产生的原因主要在于人们对词的颗粒度认识问题。解决办法可以构建一个基本词表和复合词表,不断丰富完善复合词表,会将分词器的明显错误得以改进。
************************
2015-8-7