中文分词—基于Lucene的分词器—支持中英文混合词

zoukankan html css js c++ java

中文分词—基于Lucene的分词器—支持中英文混合词

最近自己动手写了一个中文分词器，没有什么高深的算法，就是基于词库匹配的一个简单程序。

该分词器支持中英文混合词，像“大s” ，“小3” 什么的，只要自己的词库有这个词，他就能分出来。

这个分词原理是正向最大匹配，不过只有简单消除歧义。

个人觉得消除歧义的话，只适合部分句子，有时候消除歧义反而会让有些正常语句分出不好的结果来。

该程序没有做过多消除歧义，个人觉得消除歧义这种方法对于一个通用的分词器作用很大。

如果你的分词器是用来针对某个领域的话，消除歧义不建议使用，如果你了解分词原理并对消除歧义测试结果做过大量测试的话，你会发现这点。（这只代表我个人观点，不喜勿喷）

现在开始介绍下该分词器：

分词原理：假如有这么一句话   "你好，我是TomcatTD"

程序接收到这句话后，会从左到右依次读取，遇到标点符号的话截断，出现的每个词都和词库进行比较，如果词库里没有这个词，则取下个字开头的词

例子

你

你好

你好，

，

我

我是

TomcatTD

如果你词库里有 ”你好“，“我是” 这两个词的话

他就会分出来

最后结果是：你好      ，        我是          TomcatTD

如果是“大s的妈妈病了”

只要你在词库里添加 “大s” “妈妈” “病了”

就会分出 “大s          的           妈妈           病了”

查看全文

相关阅读:
【数论】错排问题
 【数论】求逆元的几种方式
 【数论】卢卡斯定理模板洛谷P3807
【单调队列优化dp】分组
 【期望dp】绵羊跳弹簧
 软件工程总结
 结对项目-地铁出行路线规划程序（续）
个人作业--week3
个人作业-week2
个人作业-week1

原文地址：https://www.cnblogs.com/tomcattd/p/2835591.html