zoukankan      html  css  js  c++  java
  • 中文分词—基于Lucene的分词器—支持中英文混合词

    最近自己动手写了一个中文分词器,没有什么高深的算法,就是基于词库匹配的一个简单程序。

    该分词器支持中英文混合词,像“大s” ,“小3” 什么的,只要自己的词库有这个词,他就能分出来。

    这个分词原理是正向最大匹配,不过只有简单消除歧义。

    个人觉得消除歧义的话,只适合部分句子,有时候消除歧义反而会让有些正常语句分出不好的结果来。

    该程序没有做过多消除歧义,个人觉得消除歧义这种方法对于一个通用的分词器作用很大。

    如果你的分词器是用来针对某个领域的话,消除歧义不建议使用,如果你了解分词原理并对消除歧义测试结果做过大量测试的话,你会发现这点。(这只代表我个人观点,不喜勿喷)

    现在开始介绍下该分词器:

    分词原理 : 假如有这么一句话   "你好,我是TomcatTD"

    程序接收到这句话后,会从左到右依次读取,遇到标点符号的话截断,出现的每个词都和词库进行比较,如果词库里没有这个词,则取下个字开头的词

    例子

    你好

    你好,

    我是

    TomcatTD

    如果你词库里有 ”你好“,“我是” 这两个词的话

    他就会分出来

    最后结果是: 你好      ,        我是          TomcatTD

     如果是“大s的妈妈病了”

    只要你在词库里添加 “大s” “妈妈” “病了”

    就会分出 “大s          的           妈妈           病了”

  • 相关阅读:
    Remoting系列(一)Remoting的基本概念
    软件设计师
    如果让我重做一次研究生
    VS2005Web控件拖动
    JS实现文本框回车提交
    SqlDataReader
    SqlCommand.ExecuteScalar
    DataSet
    电子商务部应该做些什么?【转】
    e
  • 原文地址:https://www.cnblogs.com/tomcattd/p/2835591.html
Copyright © 2011-2022 走看看