zoukankan      html  css  js  c++  java
  • 中文分词—基于Lucene的分词器—支持中英文混合词

    最近自己动手写了一个中文分词器,没有什么高深的算法,就是基于词库匹配的一个简单程序。

    该分词器支持中英文混合词,像“大s” ,“小3” 什么的,只要自己的词库有这个词,他就能分出来。

    这个分词原理是正向最大匹配,不过只有简单消除歧义。

    个人觉得消除歧义的话,只适合部分句子,有时候消除歧义反而会让有些正常语句分出不好的结果来。

    该程序没有做过多消除歧义,个人觉得消除歧义这种方法对于一个通用的分词器作用很大。

    如果你的分词器是用来针对某个领域的话,消除歧义不建议使用,如果你了解分词原理并对消除歧义测试结果做过大量测试的话,你会发现这点。(这只代表我个人观点,不喜勿喷)

    现在开始介绍下该分词器:

    分词原理 : 假如有这么一句话   "你好,我是TomcatTD"

    程序接收到这句话后,会从左到右依次读取,遇到标点符号的话截断,出现的每个词都和词库进行比较,如果词库里没有这个词,则取下个字开头的词

    例子

    你好

    你好,

    我是

    TomcatTD

    如果你词库里有 ”你好“,“我是” 这两个词的话

    他就会分出来

    最后结果是: 你好      ,        我是          TomcatTD

     如果是“大s的妈妈病了”

    只要你在词库里添加 “大s” “妈妈” “病了”

    就会分出 “大s          的           妈妈           病了”

  • 相关阅读:
    appium---webview(H5)元素定位
    appium---切换webview时报错
    appium---如何判断原生页面和H5页面
    JDK与Java SE/EE/ME的区别
    Ubantu18.04安装WPS
    堆与栈的区别
    JAVA-基础(Stream流)
    Java面试(1)
    ubuntu自带截图工具
    Linux 下各个目录的作用及内容
  • 原文地址:https://www.cnblogs.com/tomcattd/p/2835591.html
Copyright © 2011-2022 走看看