zoukankan      html  css  js  c++  java
  • 修改Imdict做的一个简单分词器

    最近想到给分词加点扩展,于是将以前的代码找出来写了一个分词器

    这个分词器可以对现在将代码贴出来:

    (1)搜索词进行扩展(这个需要依赖一个近义词词库,但网上找了好久,没有适合的,只有小学生的成语近义词)

    (2)找出地址(类似的也可以找出 人名, 歌名。。。,这个也需要一个词库)

    (3) 将搜索结果变为汉语拼音 (这个依赖了pingyin4j)

     该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来,

     测试结果:

    例句:分词爱琪美我该分词器以 词典为主, 如果你词典里有你需要的词,那么他就可以分出来 北京海淀火锅

    普通分开:分词 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
    12

    加扩展:分词 academie or 爱琪美 我 该 分词 器 以 词典 为主 如果 你 词典 里 有你 需要 的 词 那么 他 就可以 分出 来 北京 海淀 火锅
    139

    挑出地址:key:分词 爱琪美 我 该 器 以 词典 为主 如果 你 里 有你 需要 的 词 那么 他 就可以 分出 来 火锅  address:北京 海淀
    147

    现在将源码贴出来,希望有缘的人可以对该代码进行优化,让他的速度得到一个高的提升 词库得到扩展

    下载地址:

  • 相关阅读:
    WCF和SOA的简介
    .NET 反射应用
    ASP.NET---如何使用web api创建web服务
    获得N位数字字母随机组合
    git的初步使用
    js贪吃蛇
    python多线程
    2013-12-13
    2012-12-12
    2013-12-5
  • 原文地址:https://www.cnblogs.com/tomcattd/p/2876263.html
Copyright © 2011-2022 走看看