zoukankan      html  css  js  c++  java
  • 【笔记】提高中文分词准确性和效率的方法

    最近在学习中文分词方面的技术。读到KTDictSeg 1.2组件的代码深受启发,作此笔记。
        在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。
        个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换为拼音进行匹配。
  • 相关阅读:
    go
    go
    go
    postgresql
    go
    go
    sql
    铂金软件公司
    HRIS 的价值评估
    [转]数据库SQL优化大总结之 百万级数据库优化方案
  • 原文地址:https://www.cnblogs.com/format/p/1188857.html
Copyright © 2011-2022 走看看