【笔记】提高中文分词准确性和效率的方法 - 走看看

zoukankan html css js c++ java

【笔记】提高中文分词准确性和效率的方法

最近在学习中文分词方面的技术。读到KTDictSeg 1.2组件的代码深受启发，作此笔记。
在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来，比如英文单词，一串数字，日期，Email，电话，邮编，尽可能的过滤，这样减少了实际进行分词的字符，而且准确性更高。
个人想法：可以把所有拼音组合整理出来，用拼音来记录中文词语的组合，存到字典里，这样字典的尺寸就可以大幅减低。匹配时候把汉字转换为拼音进行匹配。

查看全文

相关阅读:
go
go
go
postgresql
go
go
sql
铂金软件公司
 HRIS 的价值评估
 [转]数据库SQL优化大总结之百万级数据库优化方案

原文地址：https://www.cnblogs.com/format/p/1188857.html

热门文章
sql执行速度优化
 go
go
go
go
go
go
go
go
go

Copyright © 2011-2022 走看看