zoukankan
html css js c++ java
【笔记】提高中文分词准确性和效率的方法
最近在学习中文分词方面的技术。读到
KTDictSeg 1.2
组件的代码深受启发,作此笔记。
在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。
个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换为拼音进行匹配。
查看全文
相关阅读:
go
go
go
postgresql
go
go
sql
铂金软件公司
HRIS 的价值评估
[转]数据库SQL优化大总结之 百万级数据库优化方案
原文地址:https://www.cnblogs.com/format/p/1188857.html
最新文章
博客园代码
单链表操作
链表
图的深度优先搜索
Linux1.0源代码编译过程
live555源代码编译
Makefile
网络通信中被动断开一个易被忽略的地方
go
go
热门文章
sql执行速度优化
go
go
go
go
go
go
go
go
go
Copyright © 2011-2022 走看看