zoukankan
html css js c++ java
【笔记】提高中文分词准确性和效率的方法
最近在学习中文分词方面的技术。读到
KTDictSeg 1.2
组件的代码深受启发,作此笔记。
在一切开始之前我们可以用正则表达式把文本中的一些特殊部分过滤出来,比如英文单词,一串数字,日期,Email,电话,邮编,尽可能的过滤,这样减少了实际进行分词的字符,而且准确性更高。
个人想法:可以把所有拼音组合整理出来,用拼音来记录中文词语的组合,存到字典里,这样字典的尺寸就可以大幅减低。匹配时候把汉字转换为拼音进行匹配。
查看全文
相关阅读:
UUID含义及ubuntu配置系统默认JDK
MYSQL 问题小总结
纯CSS3实现常见多种相册效果
Docker Api 实测
Dijkstra with priority queue 分类: ACM TYPE 2015-07-23 20:12 4人阅读 评论(0) 收藏
hash值的计算与转换 分类: ACM TYPE 2015-05-07 17:49 36人阅读 评论(0) 收藏
NYOJ
进制转换函数 2015-02-15 09:41 32人阅读 评论(0) 收藏
操作系统图解 2015-02-03 23:44 71人阅读 评论(0) 收藏
[kuangbin带你飞]专题一 简单搜索
原文地址:https://www.cnblogs.com/format/p/1188857.html
最新文章
js日期转换
JS 其他类型转换成字符串的三种方法
(jquery)关于设置了select控件内option的selected属性,却没有显示对应的值
js-设备某元素之外的点击事件
JavaScript中的三种弹出框
js-获取页面鼠标的位置
略带丢丢科技感的登录界面
js-时间格式转换
js方法实现页面停留几秒
边框发光
热门文章
c++学习
Flask cookie
最简单的struts应用
ajax 与jsp servlet
Java输入输出流
Filter的介绍及使用
svn错误
Oracle学习——dmp文件(表)导入与导出
自己用js写的两个日历控件
ubuntu16下Elasticsearch5.1.1安装部署
Copyright © 2011-2022 走看看