修改Imdict做自己的分词器

zoukankan html css js c++ java

修改Imdict做自己的分词器
Imdict的官方网址

http://code.google.com/p/imdict-chinese-analyzer/

做项目开始，我才发现读源码是一件很能提升自己编码水平的一件事情

在别人的源码里，你会发现好多编码思想，还有一些很实用的方法，他们都写出来了

在巨人的肩膀上这话说的真不错

该分词器不能添加自己定义的词库，如果你懂java（读了源码你自己也可以加进去）

网上有个人早对他做了修改

http://insolr.com/forum.php?mod=viewthread&tid=1057&extra=page%3D1

在这里我曾经发过

添加自己词库我就不介绍了，onedear 介绍的很清楚了

我只在这里写写他字典的生成原理代码入下：
private void getMydict() { wordDict = WordDictionary.getInstance(); char[][][] wordItem_charArrayTable = wordDict .getWordItem_charArrayTable(); int[][] wordItem_frequencyTable= wordDict.getWordItem_frequencyTable(); short[] wordIndexTable =wordDict.getWordIndexTable(); char[] charIndexTable =wordDict.getCharIndexTable(); try { FileOutputStream fos = new FileOutputStream("ciku.txt"); //这里就是你的词库 ObjectOutputStream oos = new ObjectOutputStream(fos); oos.writeObject(wordIndexTable); oos.writeObject(charIndexTable); oos.writeObject(wordItem_charArrayTable); oos.writeObject(wordItem_frequencyTable); oos.close(); } catch (Exception e) { e.printStackTrace(); } }
　　这样你就得到和他格式一样的一个名为ciku.txt 的文件了，他和他自己带的.men 格式就是同一类型了，你用你的ciku.txt 替换他的.men 就可以了
查看全文

相关阅读:
为什么要使用 npm？
scrapy框架使用.Request使用meta传递数据，以及deepcopy的使用，这种三层for循环，就会有deepcopy的问题，
scrapy download delay, CONCURRENT_REQUESTS
分布式爬虫部署，爬虫需要什么样的服务器配置，现在爬虫岗位都要会这个
 爬虫的难点不在爬虫，而在对抗
 scrapy框架使用-下载视频，使用you-get模块来下载视频
 scrapy框架使用-爬虫中间件
 4-06python语法基础-内置模块-urllib模块，以及第三方模块requests的使用，cookie字典生成式，切url的末尾字符串
 scrapy框架使用-下载图片，使用urllib，使用requests，使用imagepipeline，
4-05python语法基础-内置模块-json模块

原文地址：https://www.cnblogs.com/tomcattd/p/2835951.html