发布我的倒排索引 - C/C++ - ChinaUnix.net -
- 空间积分
- 0
- 信誉积分
- 277
- UID
- 66168
- 阅读权限
- 30
- 积分
- 1565
- 帖子
- 1058
- 精华
- 11
- 可用积分
- 1567
- 专家积分
- 0
- 在线时间
- 714 小时
- 注册时间
- 2003-07-19
- 最后登录
- 2013-03-11
- 帖子
- 1058
- 主题
- 123
- 精华
- 11
- 可用积分
- 1567
- 专家积分
- 0
- 在线时间
- 714 小时
- 注册时间
- 2003-07-19
- 最后登录
- 2013-03-11
- 论坛徽章:
- 0
| 下载地址 http://libibase.googlecode.com/ 主要功能: 解析HTML 中文分词(反向最大匹配,用trie实现) 生成正向文档(我自己定义的格式,暂时是这样) 生成倒排索引(分块存储,bytecode压缩算法, 正文和快照采用zlib压缩) 提交查询串检索(只实现了向量空间模型, 动态摘要还没完成) 目前只有一个命令行测试工具hibase 包内自带10w中文词库(doc目录下,gzip格式, 使用的时候需要解开) 使用方法可以看README 接下来就是测试和优化,因为写的时候宏比较多,所以编译还是有点慢....呵呵 要一块学习的可以加我的MSN/GTAIL : sounos@gmail.com 顺便贴一个使用实例: 我用wget下了chinaunix的首页到/data/html目录下 /data/dict下是我的词典
- ./hibase --basedir=/tmp --dict=/data/dict/dict.txt --add --doc=/data/html/index.html --url=http://www.chinaunix.net/ --date="Thu, 03 Jul 2008 10:12:18 GMT" --charset="gbk" --query --request="chinaunix" --topN=1000
- parsing document[[url]http://www.chinaunix.net/[/url]] time used:16825 microseconds
- adding document[[url]http://www.chinaunix.net/[/url]] time used:47955 microseconds
- parse query time used:36
- read hits[1] posting time used:1897
- Caculated 1 documents time used:22
- read 1 documents content time used:1404
- (0) title[ChinaUnix.net = 全球最大的Linux/Unix应用与开发者社区 = IT人的网上家园]
- summary[(null)]
- url[[url]http://www.chinaunix.net/[/url]]
- size[84892]date[Thu, 03 Jul 2008 10:12:18 GMT]
- search [chinaunix] time used:3502
复制代码 |
|