zoukankan      html  css  js  c++  java
  • 发布我的倒排索引 C/C++ ChinaUnix.net

    发布我的倒排索引 - C/C++ - ChinaUnix.net -

    ] 发布我的倒排索引 [复制链接]
    0  0

    Rank: 2

    帖子
    1058
    主题
    123
    精华
    11
    可用积分
    1567
    专家积分
    0
    在线时间
    714 小时
    注册时间
    2003-07-19
    最后登录
    2013-03-11
    论坛徽章:
    0
    跳转到指定楼层
    1 [收藏(0)] [报告]
    发表于 2008-07-03 16:01:15 |只看该作者 |倒序浏览
    下载地址 http://libibase.googlecode.com/

    主要功能:
      解析HTML
      中文分词(反向最大匹配,用trie实现)
      生成正向文档(我自己定义的格式,暂时是这样)
      生成倒排索引(分块存储,bytecode压缩算法, 正文和快照采用zlib压缩)
      提交查询串检索(只实现了向量空间模型, 动态摘要还没完成)
      目前只有一个命令行测试工具hibase
      包内自带10w中文词库(doc目录下,gzip格式, 使用的时候需要解开)
      使用方法可以看README

    接下来就是测试和优化,因为写的时候宏比较多,所以编译还是有点慢....呵呵

    要一块学习的可以加我的MSN/GTAIL : sounos@gmail.com

    顺便贴一个使用实例:
    我用wget下了chinaunix的首页到/data/html目录下 /data/dict下是我的词典
    1. ./hibase --basedir=/tmp --dict=/data/dict/dict.txt --add --doc=/data/html/index.html --url=http://www.chinaunix.net/ --date="Thu, 03 Jul 2008 10:12:18 GMT" --charset="gbk" --query --request="chinaunix" --topN=1000
    2. parsing document[[url]http://www.chinaunix.net/[/url]] time used:16825 microseconds
    3. adding document[[url]http://www.chinaunix.net/[/url]] time used:47955 microseconds
    4. parse query time used:36
    5. read hits[1] posting time used:1897
    6. Caculated 1 documents time used:22
    7. read 1 documents content time used:1404
    8. (0) title[ChinaUnix.net = 全球最大的Linux/Unix应用与开发者社区 = IT人的网上家园]
    9. summary[(null)]
    10. url[[url]http://www.chinaunix.net/[/url]]
    11. size[84892]date[Thu, 03 Jul 2008 10:12:18 GMT]
    12. search [chinaunix] time used:3502
    复制代码
  • 相关阅读:
    [APIO2007]风铃
    [APIO2011]方格染色
    [APIO2016]烟火表演
    [APIO2013]机器人
    [APIO2015]巴厘岛的雕塑
    [APIO2015]八邻旁之桥
    [APIO2010]特别行动队
    [APIO2015]雅加达的摩天楼
    WC2019游记
    退役前的做题记录3.0
  • 原文地址:https://www.cnblogs.com/lexus/p/2963808.html
Copyright © 2011-2022 走看看