zoukankan      html  css  js  c++  java
  • lucene倒排索引瘦身的一些实验——merge的本质是减少cfx文件 变为pos和doc;存储term vector多了tvx和tvd文件有337M

    store NO
    压缩后的原始数据 原始数据大小 索引大小 索引时间 单词搜索时间
    266 791 594 176 0.2
    文件组成见后

    运行forceMerge(3)后 merge的本质是减少cfx文件 变为pos和doc
    索引大小 .doc .pos tip/tim cfs 仅1个
    506 132 62 267 33



    field store NO 索引大小 594
    索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
    0.15 72 37 180 298

    field store YES 索引大小 1.06
    索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
    302 76 39 204 461


    field store NO 同时NOT_ANALYZED 索引大小 669
    索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
    0.01 0.2 11 635 21

    field store NO IndexOptions.DOCS 索引大小 383
    索引文件组成 fdt/fdx/fnm .doc .pos tip/tim cfs
    0.2 108 0.2 180 85
    OmitNorms 索引大小 380

    field store NO IndexOptions.DOCS 加 int ID后 索引大小 383
    加string ID 索引大小 393
    加string ID StoreTermVectors(true);
    索引大小 1G 发现tvx和tvd文件有337M

  • 相关阅读:
    webpack--------类似gulp的工具,在gulp后面出来的
    canvas 绘制矩形
    HTML5 Canvas基础知识
    视差滚动效果
    闭包的理解
    AJAX 跨域
    json与jsonp的区别
    针对AJAX与JSONP的异同
    如何使用JSONP
    JSONP的客户端的具体实现
  • 原文地址:https://www.cnblogs.com/bonelee/p/6612789.html
Copyright © 2011-2022 走看看