zoukankan      html  css  js  c++  java
  • Lucene 5.X 版本索引文件格式

      原文链接:https://my.oschina.net/rickylau/blog/527602

      

    名称 文件拓展名 描述
    段文件 segments_N 保存了索引包含的多少段,每个段包含多少文档。
    段元数据 .si 保存了索引段的元数据信息
    锁文件  write.lock 防止多个IndexWriter同时写到一份索引文件中。
    复合索引文件 .cfs, .cfe 把所有索引信息都存储到复合索引文件中。
    索引段的域信息 .fnm 保存此段包含的域,以及域的名称和域的索引类型。
    索引段的文档信息 .fdx, .fdt

    保存此段包含的文档,每篇文档中包含的域以及每个域的信息。

    索引段Term信息 .tim, .tip

    .tim文件中存储着每个域中Term的统计信息且保存着指向.doc, .pos, and .pay 索引文件的指针。

    .tip文件保存着Term 字典的索引信息,可支持随机访问。

    文档中Term词频和跳表信息 .doc 保存此段中每个文档对应的Term频率信息。
    文档中Term的位置信息 .pos 保存此段中每个文档对应的Term位置信息。
    文档的有效载荷和部分位置信息 .pay 保存此段中每个文档的有效载体(payload) 和 Term的位置信息(offsets)。 其中有一部分的Term位置信息存储在.pos文件中。
    索引字段加权因子 .nvd, .nvm

    .nvm 文件保存索引字段加权因子的元数据

    .nvd 文件保存索引字段加权数据

    索引文档加权因子 .dvd, .dvm

    .dvm 文件保存索引文档加权因子的元数据

    .dvd 文件保存索引文档加权数据

    索引矢量数据 .tvx, .tvd, .tvf

    .tvd 存储此段文档的Term、Term频率、位置信息、有效载荷等信息。

    .tvx 索引文件,用于把特定的文档加载到内存。

    .tvf 保存索引字段的矢量信息。

    有效文档 .liv 保存有效文档的索引文件信息
  • 相关阅读:
    POJ1182
    poj3225 线段树区间操作 (见鬼)
    斜率优化dp(POJ1180 Uva1451)
    POJ2528 线段树的区间操作
    POI2001 Gold mine(二叉排序树 黑书经典)
    POJ3921
    博弈论之威佐夫博弈(转载)
    poj3468(线段树 边覆盖)
    hdu 1166(树状数组 或 线段树)
    压缩软件的改进--- (续先前霍夫曼编码)
  • 原文地址:https://www.cnblogs.com/lnlvinso/p/6691134.html
Copyright © 2011-2022 走看看