zoukankan      html  css  js  c++  java
  • 2.使用Lucene开发自己的搜索引擎–indexer索引程序中基本类介绍

    (1)Directory:

    Directory类描述了Lucene索引的存放位置,它是一个抽象,其子类负责具体制定索引的存储路径。FSDirectory.open方法来获取真实文件在文件系统中的存储路径,然后将他们一次传递给IndexWriter类构造方法。

    Directory dir = FSDirectory.open(new File(indexDir));
    

    (2)IndexWriter:

    负责创建新索引或者打开已有的索引,以及向索引中添加、删除或更新被索引文档的信息。

    (3)Analyzer:

    在文本文件被索引之前,需要经过Analyzer处理。Analyzer是由IndexWriter构造方法指定的,它负责从被索引文本文件中提取词汇单元,并剔除剩下的无用信息

    writer = new IndexWriter(dir, new StandardAnalyzer(Version.LUCENE_30), true,IndexWriter.MaxFieldLength.UNLIMITED);
    

     4)Document:

      Document对象代表一些域(Field)的集合。可以理解为如web页面、文本文件等。Document对象的结构比较简单,为一个包含多个Field对象的容器

    (5)Field:

      指包含能被缩影的文本内容的类。索引中每个文档都有一个或多个不同的域,这些域包含在Field类中。每个域都有一个域名和对应的域值,以及一组选项来精确控制Lucene索引操作各个域值。




  • 相关阅读:
    python matplotlib 绘图
    python set add 导致问题 TypeError: unhashable type: 'list'
    python 子类继承父类的__init__方法
    python 内存监控模块之memory_profiler
    git log 常用命令
    wireshark使用教程
    python os.path模块
    Linux crontab 定时任务
    linux环境变量LD_LIBRARY_PATH
    Linux的ldconfig和ldd用法
  • 原文地址:https://www.cnblogs.com/cainame/p/11726167.html
Copyright © 2011-2022 走看看