zoukankan      html  css  js  c++  java
  • lucene创建索引

    实现步骤

    第一步:创建一个indexwriter对象。

    1)指定索引库的存放位置Directory对象

    2)指定一个分析器,对文档内容进行分析。

    第二步:创建document对象。

    第三步:创建field对象,将field添加到document对象中。

    第四步:使用indexwriter对象将document对象写入索引库,此过程进行索引创建。并将索引和document对象写入索引库。

    第五步:关闭IndexWriter对象。

    Field域属性

    代码实现

    package com.test.lucene.helloworld;
    
    import java.io.File;
    
    import org.apache.commons.io.FileUtils;
    import org.apache.lucene.analysis.Analyzer;
    import org.apache.lucene.analysis.standard.StandardAnalyzer;
    import org.apache.lucene.document.Document;
    import org.apache.lucene.document.Field;
    import org.apache.lucene.document.Field.Store;
    import org.apache.lucene.document.LongField;
    import org.apache.lucene.document.StoredField;
    import org.apache.lucene.document.TextField;
    import org.apache.lucene.index.IndexWriter;
    import org.apache.lucene.index.IndexWriterConfig;
    import org.apache.lucene.store.Directory;
    import org.apache.lucene.store.FSDirectory;
    import org.apache.lucene.util.Version;
    import org.junit.Test;
    
    public class LuceneTestCreateIndex {
    
        // 创建索引
        @Test
        public void createIndex() throws Exception {
    
            // 指定索引库存放的路径
            // E:\study\test\index FSD(File System Directory)
            // 指定路径如果不存在会自动创建open(new File("E:\study\test\index")
            Directory directory = FSDirectory.open(new File("E:\study\test\index"));
            // 索引库还可以存放到内存中
            // Directory directory = new RAMDirectory();
            // 创建一个标准分析器
            Analyzer analyzer = new StandardAnalyzer();
            // 创建indexwriterCofig对象
            // 第一个参数: Lucene的版本信息,可以选择对应的lucene版本也可以使用LATEST
            // 第二根参数:分析器对象
            IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);
            // 创建indexwriter对象
            IndexWriter indexWriter = new IndexWriter(directory, config);
            // 原始文档的路径E:study	estsearchsource
            File dir = new File("E:\study\test\searchsource");
            File[] listFiles = dir.listFiles();
            for (File f : listFiles) {
                // 文件名
                String fileName = f.getName();
                // 文件内容FileUtils文件的工具类,来自org.apache.commons.io包
                String fileContent = FileUtils.readFileToString(f);
                // 文件路径
                String filePath = f.getPath();
                // 文件的大小
                long fileSize = FileUtils.sizeOf(f);
                // 创建文件名域
                // 第一个参数:域的名称
                // 第二个参数:域的内容
                // 第三个参数:是否存储
                Field fileNameField = new TextField("filename", fileName, Store.YES);
                // 文件内容域(分析、索引、存储)
                Field fileContentField = new TextField("content", fileContent, Store.YES);
                // 文件路径域(不分析、不索引、只存储)
                Field filePathField = new StoredField("path", filePath);
                // 文件大小域
                Field fileSizeField = new LongField("size", fileSize, Store.YES);
    
                // 创建document对象
                Document document = new Document();
                document.add(fileNameField);
                document.add(fileContentField);
                document.add(filePathField);
                document.add(fileSizeField);
                // 创建索引,并写入索引库.干了两件事情(存储索引和文档对象)
                indexWriter.addDocument(document);
            }
            // 关闭indexwriter
            indexWriter.close();
        }
    }
  • 相关阅读:
    二叉树非递归先中后序遍历 及 非递归交换二叉树两个孩子的位置
    COM 学习小记录
    Linux 信号量 生产者消费者小例题
    打印数字 形状有点得味
    (链表)链表倒序
    C++ 数组名作为函数参数 都是我的错
    进程 线程
    《C++ Qt 设计模式》8|15拼图 小游戏的简单实现。拜托,别乱点!
    PMAC运动程序例程(一)
    中国获得2022年冬奥会举办权【经济学人】
  • 原文地址:https://www.cnblogs.com/jepson6669/p/9051643.html
Copyright © 2011-2022 走看看