zoukankan      html  css  js  c++  java
  • Lunce编程模型

    问题的场景:  

    解决方案:都是来自于科技论文

    ==============================================================================

    场景:文本搜素如何做,基于数据库应该不行,比如找含有'语文'二次的word文档,一次一次的比较吗?不现实。

    解决方案:Lunce

    核心:索引--建立目录

       本质:hash机制:

            数组+链表的组合
    理论知识:

      排序算法以tree结构

    模拟器件:

      搜索器、索引器、检索器

    编程模型:

      1、创建Directory对象,索引文件夹

      2、创建IndexSearch对象,建立查询(参数是Directory对象)

      3、创建QueryParser对象(lucene版本,查询Field字段,所用分词器)

      4、生成Query对象,由QueryParser对象的parse函数生成(参数是所查的关键字)

      5、建立TopDocs对象(IndexSearch的search函数,参数是Query查询对象,)

      6、TopDocs对象数组里存放查询信息

      7、关闭IndexSearch

    ==============================================================================

    如何快速进行检索,其实我们要对其进行建立索引,也就是目录,这样我们方便查找.....但是如何建立,这就是涉及到分词,这大家可以看一些论文,比较理论化,但是对我们项目里面使用影响不是很大。  

      

  • 相关阅读:
    java.io.file
    连线小游戏
    发票类型区分的正则表达式(仅区分普票专票)
    mybatis: No enum constant org.apache.ibatis.type.JdbcType."VARCHAR"
    bootstrap inputfile 使用-上传,回显
    微积分极限中一例
    oracle 查看表结构语句
    redis无法连接
    项目配置shiro原缓存注解失效
    bug 找不到或无法加载主类main.java.*
  • 原文地址:https://www.cnblogs.com/gstsyyb/p/3978245.html
Copyright © 2011-2022 走看看