问题的场景:
解决方案:都是来自于科技论文
==============================================================================
场景:文本搜素如何做,基于数据库应该不行,比如找含有'语文'二次的word文档,一次一次的比较吗?不现实。
解决方案:Lunce
核心:索引--建立目录
本质:hash机制:
数组+链表的组合
理论知识:
排序算法以tree结构
模拟器件:
搜索器、索引器、检索器
编程模型:
1、创建Directory对象,索引文件夹
2、创建IndexSearch对象,建立查询(参数是Directory对象)
3、创建QueryParser对象(lucene版本,查询Field字段,所用分词器)
4、生成Query对象,由QueryParser对象的parse函数生成(参数是所查的关键字)
5、建立TopDocs对象(IndexSearch的search函数,参数是Query查询对象,)
6、TopDocs对象数组里存放查询信息
7、关闭IndexSearch
==============================================================================
如何快速进行检索,其实我们要对其进行建立索引,也就是目录,这样我们方便查找.....但是如何建立,这就是涉及到分词,这大家可以看一些论文,比较理论化,但是对我们项目里面使用影响不是很大。