一、生活中的数据总体分为: 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指没有固定格式或不定长的数据,如邮件,word文档等。 非结构化数据还有一种叫法:全文数据。
二、按数据的分类,搜索也分为两种: 对结构化数据的搜索: 如对数据库的搜索:SQL语句。 再如windows的搜索:文件名,类型,修改时间。 对非结构化数据的搜索: 如windows对文件内容的搜索。 Linux下得grep命令。 再如Google和百度可以搜素大量内容数据。 对于非结构化的数据搜索也叫做对全文数据的搜索。
三、对全文数据的搜索还可以分为两种 1、顺序扫描:如要找内容包含某个字符串的文件,会一个文档一个文档的从头到尾的找,如 Like查找 。 2、索引扫描:把非结构化的数据中的内容提取出来一部分重新组织,让它变的有结构化,这部分我们提取出来的数据就叫做索引.
全文检索大体分两个过程: 索引创建(Indexer)和 搜索索引(Search)。 索引创建:将现实世界中所有的结构化和非结构化数据提取信息,创建索引的过程。 搜索索引:就是得到用户的查询请求,搜索创建的索引,然后返回结果的过程。