Sphinx 与全文索引 - 走看看

zoukankan html css js c++ java

Sphinx 与全文索引
全文索引创建过程

第一步：将源文档传给分词组件（Tokenizer）

分词组件做了以下事情：
- 将文档分成一个一个的单词
- 去除标点符号
- 去除停词：英文(the / a / this / that ....) 中文 ( 是、的...)
- 经过分词后得到的就是词元
第二步：将词元传给语言处理组件

语言处理组件做了以下事情（针对英文）：
- 将大小变成小写
- 将单词复数变成单数形式
- 将各种时态变成现在时，例如“drove”变成“drive”
第三步：将处理好的词传给索引组件（indexer）
- 根据词创建字典（字典的key是传过来的词，value是词对应的记录的id）
- 对字典进行排序
根据索引进行搜索：

第一步：用户输入查询语句

第二步：对输入查询的语句进行词法分析，语法分析及语言处理

第三步：将处理好的词组传给搜索引擎（Sphinx），搜索索引，得到符合语法的文档

第四步：根据得到文档和查询语句的相关性，进行排序
查看全文

相关阅读:
hdu 2001 计算两点的距离
 hdu 2001 计算两点的距离
 hdu 2000 ASCII码排序（c语言）
hdu 2000 ASCII码排序（c语言）
1.网页学习-开始学习第一步:
.net 父窗口线程交给子窗口
 多线程传递多个参数
 not Exists的使用方法
 xml.dom.minidom介绍
 .net之线程控件之间访问

原文地址：https://www.cnblogs.com/xiaoliwang/p/9484533.html

Copyright © 2011-2022 走看看