zoukankan      html  css  js  c++  java
  • Sphinx 与全文索引

    全文索引创建过程

    第一步:将源文档传给分词组件(Tokenizer)

    分词组件做了以下事情:

    • 将文档分成一个一个的单词
    • 去除标点符号
    • 去除停词:英文(the / a / this / that ....)  中文 ( 是、的...)
    • 经过分词后得到的就是词元

    第二步:将词元传给语言处理组件

    语言处理组件做了以下事情(针对英文):

    • 将大小变成小写
    • 将单词复数变成单数形式
    • 将各种时态变成现在时,例如“drove”变成“drive”

    第三步:将处理好的词传给索引组件(indexer)

    • 根据词创建字典(字典的key是传过来的词,value是词对应的记录的id)
    • 对字典进行排序

    根据索引进行搜索:

    第一步:用户输入查询语句

    第二步:对输入查询的语句进行词法分析,语法分析及语言处理

    第三步:将处理好的词组传给搜索引擎(Sphinx),搜索索引,得到符合语法的文档

    第四步:根据得到文档和查询语句的相关性,进行排序

  • 相关阅读:
    使用eclipse新建一个SWT工程
    C++类的构造函数
    D3D编程的常见报错及解决
    D3D窗口的初始化
    C++联合体的内存使用
    QT程序如何编译
    Restart
    HTML
    信号、槽位及布局
    QT对话框程序
  • 原文地址:https://www.cnblogs.com/xiaoliwang/p/9484533.html
Copyright © 2011-2022 走看看