zoukankan      html  css  js  c++  java
  • 1.5.1 Analyzers,Tokenizers,Filters概述

      字段分析器(Analyzers)即用于文档索引也用于查询.一个分析器检查字段的文本,并生成一个token流.分析器可能是一个单独的类,也可能是一系列的tokenizer和filter的组合.

      分词器把字段数据分解成词汇单元或者tokens,过滤器(filters)检查tokens流,并且保持它们,转换它们,去除它们,或者创建一个新的token.分词器和过滤器可能会结合来形成管道,链条--这一个的输出就是下一个的输入.这样一个分词器和过滤器的序列叫做分析器(analyzer).分析器的结果输出用于匹配查询结果或者是建立索引.

      尽管分析处理在索引和查询中都用到.相同的分析处理不必同时用于操作。对于索引,你想要简单化,规范化,词语化.例如,设置所有的字母都小写化,消除标点和重音,提取单词的词干等等.这样做可以增加召回原因.例如 "ram", "Ram" and "RAM"均匹配单词"ram".为了提高查询时间精度,过滤器(filter)可以缩小匹配范围.

      分词处理程序输出的tokens定义了那个字段的值或术语,在添加新的文档时可以用于建立索引,或者识别在查询时哪个文档包含这些词(术语).

  • 相关阅读:
    cpu几种架构区别
    linux之cp/scp命令+scp命令详解
    解读Linux命令格式(转)
    IO虚拟化简单了解
    NoSQL-来自维基百科
    kvm命令参数记录
    kvm 简单了解
    host与guest间共享文件夹的三种方法(原创)
    新装linux系统最基本设置
    kernel编译速度提高
  • 原文地址:https://www.cnblogs.com/a198720/p/4300091.html
Copyright © 2011-2022 走看看