zoukankan      html  css  js  c++  java
  • 1.5.1 Analyzers,Tokenizers,Filters概述

      字段分析器(Analyzers)即用于文档索引也用于查询.一个分析器检查字段的文本,并生成一个token流.分析器可能是一个单独的类,也可能是一系列的tokenizer和filter的组合.

      分词器把字段数据分解成词汇单元或者tokens,过滤器(filters)检查tokens流,并且保持它们,转换它们,去除它们,或者创建一个新的token.分词器和过滤器可能会结合来形成管道,链条--这一个的输出就是下一个的输入.这样一个分词器和过滤器的序列叫做分析器(analyzer).分析器的结果输出用于匹配查询结果或者是建立索引.

      尽管分析处理在索引和查询中都用到.相同的分析处理不必同时用于操作。对于索引,你想要简单化,规范化,词语化.例如,设置所有的字母都小写化,消除标点和重音,提取单词的词干等等.这样做可以增加召回原因.例如 "ram", "Ram" and "RAM"均匹配单词"ram".为了提高查询时间精度,过滤器(filter)可以缩小匹配范围.

      分词处理程序输出的tokens定义了那个字段的值或术语,在添加新的文档时可以用于建立索引,或者识别在查询时哪个文档包含这些词(术语).

  • 相关阅读:
    python命令行参数处理
    linux进程管理
    hadoop
    linux进程间通信之信号
    HA for openstack
    ubutun 安装php7.1x
    php 函数小技巧(一)
    git error: RPC failed; result=56, HTTP code = 200
    php面试题汇总四(基础篇附答案)
    php面试题汇总三(基础篇附答案)
  • 原文地址:https://www.cnblogs.com/a198720/p/4300091.html
Copyright © 2011-2022 走看看