zoukankan      html  css  js  c++  java
  • ES7学习笔记(六)分析器

    在前面的章节中,我们给大家介绍了索引中的映射类型,也就是每一个字段都有一个类型,比如:long,text,date等。这和我们的数据库非常的相似,那么它的不同之处是什么呢?对了,就是全文索引,在ES当中,只有text类型的字段才会用的全文索引,那么这里就会引出ES中一个非常重要的概念,文本分析器(Text analysis)

    分析器使ES支持全文索引,搜索的结果是和你搜索的内容相关的,而不是你搜索内容的确切匹配。我们用ES官网中的例子给大家举例,假如你在搜索框中输入的内容是Quick fox jumps,你想得到的结果是A quick brown fox jumps over the lazy dog,或者结果中包含这样的词fast foxfoxes leap

    分析器之所以能够使搜索支持全文索引,都是因为有分词器(tokenization),它可以将一句话、一篇文章切分成不同的词语,每个词语都是独立的。假如你在ES索引中添加了一条记录the quick brown fox jumps,而用户搜索时输入的内容是quick fox,并没有完全匹配的内容,但是因为有了分词器,你索引的内容被切分成了不同的、独立的词,用户搜索的内容也会进行相应的切分,所以用户搜索的内容虽然没有完全匹配,但也能够搜索到想要的内容。

    分析器除了要做分词,还要做归一化(Normalization)。分词器能够使搜索内容在每一个词上匹配,但这种匹配也只是在字面上进行的匹配。

    • 比如你搜索Quick,但是不能匹配到quick,它们的大小写不同。
    • 比如你搜索fox,但是不能匹配到foxes,它是复数形式。
    • 比如你搜索jumps,不能匹配到leaps,虽然它们是同义词。

    为了解决这些问题,分析器要把这些分词归一化到标准的格式。这样我们在搜索的时候就不用严格的匹配了,相似的词语我们也能够检索出来,上面的3种情况,我们也能够搜索出相应的结果。

    分析器的组成

    分析器,无论是内置的,还是自定义的,都是由3部分组成:字符过滤器(character filters)、分词器(tokenizers)、分词过滤器(token filters)。

    字符过滤器

    字符过滤器接收最原始的文档,并且可以改变其内容,比如:可以把中文的一二三四五六七八九,变成阿拉伯数字123456789。它还可以过滤html标签,并对其进行转义。还可以通过正则表达式,把匹配到的内容转化成其他的内容。一个分析器可以有多个字符过滤器,也可以没有字符过滤器。

    分词器

    一个分析器只能有一个确定的分词器,它可以把一句话分成若干个词,比如:空格分词器。当你输入一句话Quick brown fox!,它将被切分成[Quick, brown, fox!]

    分词过滤器

    分词过滤器接收分词并且可以改变分词,比如:小写分词过滤器,它将接收到的分词全部转换成小写。助词过滤器,它将删除掉一些公共的助词,比如英语里的 theisare等,中文里的等。同义词过滤器,它将在你的分词中,添加相应的同义词。一个分析器可以有多个分词过滤器,它们将按顺序执行。

    我们在建立索引和搜索时,都会用的分析器。

    配置文本分析器

    前面我们讲了分析器的基本概念,也了解了全文搜索的基本步骤。下面我们看一下如何配置文本分析器,ES默认给我们配置的分析器是标准分析器。如果标准的分析器不适合你,你可以指定其他的分析器,或者自定义一个分析器。

    ES有分析器的api,我们指定分析器和文本内容,就可以得到分词的结果。比如:

    POST _analyze
    {
      "analyzer": "whitespace",
      "text":     "The quick brown fox."
    }
    

    返回的结果如下:

    {
        "tokens": [
            {
                "token": "The",
                "start_offset": 0,
                "end_offset": 3,
                "type": "word",
                "position": 0
            },
            {
                "token": "quick",
                "start_offset": 4,
                "end_offset": 9,
                "type": "word",
                "position": 1
            },
            {
                "token": "brown",
                "start_offset": 10,
                "end_offset": 15,
                "type": "word",
                "position": 2
            },
            {
                "token": "fox.",
                "start_offset": 16,
                "end_offset": 20,
                "type": "word",
                "position": 3
            }
        ]
    }
    

    我们指定的分析器是空格分析器,输入的文本内容是The quick brown fox.,返回结果是用空格切分的四个词。我们也可以测试分析器的组合,比如:

    POST _analyze
    {
      "tokenizer": "standard",
      "filter":  [ "lowercase", "asciifolding" ],
      "text":      "Is this déja vu?"
    }
    

    我们指定了标准的分词器,小写过滤器和asciifolding过滤器。输入的内容是Is this déja vu?,我们执行一下,得到如下的结果:

    {
        "tokens": [
            {
                "token": "is",
                "start_offset": 0,
                "end_offset": 2,
                "type": "<ALPHANUM>",
                "position": 0
            },
            {
                "token": "this",
                "start_offset": 3,
                "end_offset": 7,
                "type": "<ALPHANUM>",
                "position": 1
            },
            {
                "token": "deja",
                "start_offset": 8,
                "end_offset": 12,
                "type": "<ALPHANUM>",
                "position": 2
            },
            {
                "token": "vu",
                "start_offset": 13,
                "end_offset": 15,
                "type": "<ALPHANUM>",
                "position": 3
            }
        ]
    }
    

    我们可以看到结果中,is变成了小写,déja变成了deja,最后的?也过滤掉了。

    为指定的字段配置分析器

    我们在创建映射时,可以为每一个text类型的字段指定分析器,例如:

    PUT my_index
    {
      "mappings": {
        "properties": {
          "title": {
            "type": "text",
            "analyzer": "whitespace"
          }
        }
      }
    }
    

    我们在my_index索引中,创建了title字段,它的类型是text,它的分析器是whitespace空格分析器。

    为索引指定默认的分析器

    如果我们觉得为每一个字段指定分析器过于麻烦,我们还可以为索引指定一个默认的分词器,如下:

    PUT my_index
    {
      "settings": {
        "analysis": {
          "analyzer": {
            "default": {
              "type": "whitespace"
            }
          }
        }
      }
    }
    

    我们为my_index索引指定了默认的分析器whitespace。这样我们在创建text类型的字段时,就不用为其指定分析器了。

    这一节给大家介绍了分析器,我们可以看到例子中都是使用的英文分析器,下一节我们一起看一下强大的中文分析器。

  • 相关阅读:
    Go基础篇【第2篇】: 内置库模块 fmt
    Go基础篇【第1篇】: 内置库模块 OS
    JavaScript学习基础篇【第1篇】: JavaScript 入门
    Python基础篇【第8篇】: Socket编程(二)SocketServer
    Python基础篇【第7篇】: 面向对象(1)
    APP爬虫之Appium使用
    python操作MongoDB
    MySQL性能调优
    ubuntu16.04中启动anaconda图形化界面
    linux 在命令行中通过conda使用anaconda
  • 原文地址:https://www.cnblogs.com/boboooo/p/12836770.html
Copyright © 2011-2022 走看看