zoukankan      html  css  js  c++  java
  • Elasticsearch(ES)分词器的那些事儿

    1. 概述

    分词器是Elasticsearch中很重要的一个组件,用来将一段文本分析成一个一个的词,Elasticsearch再根据这些词去做倒排索引。

    今天我们就来聊聊分词器的相关知识。

    2. 内置分词器

    2.1 概述

    Elasticsearch 中内置了一些分词器,这些分词器只能对英文进行分词处理,无法将中文的词识别出来。

    2.2 内置分词器介绍

    standard:标准分词器,是Elasticsearch中默认的分词器,可以拆分英文单词,大写字母统一转换成小写。

    simple:按非字母的字符分词,例如:数字、标点符号、特殊字符等,会去掉非字母的词,大写字母统一转换成小写。

    whitespace:简单按照空格进行分词,相当于按照空格split了一下,大写字母不会转换成小写。

    stop:会去掉无意义的词,例如:the、a、an 等,大写字母统一转换成小写。

    keyword:不拆分,整个文本当作一个词。

    2.3 查看分词效果通用接口

    GET  http://192.168.1.11:9200/_analyze

    参数:

    {
        "analyzer": "standard",  
        "text": "I am a man."
    }

    响应:

    {
        "tokens": [
            {
                "token": "i",
                "start_offset": 0,
                "end_offset": 1,
                "type": "<ALPHANUM>",
                "position": 0
            },
            {
                "token": "am",
                "start_offset": 2,
                "end_offset": 4,
                "type": "<ALPHANUM>",
                "position": 1
            },
            {
                "token": "a",
                "start_offset": 5,
                "end_offset": 6,
                "type": "<ALPHANUM>",
                "position": 2
            },
            {
                "token": "man",
                "start_offset": 7,
                "end_offset": 10,
                "type": "<ALPHANUM>",
                "position": 3
            }
        ]
    }

    https://www.cnblogs.com/w84422/p/15310917.html

    故乡明
  • 相关阅读:
    OC中的字典
    OC中的那些String
    虚拟机资源共享
    虚拟机空间使用心得
    PEST和SWOT分析法
    Axure 的四种预览模式
    竞品分析:抖音VS快手
    第二章:行业与市场分析六步法
    第一章:互联网产品从0到1全流程解密(9-11)
    第一章:互联网产品从0到1全流程解密(5-8)
  • 原文地址:https://www.cnblogs.com/luweiweicode/p/15329286.html
Copyright © 2011-2022 走看看