zoukankan      html  css  js  c++  java
  • elasticsearch 分词与内置分词器

    什么是分词?

    把文本转换为一个个的单词,分词称之为analysis。es默认只对英文语句做分词,中文不支持,每个中文字都会被拆分为独立的个体。
    英文分词:I study in imooc.com
    中文分词:我在慕课网学习

    POST /_analyze
    {
    "analyzer": "standard",
    "text": "text文本"
    }
    
    POST /my_doc/_analyze
    {
    "analyzer": "standard",
    "field": "name",
    "text": "text文本"
    }
    

    es内置分词器

    standard:默认分词,单词会被拆分,大小会转换为小写。
    simple:按照非字母分词。大写转为小写。
    whitespace:按照空格分词。忽略大小写。
    stop:去除无意义单词,比如 the / a / an / is …
    keyword:不做分词。把整个文本作为一个单独的关键词。

  • 相关阅读:
    1282 回文数猜想
    1279 验证角谷猜想
    1205 吃糖果
    1201 18岁生日
    1106 排序
    2024 C语言合法标识符
    196 让气球飞吧
    1001 Sum Problem
    if语句
    三元运算符
  • 原文地址:https://www.cnblogs.com/hardy-wang/p/13863416.html
Copyright © 2011-2022 走看看