zoukankan      html  css  js  c++  java
  • Solr 6.7学习笔记(02)-- 配置文件 managed-schema (schema.xml)

    有些时候,我们需要自定义 fieldType。下面的例子就是自定义的 fieldType,<analyzer type="index"> 表示索引时怎么处理,<analyzer type="query">表示查询时怎么处理。

    <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
          <analyzer type="index">
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
            <!-- 本例中,我们只在查询时应用同义词
            <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
            -->
            <filter class="solr.LowerCaseFilterFactory"/>
          </analyzer>
          <analyzer type="query">
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
            <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
            <filter class="solr.LowerCaseFilterFactory"/>
          </analyzer>
        </fieldType>

     tokenizer: 对输入流进行分词。这里的“solr.” 代表:org.apache.solr.analysis. 这个包

    filter: 对tokenizer输出的每一个分词,进行处理。

    Tokenizer

    1. solr.StandardTokenizerFactory

            把文本用空格和标点符号分割。对于小数点(.),如果后面不是空格的话,将会被保留。如网址。连字符(-)的两边会被分割成两个分词(token)。

            参数:maxTokenLength  分词的最大长度,超出部分将被忽略。

            example:             

    <analyzer>
        <tokenizer class="solr.StandardTokenizerFactory" maxTokenLength="100"/>
    </analyzer>

            输入:   Please email john.doe@foo.com by 03-09, re: m37-xq.

            输出:   "Please", "email", "john.doe", "foo.com", "by", "03", "09", "re", "m37", "xq"

    2. solr.ClassicTokenizerFactory

            跟StardardTokenizerFactory差不多,不同点如下:

            (1)连字符(-)两边如果有数字的话,将不会被拆分。

            (2)能识别邮件地址

            参数:maxTokenLength  分词的最大长度,超出部分将被忽略。

        示例:

            输入:   Please email john.doe@foo.com by 03-09, re: m37-xq.

            输出:   "Please", "email", "john.doe@foo.com", "by", "03-09", "re", "m37-xq"

    3. solr.KeywordTokenizerFactory

            整个文本做为一个分词。

        示例:

            输入:   Please email john.doe@foo.com by 03-09, re: m37-xq.

            输出:   “Please email john.doe@foo.com by 03-09, re: m37-xq"

    4. solr.LetterTokenizerFactory

            连续的字母做为一个分词。

        示例:

            输入:   I can't.

            输出:   “I", "can", "t"

    5. solr.LowerCaseTokenizerFactory

            按非字母进行分词,并转化成小写。

        示例:

            输入:   I LOVE my iPhone.

            输出:   “I", "love", "my", "iphone"

    6. solr.NGramTokenizerFactory

            对文本按照 n-Gram 进行分词。

        参数:minGramSize (default 1) -- 必须 > 0

                   maxGramSize (default 2) -- 必须 >= minGramSize

        示例:

            输入:   hey man

            输出:   “h", "e", "y", " ", “m", "a", "n", "he", “ey", "y ", " m", "ma", "an"

    7. solr.EdgeNGramTokenizerFactory

            对文本按照 n-Gram 进行分词。

        参数:minGramSize (default 1) -- 必须 > 0

                   maxGramSize (default 1) -- 必须 >= minGramSize

                   side (default "front") -- "front" or "back"

        示例:

            输入:   babaloo

            输出(default):   “b"

            输出(minGramSize=2, maxGramSize=5):"ba", "bab", "baba", "babal"

    8. solr.ICUTokenizerFactory

            对多语言文本,基于其语言特性,进行恰当地分词。

        参数:rulefile-- 此值的格式:  四个字母的语言代码+“:”+文件路径

    <analyzer>
        <tokenizer class="solr.ICUTokenizerFactory" rulefile="Latn:my.Latin.rule.rbbi,Cyrl:my.Cyrillic.rules.rbbi"/>
    </analyzer>

           注意:需要添加额外的jar包到Solr 的 classpath下。

    9. solr.PathHierarchyTokenizerFactory

            用replace指定的字符代替delimiter指定的字符,并进行分词

        参数:delimiter (no default) 

                   replace (no default)  

        示例:

    <analyzer>
        <tokenizer class="solr.PathHierarchyTokenizerFactory" delimiter="" replace="/"/>
    </analyzer>

            输入:   d:usrlocalapache

            输出:   "d:", "d:/usr", "d:/usr/local", "d:/usr/local/apache"

    10. solr.PatternTokenizerFactory

            利用Java的正则表达式进行分词。

        参数:pattern -- 必填

                   group --   可选。默认 -1 。 

                                  -1 表示正则表达式作为分割符。0 表示符合正则表达式的才会被认为是一个分词而保留。大于0的值(比如2)表示只保留符合正则表达式的部分中的第2个部分。

        示例:

    <analyzer>
        <tokenizer class="solr.PatternTokenizerFactory" pattern="s*s*" />
    </analyzer>

            输入:   fee,fie, foe , fun,  foo

            输出:   "fee", "fie", "foe", "fun", "foo"

        示例:

    <analyzer>
        <tokenizer class="solr.PatternTokenizerFactory" pattern="[A-Z][A-Za-z]*" group="0"/>
    </analyzer>

            输入:   Hello, My name is Rose.

            输出:   "Hello", "My", "Rose"

    11. solr.UAX29URLEmailTokenizerFactory

            空格和标点符号做为分割符。小数点如果后面不是空格,则被保留。连接符(“-”)连起来的各个部分将被划分为独立的分词,除非其中包含数字。网址、Email、IP地址将会被认为一个整体。

        参数:maxTokenLength -- 长度超过此值的分词将会被截断。

    12. solr.WhitespaceTokenizerFactory

            仅将空格做为分割符。

        参数:rule -- "java": 默认值,利用Character.isWhitespace(int)确定是否是whitespace。 “unicode”: 利用Unicode的whitespace做为分割符。

  • 相关阅读:
    Andrew Ng机器学习算法入门((七):特征选择和多项式回归
    Andrew Ng机器学习算法入门((六):多变量线性回归方程求解
    Andrew Ng机器学习算法入门((五):矩阵和向量
    Linux常用命令集锦
    Andrew Ng机器学习算法入门(四):阶梯下降算法
    AZscaaner源码解读之数据库连接(一)
    Andrew Ng机器学习算法入门(三):线性回归算法
    Andrew Ng机器学习算法入门(二):机器学习分类
    MapServer
    fetch.js
  • 原文地址:https://www.cnblogs.com/langfanyun/p/7424405.html
Copyright © 2011-2022 走看看