zoukankan      html  css  js  c++  java
  • 实战:考虑性能Solr索引的schema设计

    从 high level 的角度来看,schema.xml 结果如下,这个例子虽然不是一个真实的XML,但是简洁明了的传达了shema的概念。

    <schema>
    <types>
    <fields>
    <uniqueKey>
    <defaultSearchField>
    <solrQueryParser defaultOperator>
    <copyField>
    </schema>


    绝大部分设计工作和内容都在types和fields中,这两个元素定义了索引的字段和类型,再辅以copyField。夹在copyField和fileds之间的是uniqueKey, defaultSearchField和defaultQueryOperator。

     

    1.选择合适的数字类型。

    一般数字字段:使用TrieIntField TrieLongField TrieFloatField TrieDoubleField 配置 precisionStep="0"。

    频繁范围查询字段:如寻找price在[300,500]之间的记录,使用默认precisionStep或者设置precisionStep="8"(默认值),这样能提高查询性能,同时代价是索引的size会有一点额外增加。

     

    2.处理文本。

    技巧1:通过copyField定义通用field。

    搜索引擎用户不会希望自己输入field_name:value这种查询条件,更多时候,他们不关注fieldName。可以copy其他field的值到text字段中。搜索时,用户指定value,页面可以直接通过q查询,这也是大多数搜索引擎的搜索方法。

    <copyField source="name" dest="text" maxChars="25000" />
    <copyField source="feature" dest="text" maxChars="25000" />

    技巧2:同一个值存不同形式。

    假设你有一个名为author的field,同时需要满足按作者搜索和按第一作者做facet。如下:

    Schildt, Herbert; Wolpert, Lewis; Davies, P.

    1)按作者搜索场景,copy到textField类型,使用解析器lowCase+除去标点。

    schildt  herbert  wolpert  lewis  davies  p

    2)facet场景,copy第一作者到string类型:

    Schildt, Herber

    3.Facet字段使用DocValues。

    <field name="manu_exact" type="string" indexed="false" stored="false" docValues="true"/>

    如果该字段同时需要作为查询条件,indexed设置为true。

    如果,您认为阅读这篇博客让您有些收获,不妨点击一下右下角的【推荐】。
    如果,您希望更容易地发现我的新博客,不妨点击一下左下角的【关注我】。
    如果,您对我的博客所讲述的内容有兴趣,请继续关注我的后续博客,我是【Arli】。

    本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

  • 相关阅读:
    c# 动态加载工具栏按钮代码
    根据结果集处理工作事务c#源码
    关于升级后药库中报表需要重新设置的问题
    vs2005打开工程后退出
    把照片写入到DataTable
    关于导入最新住院管理后界面控件乱的问题
    django实战2运维日常维护统计
    ip_conntrack_netbios_n 报错
    django_book学习笔记7django常用方法总结
    python模块整理14re模版
  • 原文地址:https://www.cnblogs.com/arli/p/6211591.html
Copyright © 2011-2022 走看看