实战:考虑性能Solr索引的schema设计

zoukankan html css js c++ java

实战:考虑性能Solr索引的schema设计
从 high level 的角度来看，schema.xml 结果如下,这个例子虽然不是一个真实的XML，但是简洁明了的传达了shema的概念。
<schema> <types> <fields> <uniqueKey> <defaultSearchField> <solrQueryParser defaultOperator> <copyField> </schema>
绝大部分设计工作和内容都在types和fields中，这两个元素定义了索引的字段和类型，再辅以copyField。夹在copyField和fileds之间的是uniqueKey, defaultSearchField和defaultQueryOperator。

1.选择合适的数字类型。

一般数字字段：使用TrieIntField TrieLongField TrieFloatField TrieDoubleField 配置 precisionStep="0"。

频繁范围查询字段:如寻找price在[300,500]之间的记录，使用默认precisionStep或者设置precisionStep="8"(默认值)，这样能提高查询性能，同时代价是索引的size会有一点额外增加。

2.处理文本。

技巧1:通过copyField定义通用field。

搜索引擎用户不会希望自己输入field_name：value这种查询条件，更多时候，他们不关注fieldName。可以copy其他field的值到text字段中。搜索时，用户指定value，页面可以直接通过q查询，这也是大多数搜索引擎的搜索方法。
<copyField source="name" dest="text" maxChars="25000" /> <copyField source="feature" dest="text" maxChars="25000" />
技巧2:同一个值存不同形式。

假设你有一个名为author的field，同时需要满足按作者搜索和按第一作者做facet。如下:

Schildt, Herbert; Wolpert, Lewis; Davies, P.

1)按作者搜索场景,copy到textField类型，使用解析器lowCase+除去标点。

schildt herbert wolpert lewis davies p

2)facet场景，copy第一作者到string类型：

Schildt, Herber

3.Facet字段使用DocValues。
<field name="manu_exact" type="string" indexed="false" stored="false" docValues="true"/>
如果该字段同时需要作为查询条件，indexed设置为true。
如果，您认为阅读这篇博客让您有些收获，不妨点击一下右下角的【推荐】。
如果，您希望更容易地发现我的新博客，不妨点击一下左下角的【关注我】。
如果，您对我的博客所讲述的内容有兴趣，请继续关注我的后续博客，我是【Arli】。

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
查看全文

相关阅读:
c getline
vim tips
viksoe.dk UI: Become windowless
用ls如何实现文件按时间排序查看，谢谢！ AIX ChinaUnix.net
垂直切分大小 : vertical res 30
commandlinefu.com
cmake 学习笔记(二) 1+1=2 博客频道 CSDN.NET
implement split with c++
分享：spdylay 0.3.8 发布，SDPY 的 C 语言实现
 培乐园《搜索相关性1》—在线播放—优酷网，视频高清在线观看

原文地址：https://www.cnblogs.com/arli/p/6211591.html

实战:考虑性能Solr索引的schema设计

1.选择合适的数字类型。

2.处理文本。

3.Facet字段使用DocValues。