Solr搜索结果高亮及高级设置

zoukankan html css js c++ java

Solr搜索结果高亮及高级设置
一.高亮简介

　　大多数的搜索应用都存在类似的情况，那就是搜索结果显示的屏幕空间有限。如果文档很短并可以在结果列表中显示全部内容，对屏幕空间显示就不会构成太大的问题。但大多数情况下都只能显示每个结果文档的一小部分。这就提出了一个问题：如何决定结果文档中显示哪一部分？理想情况下，应该是基于各片段与用户查询的匹配程度来决定。为查询结果选择最佳片段进行显示，这是Solr高亮框架提供的核心功能。

二.高亮工作原理

　　1.基本高亮

　　

　　请注意，Solr返回的高亮片段在一个单独的元素中：<lst name="highlighting">。因此，客户端应用程序必须处理这些信息，才能对其进行显示。

　　2.每个结果生成多个高亮片段

　　在某些情况下，每个结果高亮显示一个片段，这可能还不足以为用户提供足够的上下文信息，让用户判断这个结果是否值得进一步研究。使用hl.snippets参数在该文档和结果中的其他文档中梳理出更多的上下文。hl.snippets=2代表允许每个文档最多高亮显示两个片段的显示结果。

　　

　　正如搜索结果的其他高亮效果那样，设置hl.snippets=2并不能保证每个文档总能生成两个高亮片段。若结果中只有一个满足搜索条件，则只返回一个高亮片段。参数hl.snippets的值应被视为每个结果返回高亮片段的数量上限。

三.查询全流程分析

　　

四.高亮内核分析

　　solrconfig.xml文件中定义了一个名为highlight的搜索组件，给出了高亮搜索组件的简要定义。
 <searchComponent class="solr.HighlightComponent" name="highlight"> <highlighting>   <fragmenter name="gap" default="true" class="solr.highlight.GapFragmenter"> <lst name="defaults"> <int name="hl.fragsize">100</int> </lst> </fragmenter>  <fragmenter name="regex" class="solr.highlight.RegexFragmenter"> <lst name="defaults">  <int name="hl.fragsize">70</int>  <float name="hl.regex.slop">0.5</float>  <str name="hl.regex.pattern">[-w ,/ "']{20,200}</str> </lst> </fragmenter>  <formatter name="html" default="true" class="solr.highlight.HtmlFormatter"> <lst name="defaults"> <str name="hl.simple.pre"><![CDATA[]]></str> <str name="hl.simple.post"><![CDATA[]]></str> </lst> </formatter>  <encoder name="html" class="solr.highlight.HtmlEncoder" />  <fragListBuilder name="simple" class="solr.highlight.SimpleFragListBuilder"/>  <fragListBuilder name="single" class="solr.highlight.SingleFragListBuilder"/>  <fragListBuilder name="weighted" default="true" class="solr.highlight.WeightedFragListBuilder"/>  <fragmentsBuilder name="default" default="true" class="solr.highlight.ScoreOrderFragmentsBuilder">  </fragmentsBuilder>  <fragmentsBuilder name="colored" class="solr.highlight.ScoreOrderFragmentsBuilder"> <lst name="defaults"> <str name="hl.tag.pre"><![CDATA[ ,, ,, ,, ,, ,]]></str> <str name="hl.tag.post"><![CDATA[]]></str> </lst> </fragmentsBuilder> <boundaryScanner name="default" default="true" class="solr.highlight.SimpleBoundaryScanner"> <lst name="defaults"> <str name="hl.bs.maxScan">10</str> <str name="hl.bs.chars">.,!? 	
</str> </lst> </boundaryScanner> <boundaryScanner name="breakIterator" class="solr.highlight.BreakIteratorBoundaryScanner"> <lst name="defaults">  <str name="hl.bs.type">WORD</str>   <str name="hl.bs.language">en</str> <str name="hl.bs.country">US</str> </lst> </boundaryScanner> </highlighting> </searchComponent>
　　高亮组件位于查询处理链的下游，因此，高亮组件每次只能对一页搜索结果进行高亮处理。如果页面较大，比如1000，那么每次请求中高亮组件的处理量很大，这会对查询响应时间造成负面影响。

　　当需要使用多字段时，例如，数据包含title和body两个字段，并且打算在这两个字段上高亮显示查询词项。在这种情况下，需要设定hl.fl=title,body，这样就能在title和body字段上都进行高亮显示。

　　对于hl.fl列表的每个字段，高亮组件将根据hl.snippets参数来决定生成多少个高亮片段，该参数的默认值为1。Solr高亮组件的主要组成如下：

　　

　　1.文本分析

　　在Solr高亮显示结果之前，它需要访问原始文本并将其存储起来。当Solr得到该字段的原始文本之后，它需要使用配置好的索引阶段分析器进行重新分析。对文档的原始文本重新进行分析主要有两个原因。首先，片段中的词项必须能与查询词项相比较。其次，Solr需要知道原始文本中词项的位置偏移量，以便它在片段中高亮显示词项。我们不希望Solr生成的高亮片段漏掉raining的结尾ing。因此，Solr需要知道原始文本中raining开始和结束的位置。位置偏移量很重要，通过它Solr才能知道什么时候该高亮显示一个短语，而不是短语的一部分。词项分析器如下：

　　

　　2.分段

　　分段是选择文本字段中零个或多个子片段进行高亮显示的过程。基于这一点，使用片段表示已排名和格式化的片段，这些片段得分足够高，在结果中得以返回。Solr把文本分隔成片段，每个片段产生一个分数，得分最高的前N个片段作为高亮显示片段被返回，这里的N由参数hl.snippets设定。

　　Solr有两个基本方法来实现分段，分别是GapFragmenter和RegexFragmenter。默认方式是GapFragmenter，它基于一个目标长度来选择片段。默认情况下，目标片段长度为100，也可以使用hl.fragsize参数进行修改。RegexFragmenter不会拆分分词来产生固定长度的片段，而GapFragmenter会在分词边界上创建片段。GapFragmenter得名于，它避免了在跨越较大位置间隔上创建片段。例如，在schema.xml文件中字段定义的positionIncrementGap属性上设置多值字段不同值之间的间隔。

　　RegexFragmenter通过正则表达式在文本中选择片段。

　　3.评分

　　分段组件使用了评分组件的子组件为片段评分。默认评分组件的实现方法【QueryScorer】会计算每个分段中出现了多少个查询词项。

　　4.编码与格式

　　hl.formatter参数指定了一个格式化组件，用来对词项进行高亮显示。默认格式化组件【hl.formatter=simple】将每个词项包含在任意一段文本中。这种方法适用于HTML标签来高亮显示查询词项。默认情况下，simple格式化组件将词项放在标签中，也可以使用hl.simple.pre和hl.simple.post参数覆盖默认值。例如，如果想要使用层叠样式表对高亮词项进行格式化，在查询中添加一下参数即可：

　　hl.simple.pre=&

　　hl.simple.post=

　　在每个片段传递给格式化组件之前，编码组件需要对特殊字符进行编码。当生成一个HTML高亮片段时，HTML编码器将特殊字符转义为HTML字符实体引用。

五.优化高亮显示结果

　　1.与分面一起使用

　　

　　2.高亮显示短语

　　在后台，hl.usePhraseHighlighter参数控制这个行为，默认情况下它是启用状态。如果设置hl.usePhraseHighlighter=false，那么Solr可能返回单独高亮显示词项blue或fireball的片段。关键之处在于，Solr在高亮显示查询短语时处理得当。

　　3.高亮显示多值字段

　　略

　　4.高亮参数小结

　　

　　

　　5.字段级覆写

　　很多高亮组件的参数都可以进行字段级覆写。例如，搜索应用有title和body两个字段。标题总是很短，因而只要求产生一个片段；但是若想在较长的body字段上生成三个片段，只需要设置f.body.hl.snippets=3来覆写body字段的默认值1即可。一般情况下，在参数前添加f.fieldname对任意参数应用字段级覆写。
查看全文

相关阅读:
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
xgqfrms™, xgqfrms® : xgqfrms's offical website of GitHub!
互联网大厂CTO详解5大软件架构，看完这篇你就秒懂
 5-10年的DBA如何独当一面？这10个建议送给你（附图书工具推荐）
2020 从新开始：你应该知道的Oracle认证新变化
 Centos7部署NFS实战
 你的公司，远程办公多久了？
PostgreSQL的几种分布式架构对比
 数据库周刊 | DBA 核心技能
 理解redis 分布式中的分片机制

原文地址：https://www.cnblogs.com/yszd/p/12867697.html

Solr搜索结果高亮及高级设置

一.高亮简介

二.高亮工作原理

1.基本高亮

2.每个结果生成多个高亮片段

三.查询全流程分析

四.高亮内核分析

1.文本分析

2.分段

3.评分

4.编码与格式

五.优化高亮显示结果

1.与分面一起使用

2.高亮显示短语

3.高亮显示多值字段

4.高亮参数小结

5.字段级覆写

　　1.基本高亮

　　2.每个结果生成多个高亮片段

　　1.文本分析

　　2.分段

　　3.评分

　　4.编码与格式

　　1.与分面一起使用

　　2.高亮显示短语

　　3.高亮显示多值字段

　　4.高亮参数小结

　　5.字段级覆写