solr 的结构分析

zoukankan html css js c++ java

solr 的结构分析
solr在lucene外边做了一层厚厚的封装，主要是为了简化二次开发，提供了一些成熟的解决方案。

solr和solrCore

solr可以对多个core进行综合管理，并接受请求选择特定的一个或者多个core执行相关任务。下面来回答什么是solr的core。

core从文件结构的角度来看的话，主要包括一份索引（也可能还包括拼写检查的索引）、一堆配置文件。最主要的配置文件是：solrconfig.xml和schema.xml。solrconfig.xml从整体上对core进行了配置，例如索引的存放路径、字段的最大长度（maxFiedlLength）、写锁的超时时间（writeLockTimeout）、锁类型（lockType）、是否压缩索引（useCompoundFile）、内存索引缓冲区大小（ramBufferSizeMB）、合并因子（mergeFactor）、删除策略、自动提交策略、缓存设置等，它好比是一份组装机器人的说明书，里面详细描述了各个部件（handler）的参数。schema.xml主要是对索引的配置，例如分词器、字段名称+索引方法+存储方式+分词方式、唯一标识字段等，它好比是机器人学习的学习方法，机器人主动或被动接受特定数据，按照配置转化成索引，然后通过其部件（handler）展示出来，例如：search、moreLikeThis、spellCheck、factedSearcher等。

core从功能方面来说的话，主要是通过各种handler进行工作，这个在上文中也提及过。solr的功能之多让我想到瑞士军刀，看图：

常见的有：morelikeThis、search、 spellCheck、dataImport等。

然而不同的部件有复杂简易之分，我们常见的searchHandler就比较复杂，他包括多个零件（component）。

多个component进行组合就可以完成特定的工作。（以下代码摘自：SearchHandler.java）
for( SearchComponent c : components ) { rb.setTimer( subt.sub( c.getName() ) ); c.process(rb); rb.getTimer().stop(); }
以上文字主要简单白话了solr的core是个什么东西！那么solr怎么控制这些core进行工作呢？

例如我们输入：http://localhost:8080/solr3.5/core1/select/?q=*%3A*&version=2.2&start=0&rows=10&indent=on

这个是检索的目的是：检索core1下的所有内容，并返回前10条。

solr通过request获取requestPath，解析出对应的core名称（这里coreName=core1），然后获取core实例（找到相应的机器人）。

然后解析出select指令，明确告诉core是进行检索任务，任务的具体参数通过solrRequestParser进行解析。solrRequestParser可以看出是将url转换成core识别指令的“翻译器”。下面core就可以调用相应的handler执行任务了。

从外往里看，solr可以看成是：

solr Manager -> solr core -> handler -> component

简单说说solr的分布式（version：solr3.5）

当一个索引越来越大，一个服务器放不下了，怎么办？

当一个大索引的单次请求慢得想死，怎么办？

选择分布式吧！他能将索引进行切分放到不同的服务器上（shards），还可以将处理的计算压力进行分摊。他会将各个shard上的结果进行合并，并“完美”的呈现给您！

然而、但是......solr的分布式并不完美。最主要的就是idf的计算问题。这个问题会在单个shard进行打分运算过程中就发生了，如果每个shard在计算过程中实时去其他shards去获取df和文档总数，请求的消耗是不能忍受的。要解决这个问题就得在每个shard中实时保存每个单词的df和文档总数。

简单说说solr的服务发布方式和客户端solrJ

solr部署在服务器上，提供各种服务。服务发布的方式主要是基于http协议的，传输数据格式为xml、json，不同开发语言都可以通过socket编程进行访问。官方的java客户端就是solrJ，他利用HttpClient进行客户端开发。

我曾经毫无理由的怀疑过这种方式——如果我要用标准的webService，然后又不想改动太多源码，是不是还得通过slorJ做个中间桥梁？是不是无缘无故的多了一次http请求？虽然有embedded！感觉就是solr的这层服务接口被http侵入得有点深。深入的研究后续跟进= =。

为什么solr没有multiSearcher？

lucene3.5中的multiSearcher已经过时了，取而代之的是multiReader。

If you are using MultiSearcher over IndexSearchers, please use MultiReader instead; this class does not properly handle certain kinds of queries.

从lucene早起版本开始，或者说是受数据库思想的影响，会将数据按照某一性质进行划分，放到不同的索引里面。理由是便于管理、防止单一索引过大。如果需要同时检索多个索引，自然就用到了multiSearcher。到了solr发现一个core中只能一份索引，于是纠结solr为什么没有multiSearcher？难道solr不担心单一索引过大吗？难道同时检索多个索引就得使用它并不完善的distributedSearch吗？当时这个思想一直影响了我对solr的好感。

现在“改革开发”的思想就是：在业务需求下，不支持对多个索引同时进行检索。当单个索引的检索压力出现效率问题后，再考虑分布式检索，将数据分发到不同的shards上。如果不是单次检索的运算量瓶颈，而是并发量带来的压力，考虑使用负载均衡。这里很类似于mongodb，并发压力大作replSet，单库太大做sharding。
查看全文

相关阅读:
线程、同步
 异常、线程
 Map
List、Set
Collection、泛型
 Object类、常用API
h5-上传图片预览
 js 获取get参数
 《转》完美解决微信video视频隐藏控件和内联播放问题
 写入文件（覆盖文件的内容）

原文地址：https://www.cnblogs.com/huangfox/p/2627055.html