什么是Lucene和Solr和Elasticsearch，它们的区别是什么？

zoukankan html css js c++ java

什么是Lucene和Solr和Elasticsearch，它们的区别是什么？
说道es我们往往会听到Solr和Lucene，那么Lucene和Solr和Elasticsearch的区别？
- Lucene
Lucene是apache下的一个子项目，是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎。官网地址：https://lucene.apache.org/
- Solr
Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。官网地址：http://lucene.apache.org/solr/
- Elasticsearch
Elasticsearch跟Solr一样，也是一个基于Lucene的搜索服务器，它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。官网地址：https://www.elastic.co/products/elasticsearch

1、Elasticsearch的优缺点：
- 优点：
1.Elasticsearch是分布式的。不需要其他组件，分发是实时的，被叫做"Push replication"。

2.Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。

3.处理多租户（multitenancy）不需要特殊配置，而Solr则需要更多的高级设置。

4.Elasticsearch 采用 Gateway 的概念，使得完备份更加简单。

5.各节点组成对等的网络结构，某些节点出现故障时会自动分配其他节点代替其进行工作。
- 缺点：
1.只有一名开发者（当前Elasticsearch GitHub组织已经不只如此，已经有了相当活跃的维护者）

2.还不够自动（不适合当前新的Index Warmup API）

2、Solr的优缺点：
- 优点
1.Solr有一个更大、更成熟的用户、开发和贡献者社区。

2.支持添加多种格式的索引，如：HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。

3.Solr比较成熟、稳定。

4.不考虑建索引的同时进行搜索，速度更快。
- 缺点
1.建立索引时，搜索效率下降，实时索引搜索效率不高。

3、Elasticsearch 与 Solr 的比较：

1.二者安装都很简单；

2.Solr 利用 Zookeeper 进行分布式管理，而 Elasticsearch 自身带有分布式协调管理功能;

3.Solr 支持更多格式的数据，而 Elasticsearch 仅支持json文件格式；

4.Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高级功能多有第三方插件提供；

5.Solr 在传统的搜索应用中表现好于 Elasticsearch，但在处理实时搜索应用时效率明显低于 Elasticsearch。

6.Solr 是传统搜索应用的有力解决方案，但 Elasticsearch 更适用于新兴的实时搜索应用。

使用案例：

1.维基百科使用Elasticsearch来进行全文搜做并高亮显示关键词，以及提供search-as-you-type、did-you-mean等搜索建议功能。

2.英国卫报使用Elasticsearch来处理访客日志，以便能将公众对不同文章的反应实时地反馈给各位编辑。

3.StackOverflow将全文搜索与地理位置和相关信息进行结合，以提供more-like-this相关问题的展现。

4.GitHub使用Elasticsearch来检索超过1300亿行代码。

5.每天，Goldman Sachs使用它来处理5TB数据的索引，还有很多投行使用它来分析股票市场的变动。

2、相关面试题

solr如何实现搜索的？

倒排索引，先抽取文档中词，并建立词与文档id的映射关系，然后查询的时候会根据词去查询文档id，并查询出文档

Solr过滤器

Solr的过滤器对接收到的标记流（TokenStream ）做额外的处理

过滤查询，在查询时设置

Solr原理

Solr是基于Lucene开发的全文检索服务器，而Lucene就是一套实现了全文检索的api，其本质就是一个全文检索的过程。全文检索就是把原始文档根据一定的规则拆分成若干个关键词，然后根据关键词创建索引，当查询时先查询索引找到对应的关键词，并根据关键词找到对应的文档，也就是查询结果，最终把查询结果展示给用户的过程
- Solr基于什么
基于lucene搜索库的一个搜索引擎框架，lucene是一个开放源码的全文检索引擎工具包
- solr怎么设置搜索结果排名靠前
设置文档中域的boost值，值越高相关性越高，排名就靠前
- IK分词器原理
本质上是词典分词，在内存中初始化一个词典，然后在分词过程中逐个读取字符，和字典中的字符相匹配，把文档中的所有词语拆分出来的过程
- solr的索引查询为什么比数据库要快
Solr使用的是Lucene API实现的全文检索。全文检索本质上是查询的索引。而数据库中并不是所有的字段都建立的索引，更何况如果使用like查询时很大的可能是不使用索引，所以使用solr查询时要比查数据库快
- solr索引库个别数据索引丢失怎么办
首先Solr是不会丢失个别数据的。如果索引库中缺少数据，那就向索引库中添加
- Lucene索引优化
直接使用Lucene实现全文检索已经是过时的方案，推荐使用solr。Solr已经提供了完整的全文检索解决方案
- 多张表的数据导入solr(解决id冲突)
在schema.xml中添加uuid，然后solrconfig那边修改update的部分，改为使用uuid生成
- solr如何分词，新增词和禁用词如何解决
schema.xml文件中配置一个IK分词器，然后域指定分词器为IK

新增词添加到词典配置文件中ext.dic，禁用词添加到禁用词典配置文件中stopword.dic，然后在schema.xml文件中配置禁用词典：
- solr多条件组合查询
创建多个查询对象，指定他们的组合关系，Occur.MUST（必须满足and），Occur.SHOULD（应该满足or），Occur.MUST_NOT（必须不满足not）
- elasticsearch 了解多少，说说你们公司 es 的集群架构，索引数据大小，分片有多少，以及一些调优手段。elasticsearch 的倒排索引是什么。
ElasticSearch（简称ES）是一个分布式、Restful的搜索及分析服务器，设计用于分布式计算；能够达到实时搜索，稳定，可靠，快速。和Apache Solr一样，它也是基于Lucence的索引服务器，而ElasticSearch对比Solr的优点在于：

轻量级：安装启动方便，下载文件之后一条命令就可以启动。

Schema free：可以向服务器提交任意结构的JSON对象，Solr中使用schema.xml指定了索引结构。

多索引文件支持：使用不同的index参数就能创建另一个索引文件，Solr中需要另行配置。

分布式：Solr Cloud的配置比较复杂。

倒排索引是实现"单词-文档矩阵"的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成："单词词典"和"倒排文件"。
- elasticsearch 索引数据多了怎么办，如何调优，部署。
使用bulk API

初次索引的时候，把 replica 设置为 0

增大 threadpool.index.queue_size

增大 indices.memory.indexbuffersize

增大 index.translog.flushthresholdops

增大 index.translog.sync_interval

增大 index.engine.robin.refresh_interval

http://www.jianshu.com/p/5eeeeb4375d4
- lucence 内部结构是什么
索引(Index)：在Lucene中一个索引是放在一个文件夹中的。如上图，同一文件夹中的所有的文件构成一个Lucene索引。

段(Segment)：一个索引可以包含多个段，段与段之间是独立的，添加新文档可以生成新的段，不同的段可以合并。

segments.gen和segments_X是段的元数据文件，也即它们保存了段的属性信息。

文档(Document)：文档是我们建索引的基本单位，不同的文档是保存在不同的段中的，一个段可以包含多篇文档。

新添加的文档是单独保存在一个新生成的段中，随着段的合并，不同的文档合并到同一个段中。
- 域(Field)：
一篇文档包含不同类型的信息，可以分开索引，比如标题，时间，正文，作者等，都可以保存在不同的域里。不同域的索引方式可以不同，在真正解析域的存储的时候，我们会详细解读。
- 词(Term)：
词是索引的最小单位，是经过词法分析和语言处理后的字符串。

solr和lucene的区别

Solr和Lucene的本质区别有以下三点：搜索服务器，企业级和管理。Lucene本质上是搜索库，不是独立的应用程序，而Solr是。Lucene专注于搜索底层的建设，而Solr专注于企业应用。Lucene不负责支撑搜索服务所必须的管理，而Solr负责。所以说，一句话概括Solr: Solr是Lucene面向企业搜索应用的扩展

Lucene: 是一个索引与搜索类库，而不是完整的程序。

Solr：是一个高性能，采用Java5开发，基于Lucene的一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。

solr 实现全文检索

索引流程：客户端---》solr 服务器(发送post请求,xml文档包含filed，solr实现对索引的维护)

搜索流程：客户端---》solr 服务器(发送get 请求，服务器返回一个xml 文档)

solr和lucene之间的区别

lucene全文检索的工具包,jar包

solr全文检索服务器,单独运行的servlet容器
查看全文

相关阅读:
获取当前div中的所有div的个数和每一个div的ID and 根据屏幕分辨率计算高度
 在当前页获取父窗口中母版页中的服务器控件的ID
Asp.net C# 获取本周上周本月上月本年上年第一天最后一天时间大全
 C#后台调用前台js方法
 IComparable与排序
 C# 与.NET2.0 中类型Type的GetMethod方法
 下拉菜单及时间段的获取
 黑马程序员——JAVA基础之简述集合collection
黑马程序员——JAVA基础之基本数据类型包装类和1.5JDK新特性装箱
 黑马程序员——JAVA基础之String和StringBuffer

原文地址：https://www.cnblogs.com/SmallStrange/p/14179801.html