zoukankan      html  css  js  c++  java
  • Lucene和Solr和Elasticsearch部分

    Lucene和Solr和Elasticsearch部分
    (1)Lucene和Solr和Elasticsearch
    Lucene是Apache下的一个子项目,是一个开放源代码的全文搜索引擎工具包,但它不是一个完整的全文搜索引擎,而是一个全文搜索引擎的架构,提供了完整的查询引擎
    和索引引擎,部分文本分析引擎。官网地址:http://lucene.apache.org/
    Solr是一个高性能,采用java5开发,基于lucene的全文搜索服务器,同时对其进行了扩展,提供了比lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询
    性能进行了优化,并且提供了一个功能完善的功能管理界面,是一款非常优秀的全文搜索引擎。官网地址:http://lucene.apache.org/Solr/
    Elasticsearch跟Solr一样,也是基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于Restful web接口。官网地址:https://www.elastic.co/products/elasticsearch
    (2)三者各自的优缺点?
    1.Elasticsearch
    优点:分布式的,不需要其他组件,分发是实时的,被叫做“push replication”
    完全支持Apcahe Lucene的接近实时的搜索
    处理多租户不需要特殊配置,而Solr需要更多的高级设置
    采用getway的概念,使得备份更加简单
    各节点组成对等的网络结构,某些节点出现故障时会自动分配到其他节点代替其进行工作
    缺点:只有一名开发者
    还不够自动
    2.Solr
    优点:有一个更大、更成熟的用户、开发和贡献者社区
    支持多种格式的索引,如HTML、PDF、微软Office系列软件格式以及JSON、XML、CSV等纯文本格式
    比较成熟、稳定
    不考虑建索引的同时进行搜索,速度更快
    缺点:建立索引时,搜索效率下降,实时搜索效率不高
    (3)Elasticsearch和Solr的比较
    1.二者安装都比较简单
    2.Solr利用Zookeeper进行分布式管理,而Elasticsearch自身带有分布式协调管理功能
    3.Solr支持更多格式的数据,而Elasticsearch仅仅支持JSON文件格式
    4.Solr官方提供的功能更多,而Elasticsearch本身更注重于核心功能,高级功能多由第三方插件进行提供
    5.Solr是传统搜索应用的有利解决方案,而Elasticsearch更适用于新兴的实时搜索应用
    (4)Solr如何实现搜索的?
    倒序索引,先抽取文档中词,并建立词与文档id的映射关系,然后查询的时候会根据词去查询文档id,并查询出文档
    (5)Solr过滤器
    Solr的过滤器对接收到的标记流(TokenStream),做额外的处理。过滤查询,在查询时设置
    (6)Solr原理
    Solr是基于Lucene开发的全文搜索服务器,而Lucene就是一套实现了全文所有的API,其本质就是一个全文搜索的过程。全文搜索就是把原始文档根据一定的规则拆分成
    若干个关键字,然后根据关键字创建索引,当查询时先查询索引找到对应的关键词,并根据关键词找到对应的文档,也就是查询结果,最终把查询结果展示给用户的过程
    (7)Solr怎么设置搜索结果排名靠前
    设置文档中域的boost值,值越高相关性越高,排名就靠前
    (8)IK分词器原理
    本质上是词典分词,在内存中初始化一个词典,然后在分词过程中逐个读取字符,和字典中的字符相匹配,把文档中的所有词语拆分出来的过程
    (9)Solr的索引查询为什么比数据库要快?
    Solr使用的Lucene API实现的全文搜索。全文搜索本质上是查询的索引。而数据库中并不是所有字段都建立了索引,更何况如果使用like查询时很大可能是不适用索引,所以
    Solr查询比数据库快
    (10)Solr索引库个别数据索引丢失怎么办?
    首先Solr是不会丢失个别数据的,如果索引库中缺少数据,那就向索引库中进行添加
    (11)多张表的数据导入Solr(解决id冲突)
    在schema.xml中添加uuid,然后Solrconfig那边修改update的部分,改为使用uuid生成
    (12)Solr如何分词,新增词和禁用词如何解决?
    schema.xml文件中配置一个IK分词器,然后域指定分词器为IK
    新增词添加到字典配置文件中ext.dic,禁用词添加到禁用词字典配置文件中stopword.dic,然后在schema.xml文件中配置禁用词典:<filter class="Solr.StopFilterFactory" ignore="true"
    words="/禁用词文件目录"/>
    (13)Solr多条件组合查询
    创建多个查询对象,指定他们的组合关系,Occur.MUST(必须满足and),Occur.SHOULD(因该满足or),Occur.MUST.NOT(必须不满足not)
    (14)面试重点,谈谈对Elasticsearch了解多少,谈谈公司的es的集群架构,索引数据大小,分片有多少,以及一些调优手段。Elasticsearch的倒排索引是什么?
    Elasticsearch简称es是一个分布式、Restful的搜索及分析服务器,涉及用于分布式计算;能够达到实时搜索,稳定、可靠、快速。和Apache Solr一样它也是基于Lucene的索引服务器,
    而Elasticsearch对比Solr的优点在于:
    轻量级:安装启动方便,下载文件之后一条命令就可以启动
    Schema free:k可以向服务器提交任意结构的JSON对象,Solr中使用schema.xml指定了索引结构
    多索引文件支持:使用不同的index参数就能创建另一个索引文件,Solr中需要另行配置
    分布式:Solr Cloud的配置比较复杂
    倒排索引是实现“单词-文档矩阵”的一种具体存储方式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两部分组成:单词词典和倒排文件
    (15)Elasticsearch索引数据多了怎么办,如何调优,部署?
    使用bulk API
    初次索引的时候,把replica设置为0
    增大 threadpool.index.queue_size
    增大 indices.memory.index_buffer_size
    增大 index.translog.flush_threshold_ops
    增大 index.translog.sync_interval
    增大 index.engine.robin.refresh_interval

  • 相关阅读:
    AngularJs+bootstrap搭载前台框架——准备工作
    Texygen文本生成,交大计算机系14级的朱耀明
    64个命令,每天一个linux命令目录, shutdown,tee,rcp,
    10个常用的ps命令总结,参数
    典型的知识库/链接数据/知识图谱项目
    十个Chatbot框架介绍
    Shell实现多级菜单系统安装维护脚本实例分享
    Java中判断字符串是否为数字的五种方法
    Shell中判断字符串是否为数字的6种方法分享
    shell产生随机数七种方法
  • 原文地址:https://www.cnblogs.com/juddy/p/14134435.html
Copyright © 2011-2022 走看看