zoukankan      html  css  js  c++  java
  • ElasticSearch快速学习



    一、ElasticSearch 介绍

    官网链接
    1、简介
    ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式的 RESTful 风格的搜索和数据分析引擎。
    Elasticsearch 是用 Java 语言开发的,并作为 Apache 许可条款下的开放源码发布,是一种流行的企业级搜索引擎。
    ElasticSearch 能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    2、特性
    存储:分布式的文档存储引擎,支持PB级数据。
    查询和分析:分布式的搜索引擎和分析引擎。
    可扩展:支持一主多从且扩容简易,只要cluster.name一致且在同一个网络中就能自动加入当前集群;也支持很多开源的第三方插件,如分词插件、同步插件、Hadoop插件、可视化插件等。
    高可用:在一个集群的多个节点中进行分布式存储,索引支持shards和复制,即使部分节点down掉,也能自动进行数据恢复和主从切换。
    RestfulAPI标准:通过http接口使用JSON格式进行操作数据。
    数据类型丰富:数字、文本、地理位置、结构化、非结构化等。

    3、使用场景
    搜索领域:如百度、谷歌,全文检索等。
    门户网站:访问统计、文章点赞、留言评论等。
    广告推广:记录员工行为数据、消费趋势、员工群体进行定制推广等。
    信息采集:记录应用的埋点数据、访问日志数据等,方便大数据进行分析。

    二、ElasticSearch 基础概念

    1、ElaticSearch 和 DB 的关系
    在 Elasticsearch 中,文档归属于一种类型 type,而这些类型存在于索引 index 中,我们可以列一些简单的不同点,来类比传统关系型数据库:
    Relational DB -> Databases -> Tables -> Rows -> Columns
    Elasticsearch -> Indices -> Types -> Documents -> Fields

    Elasticsearch 集群可以包含多个索引 indices,每一个索引可以包含多个类型 types,每一个类型包含多个文档 documents,然后每个文档包含多个字段 Fields。而在 DB 中可以有多个数据库 Databases,每个库中可以有多张表 Tables,没个表中又包含多行Rows,每行包含多列Columns。

    2、索引
    索引基本概念(indices):

    索引是含义相同属性的文档集合,是 ElasticSearch 的一个逻辑存储,可以理解为关系型数据库中的数据库,ElasticSearch 可以把索引数据存放到一台服务器上,也可以 sharding 后存到多台服务器上,每个索引有一个或多个分片,每个分片可以有多个副本。

    索引类型(index_type):

    索引可以定义一个或多个类型,文档必须属于一个类型。在 ElasticSearch 中,一个索引对象可以存储多个不同用途的对象,通过索引类型可以区分单个索引中的不同对象,可以理解为关系型数据库中的表。每个索引类型可以有不同的结构,但是不同的索引类型不能为相同的属性设置不同的类型。

    3、文档
    文档(document):

    文档是可以被索引的基本数据单位。存储在 ElasticSearch 中的主要实体叫文档 document,可以理解为关系型数据库中表的一行记录。每个文档由多个字段构成,ElasticSearch 是一个非结构化的数据库,每个文档可以有不同的字段,并且有一个唯一的标识符。

    4、映射
    映射(mapping):

    ElasticSearch 的 Mapping 非常类似于静态语言中的数据类型:声明一个变量为 int 类型的变量,以后这个变量都只能存储 int 类型的数据。同样的,一个 number 类型的 mapping 字段只能存储 number 类型的数据。

    同语言的数据类型相比,Mapping 还有一些其他的含义,Mapping 不仅告诉 ElasticSearch 一个 Field 中是什么类型的值, 它还告诉 ElasticSearch 如何索引数据以及数据是否能被搜索到。

    ElaticSearch 默认是动态创建索引和索引类型的 Mapping 的。这就相当于无需定义 Solr 中的 Schema,无需指定各个字段的索引规则就可以索引文件,很方便。但有时方便就代表着不灵活。比如,ElasticSearch 默认一个字段是要做分词的,但我们有时要搜索匹配整个字段却不行。如有统计工作要记录每个城市出现的次数。对于 name 字段,若记录 new york 文本,ElasticSearch 可能会把它拆分成 new 和 york 这两个词,分别计算这个两个单词的次数,而不是我们期望的 new york。

    以下笔记来源:

    原文连接:ES基本介绍

    作者:槐月十九

    ES数据架构的主要概念(与关系数据库Mysql对比)

    (1)关系型数据库中的数据库(DataBase),等价于ES中的索引(Index)
    (2)一个数据库下面有N张表(Table),等价于1个索引Index下面有N多类型(Type),
    (3)一个数据库表(Table)下的数据由多行(ROW)多列(column,属性)组成,等价于1个Type由多个文档(Document)和多Field组成。
    (4)在一个关系型数据库里面,schema定义了表、每个表的字段,还有表和字段之间的关系。 与之对应的,在ES中:Mapping定义索引下的Type的字段处理规则,即索引如何建立、索引类型、是否保存原始索引JSON文档、是否压缩原始JSON文档、是否需要分词处理、如何进行分词处理等。
    (5)在数据库中的增insert、删delete、改update、查search操作等价于ES中的增PUT/POST、删Delete、改_update、查GET.

    三、ELK是什么?

    ELK=elasticsearch+Logstash+kibana
    elasticsearch:后台分布式存储以及全文检索
    logstash: 日志加工、“搬运工”
    kibana:数据可视化展示。
    ELK架构为数据分布式存储、可视化查询和日志解析创建了一个功能强大的管理链。 三者相互配合,取长补短,共同完成分布式大数据处理工作。

    参考资料:

    四、ES性能

    性能结果展示
    (1)硬件配置:
    CPU 16核 AuthenticAMD
    内存 总量:32GB
    硬盘 总量:500GB 非SSD

    (2)在上述硬件指标的基础上测试性能如下:
    1)平均索引吞吐量: 12307docs/s(每个文档大小:40B/docs)
    2)平均CPU使用率: 887.7%(16核,平均每核:55.48%)
    3)构建索引大小: 3.30111 GB
    4)总写入量: 20.2123 GB
    5)测试总耗时: 28m 54s.

    性能esrally工具(推荐)
    使用参考:http://blog.csdn.net/laoyang360/article/details/52155481

    五、为什么要用ES?

    ES国内外使用优秀案例
    1) 2013年初,GitHub抛弃了Solr,采取ElasticSearch 来做PB级的搜索。 “GitHub使用ElasticSearch搜索20TB的数据,包括13亿文件和1300亿行代码”。

    2)维基百科:启动以elasticsearch为基础的核心搜索架构。
    3)SoundCloud:“SoundCloud使用ElasticSearch为1.8亿用户提供即时而精准的音乐搜索服务”。
    4)百度:百度目前广泛使用ElasticSearch作为文本数据分析,采集百度所有服务器上的各类指标数据及用户自定义数据,通过对各种数据进行多维分析展示,辅助定位分析实例异常或业务层面异常。目前覆盖百度内部20多个业务线(包括casio、云分析、网盟、预测、文库、直达号、钱包、风控等),单集群最大100台机器,200个ES节点,每天导入30TB+数据。

    我们也需要
    实际项目开发实战中,几乎每个系统都会有一个搜索的功能,当搜索做到一定程度时,维护和扩展起来难度就会慢慢变大,所以很多公司都会把搜索单独独立出一个模块,用ElasticSearch等来实现。

    近年ElasticSearch发展迅猛,已经超越了其最初的纯搜索引擎的角色,现在已经增加了数据聚合分析(aggregation)和可视化的特性,如果你有数百万的文档需要通过关键词进行定位时,ElasticSearch肯定是最佳选择。当然,如果你的文档是JSON的,你也可以把ElasticSearch当作一种“NoSQL数据库”, 应用ElasticSearch数据聚合分析(aggregation)的特性,针对数据进行多维度的分析。

    【知乎:热酷架构师潘飞】ES在某些场景下替代传统DB
    个人以为Elasticsearch作为内部存储来说还是不错的,效率也基本能够满足,在某些方面替代传统DB也是可以的,前提是你的业务不对操作的事性务有特殊要求;而权限管理也不用那么细,因为ES的权限这块还不完善。
    由于我们对ES的应用场景仅仅是在于对某段时间内的数据聚合操作,没有大量的单文档请求(比如通过userid来找到一个用户的文档,类似于NoSQL的应用场景),所以能否替代NoSQL还需要各位自己的测试。
    如果让我选择的话,我会尝试使用ES来替代传统的NoSQL,因为它的横向扩展机制太方便了。

    ES的应用场景是怎样的?
    通常我们面临问题有两个:
    1)新系统开发尝试使用ES作为存储和检索服务器;
    2)现有系统升级需要支持全文检索服务,需要使用ES。
    以上两种架构的使用,以下链接进行详细阐述。
    http://blog.csdn.net/laoyang360/article/details/52227541

    一线公司ES使用场景
    1)新浪ES 如何分析处理32亿条实时日志 http://dockone.io/article/505
    2)阿里ES 构建挖财自己的日志采集和分析体系 http://afoo.me/columns/tec/logging-platform-spec.html
    3)有赞ES 业务日志处理 http://tech.youzan.com/you-zan-tong-ri-zhi-ping-tai-chu-tan/
    4)ES实现站内搜索 http://www.wtoutiao.com/p/13bkqiZ.html

    六. 如何部署ES?

    ES部署(无需安装)
    1)零配置,开箱即用
    2)没有繁琐的安装配置
    3)java版本要求:最低1.7
    [root@laoyang config_lhy]# echo $JAVA_HOME
    /opt/jdk1.8.0_91
    4)下载地址:
    https://download.elastic.co/elasticsearch/release/org/elasticsearch/distribution/zip/elasticsearch/2.3.5/elasticsearch-2.3.5.zip
    5)启动
    cd /usr/local/elasticsearch-2.3.5
    ./bin/elasticsearch
    bin/elasticsearch -d(后台运行)

    ES必要的插件
    必要的Head、kibana、IK(中文分词)、graph等插件的详细安装和使用。
    http://blog.csdn.net/column/details/deep-elasticsearch.html

    ES windows下一键安装
    自写bat脚本实现windows下一键安装。
    1)一键安装ES及必要插件(head、kibana、IK、logstash等)
    2)安装后以服务形式运行ES。
    3)比自己摸索安装节省至少2小时时间,效率非常高。
    脚本说明:
    http://blog.csdn.net/laoyang360/article/details/51900235

    七、ES对外接口(开发人员关注)

    1)JAVA API接口
    http://www.ibm.com/developerworks/library/j-use-elasticsearch-java-apps/index.html

    2)RESTful API接口
    常见的增、删、改、查操作实现:
    http://blog.csdn.net/laoyang360/article/details/51931981

    八、ES遇到问题怎么办?

    1)国外:https://discuss.elastic.co/
    2)国内:http://elasticsearch.cn/

  • 相关阅读:
    正则表达式解析
    Selenium自动化测试系列文章汇总
    Python自动化测试-正则表达式解析
    滴滴滴,ITester软件测试小栈所有资源放送!
    Selenium自动化测试-文件上传
    Selenium自动化测试-浏览器基本操作
    2020牛客暑期多校第四场-H Harder Gcd Problem(贪心构造)
    2020牛客暑期多校第三场F-Fraction Construction Problem-分数构造题(拓展欧几里得)
    洛谷P1919--A*B Problem升级版(NTT优化高精度乘法)
    洛谷P4721-分治FFT(NTT分治)
  • 原文地址:https://www.cnblogs.com/-wenli/p/12625478.html
Copyright © 2011-2022 走看看