zoukankan      html  css  js  c++  java
  • 第14篇-Python中的Elasticsearch入门

    我的Elasticsearch系列文章,逐渐更新中,欢迎关注
    0A.关于Elasticsearch及实例应用
    00.Solr与ElasticSearch对比
    01.ElasticSearch能做什么?
    02.Elastic Stack功能介绍
    03.如何安装与设置Elasticsearch API
    04.如果通过elasticsearch的head插件建立索引_CRUD操作
    05.Elasticsearch多个实例和head plugin使用介绍

    06.当Elasticsearch进行文档索引时,它是怎样工作的?

    07.Elasticsearch中的映射方式—简洁版教程

    08.Elasticsearch中的分析和分析器应用方式

    09. Elasticsearch中构建自定义分析器

    10.Kibana科普-作为Elasticsearhc开发工具
    11.Elasticsearch查询方法

    12.Elasticsearch全文查询

    13.Elasticsearch查询-术语级查询

    14.Python中的Elasticsearch入门

    15.使用Django进行ElasticSearch的简单方法

    16.关于Elasticsearch的6件不太明显的事情
    17.使用Python的初学者Elasticsearch教程
    18.用ElasticSearch索引MongoDB,一个简单的自动完成索引项目
    19.Kibana对Elasticsearch的实用介绍
    20.不和谐如何索引数十亿条消息
    21.使用Django进行ElasticSearch的简单方法

    另外Elasticsearch入门,我强烈推荐ElasticSearch新手搭建手册和这篇优秀的REST API设计指南 给你,这两个指南都是非常想尽的入门手册。

    在本文中,我将讨论Elasticsearch以及如何将其与不同的Python应用程序集成。

     

    什么是ElasticSearch?

    ElasticSearch(ES)是基于Apache Lucene构建的分布式且高度可用的开源搜索引擎。这是一个用Java构建的开源,因此可用于许多平台。您以JSON格式存储非结构化数据,这也使其成为NoSQL数据库。因此,与其他NoSQL数据库不同,ES还提供搜索引擎功能和其他相关功能。

     

    ElasticSearch用例

    您可以将ES用于多种用途,下面提供了其中的几个:

    您正在运行的网站提供许多动态内容。无论是电子商务网站还是博客。通过实施ES,您不仅可以为您的Web应用程序提供强大的搜索引擎,还可以在应用程序中提供本机自动完成功能。

    您可以摄取不同种类的日志数据,然后可以用来查找趋势和统计数据。

    设置和运行

    安装ElasticSearch的最简单方法是下载并运行可执行文件。您必须确保使用的是Java 7或更高版本。

    下载后,解压缩并运行其二进制文件。

    elasticsearch-6.2.4 bin / elasticsearch

    滚动窗口中将有很多文本。如果您看到类似下面的内容,则表明情况已解决。

    [2018-05-27T17:36:11,744] [INFO] [oehnNetty4HttpServerTransport] [c6hEGv4] publish_address {127.0.0.1:9200}、bound_addresses {[:: 1]:9200},{127.0.0.1:9200}

    但是,既然眼见为实,http://localhost:9200那就在浏览器中或通过cURL 访问URL ,下面的内容应该会很欢迎您。

    {

    “ name”:“ c6hEGv4”,

    “ cluster_name ”:“ elasticsearch”,“ cluster_uuid”:“

    HkRyTYXvSkGvvvHX2Q1-oQ”,

    “ version”:{

    “ number”:“ 6.2.4”,

    “ build_hash”:“ ccec39f”,

    “ build_date”:“ 2018-04-12T20:37:28.497551Z”,

    “ build_snapshot”:false,

    “ lucene_version”:“ 7.2.1”,

    “ minimum_wire_compatibility_version”:“ 5.6.0”,

    “ minimum_index_compatibility_version”:“ 5.0。 0“

    },

    ”标语“:”您知道,要搜索“

    }

     

    现在,在我继续使用Python访问Elastic Search之前,让我们做一些基本的事情。正如我提到的,ES提供了REST API,我们将使用它来执行不同的任务。

    基本范例

    您要做的第一件事就是创建一个 指数。一切都存储在索引中。RDBMS相当于指数 是一个 数据库 因此,请勿将其与您在RDBMS中学习的典型索引概念混淆。我正在使用PostMan运行REST API。

     

    如果运行成功,您将在下面看到类似的响应。

     

    {

    “ acknowledged”:true,

    “ shards_acknowledged”:true,

    “ index”:“ company”

    }

     

    因此,我们创建了一个名为company的数据库。换句话说,我们创建了一个名为company的索引。如果您通过浏览器进行访问,则会看到类似以下内容:

     

    http://localhost:9200/company

    {

    “ company”:{

    “ aliases”:{

     

    },

    “ mappings”:{

     

    },

    “ settings”:{

    “ index”:{

    “ creation_date”:“ 1527638692850”,

    “ number_of_shards”:“ 5”,

    “ number_of_replicas”: “ 1”,

    “ uuid”:“ RnT-gXISSxKchyowgjZOkQ”,

    “ version”:{

    “ created”:“ 6020499”

    },

    “ provided_name”:“ company”

    }

    }

    }

    }

     

    稍等片刻mappings,我们稍后再讨论。实际上只不过是创建文档的架构而已。creation_date是不言自明的。的number_of_shards讲述,将让这个数据分区的数量指标。将全部数据保存在单个磁盘上根本没有任何意义。如果您正在运行包含多个Elastic节点的集群,则整个数据将在它们之间拆分。简而言之,如果有5个分片,则整个数据可在5个分片上使用,并且ElasticSearch集群可以处理来自其任何节点的请求。

    副本谈论数据的镜像。如果您熟悉主从概念,那么这对您来说应该不是新知识。您可以在此处了解有关基本ES概念的更多信息。

    创建索引的cURL版本是单行的。

    ➜elasticsearch-6.2.4 curl -X PUT本地主机:9200 / company

    {“ acknowledged”:true,“ shards_acknowledged”:true,“ index”:“ company”}%

    您还可以一次执行索引创建和记录插入任务。您要做的就是以JSON格式传递记录。在PostMan中,您可以像下面这样。

     

    确保设置Content-Type为application/json

    company如果它不存在,它将在此处创建一个名为的索引,然后在此处创建一个名为employee的新类型。类型实际上是RDBMS 中表的ES版本。

    上面的请求将输出以下JSON结构。

     

    {

    “ _index”:“公司”,

    “ _ type ”:“员工”,

    _ id”:“ 1”,“ _ version”:1,

    “结果”:“已创建”,

    “ _ shards”:{

    “总计”:2,

    “成功”:1,

    “失败”:0

    },

    “ _ seq_no”:0,

    “ _ primary_term”:1

    }

     

    您通过/1作为记录的ID。虽然没有必要。要做的就是_id用value 设置field 1。然后,您以JSON格式传递数据,该数据最终将作为新记录或文档插入。如果您http://localhost:9200/company/employees/1从浏览器访问,您将看到以下内容。

     

    {“ _index”:“公司”,“ _ type”:“员工”,“ _ id”:“ 1”,“ _ version”:1,“ found”:true,“ _ source”:{

    “ name”:“ Adnan Siddiqi” ,

    “职业”:“顾问”

    }

     

    您可以看到实际记录以及元数据。如果您愿意,可以将请求更改为http://localhost:9200/company/employees/1/_source,它将仅输出记录的JSON结构。

    cURL版本为:

     

    {

    "name" : "c6hEGv4",

    "cluster_name" : "elasticsearch",

    "cluster_uuid" : "HkRyTYXvSkGvkvHX2Q1-oQ",

    "version" : {

    "number" : "6.2.4",

    "build_hash" : "ccec39f",

    "build_date" : "2018-04-12T20:37:28.497551Z",

    "build_snapshot" : false,

    "lucene_version" : "7.2.1",

    "minimum_wire_compatibility_version" : "5.6.0",

    "minimum_index_compatibility_version" : "5.0.0"

    },

    "tagline" : "You Know, for Search"

    }

     

    如果您想更新该记录怎么办?好吧,这很简单。您要做的就是更改JSON记录。如下所示:

     

    它将生成以下输出:

     

    {

    "company": {

    "aliases": {

     

    },

    "mappings": {

     

    },

    "settings": {

    "index": {

    "creation_date": "1527638692850",

    "number_of_shards": "5",

    "number_of_replicas": "1",

    "uuid": "RnT-gXISSxKchyowgjZOkQ",

    "version": {

    "created": "6020499"

    },

    "provided_name": "company"

    }

    }

    }

    }

     

    请注意,该_result字段现在设置为updated而不是created

    当然,您也可以删除某些记录。

     

    而且,如果您快要疯了或者您的女朋友已经抛弃了您,则可以通过curl -XDELETE localhost:9200/_all从命令行运行来烧毁整个世界。

    让我们做一些基本的搜索。如果运行http://localhost:9200/company/employees/_search?q=adnan,它将搜索类型下的所有字段employees并返回相关记录。

     

    {

    "_index": "company",

    "_type": "employees",

    "_id": "1",

    "_version": 1,

    "result": "created",

    "_shards": {

    "total": 2,

    "successful": 1,

    "failed": 0

    },

    "_seq_no": 0,

    "_primary_term": 1

    }

     

    该max_score字段指示记录的相关性,即记录的最高分数。如果有多个记录,那么它将是另一个数字。

     

    您还可以通过传递字段名称来将搜索条件限制为某个字段。因此,http://localhost:9200/company/employees/_search?q=name:Adnan将仅在name文档的字段中搜索。它实际上等效于SQLSELECT * from table where name='Adnan'

    我只介绍了基本示例。ES可以做很多事情,但是我将通过阅读文档让您进一步探索它,然后切换到使用Python访问ES。

     

    在Python中访问ElasticSearch

    老实说,ES的REST API足够好,您可以使用requests库来执行所有任务。不过,您可以将Python库用于ElasticSearch,以专注于主要任务,而不必担心如何创建请求。

    通过pip安装它,然后可以在Python程序中访问它。

    pip install elasticsearch

    为确保已正确安装,请从命令行运行以下基本代码段:

     

    ➜elasticsearch-6.2.4 python

    Python 3.6.4 | Anaconda自定义(64位)| (默认值,2018年1月16日,12:04:33)

    在darwin上使用[GCC 4.2.1兼容的Clang 4.0.1(标签/ RELEASE_401 / final)]输入以下内容的

    “帮助”,“版权”,“信用”或“许可证”更多信息。

     

    ➜ elasticsearch-6.2.4 python

    Python 3.6.4 |Anaconda custom (64-bit)| (default, Jan 16 2018, 12:04:33)

    [GCC 4.2.1 Compatible Clang 4.0.1 (tags/RELEASE_401/final)] on darwin

    Type "help", "copyright", "credits" or "license" for more information.

    >>> from elasticsearch import Elasticsearch

    >>> es = Elasticsearch([{'host': 'localhost', 'port': 9200}])

    >>> es

    <Elasticsearch([{'host': 'localhost', 'port': 9200}])>

     

    网页搜索和Elasticsearch

    让我们讨论一下使用Elasticsearch的一些实际用例。目的是访问在线食谱并将其存储在Elasticsearch中以用于搜索和分析目的。我们将首先从Allrecipes抓取数据并将其存储在ES中。如果是ES,我们还将创建一个严格的Schema或映射,以便确保以正确的格式和类型对数据进行索引。我只是拉沙拉食谱的清单而已。让我们开始!

    抓取数据

     

    结论

    Elasticsearch是一个功能强大的工具,通过提供强大的功能以返回最准确的结果集,可以帮助您搜索现有或新应用。我刚刚介绍了要点。阅读文档并熟悉这个强大的工具。特别是模糊搜索功能非常出色。如果有机会,我将在以后的文章中介绍Query DSL。

  • 相关阅读:
    jq获取地址中的参数的值
    移动设备分辨率
    随机生成颜色
    小程序轮播图
    JavaScript中的constructor、instanceof、isPrototypeOf、typeof以及hasOwnProperty
    call()和apply()函数
    行内元素和块级元素
    js跳出循环的方法区别(break,continue,return)
    js 的四种设计模式的优缺点
    常见浏览器兼容性问题与解决方案
  • 原文地址:https://www.cnblogs.com/Elasticsearchalgolia/p/13138481.html
Copyright © 2011-2022 走看看