zoukankan      html  css  js  c++  java
  • 项目实战从0到1之Spark(5)Spark整合Elasticsearch-从ES读取数据

    由于ES集群在拉取数据时可以提供过滤功能,因此在采用ES集群作为spark运算时的数据来源时,
    根据过滤条件在拉取的源头就可以过滤了(ES提供过滤),就不必像从hdfs那样必须全部加载进spark的内存根据filter算子过滤,费时费力。

    代码:

    import org.apache.spark.{SparkConf, SparkContext}
    import org.elasticsearch.spark._
    object Spark2Elasticsearch {
    def main(args: Array[String]): Unit = {
    val conf =new SparkConf().setAppName("Spark2ES").setMaster("local[2]")
    conf.set("es.nodes","hadoop1,hadoop2,hadoop3")
    conf.set("es.port","9200")
    conf.set("es.index.auto.create","true")
    val sc =new SparkContext(conf)
    val query:String =s"""{
    "query" : {
    "match_all" : {}
    },
    "filter" : {
    "term" : {
    "price" : 50.55
    }
    }
    }"""
    val rdd = sc.esRDD("store", query)
    println(rdd.collect().toBuffer)
    }
    }

    clipboard.png

    运行结果:

    clipboard.png

    采坑点:
    那个sc.esRDD方法其实是ES提供的jar包里的一个隐试转换,在import org.elasticsearch.spark._这个包下,
    配置mavin依赖时注意spark的配套版本,本文1.6的spark依赖如下:

    clipboard.png

    作者:大码王

    -------------------------------------------

    个性签名:独学而无友,则孤陋而寡闻。做一个灵魂有趣的人!

    如果觉得这篇文章对你有小小的帮助的话,记得在右下角点个“推荐”哦,博主在此感谢!

    万水千山总是情,打赏一分行不行,所以如果你心情还比较高兴,也是可以扫码打赏博主,哈哈哈(っ•?ω•?)っ???!

  • 相关阅读:
    Visual Studio 2010CTP的安装
    Crystal Reports中的数据访问
    Web.config配置文件详解1
    asp.net 面向对象方式的传值
    DataSet导出到Excel
    asp.net 身份验证
    Ini文件操作类
    asp.net环境下配置kindEditor文本编辑器
    验证视图状态 MAC 失败解决方法
    Web.config配置文件详解2
  • 原文地址:https://www.cnblogs.com/huanghanyu/p/13633939.html
Copyright © 2011-2022 走看看