zoukankan      html  css  js  c++  java
  • 假期学习11

      今天开始做实验六,Spark Streaming 编程初级实践。

      对于Spark Streaming,Hadoop的MapReduce及Spark SQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时网站性能分析等,流式计算可以解决这些问题,spark Streaming就是现在常用的流式计算框架。spark Streaming原生地支持多种数据源的接入,可以与Spark MLLib、Graphx结合起来使用,具有高吞吐量,容错机制,数据可以从Kafka、flume、Twitter、zeroMQ、K inesis或者TCP的端口,同时能够被类似于使用map、reduce、join和window这种高级函数的算法所处理,最终,被处理过的数据能够被推送到磁盘、数据库。

      以上就是Spark Streaming的解释。在实验里是需要安装测试Flume的,因为Flume 是 Cloudera 提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。之前安装过很多软件,照猫画虎,这个没出现什么问题。
  • 相关阅读:
    2-分类
    1-确定变量间是否有关系—显著性检验
    git简单操作
    Hadoop HA和Hbase HA
    Docker入门操作
    内存数据库专题(MemCached 和Redis)
    Spark MLlib和Sprk GraphX
    Spark 调优
    Spark Streaming基础
    Spark SQL
  • 原文地址:https://www.cnblogs.com/Excusezuo/p/12315231.html
Copyright © 2011-2022 走看看