Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters

zoukankan html css js c++ java

Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters
阅读笔记

概述：
- 本文同样发表于2012年。提出了一种称为离散化数据流(Discretized Streams,D-Streams)的编程模型。
- 该模型提供了一种高级函数式API，具有高度的一致性和强大的容错能力。
- 基于Spark分布式计算框架，进行扩展实现了一个D-Stream的原型，称为Spark Streaming。
研究背景：
- 许多大数据应用要求实现实时响应。
- 当前多数分布式流处理系统，都采用"record-at-a-time"的方式，即接收一条记录->更新内部状态->返回新的记录。
- 这种方案在面临以下几方面的挑战：
主要工作：
- 提出了新的编程模型，离散化数据流(Discretized Streams, D-Streams)。
- 核心思想是将流式计算看做一系列很短时间间隔内的确定的批量计算的累积。
- 该模型的优点如下：
- 为了保证时间划分的粒度足够细，响应足够快，需要中间数据缓存在内存中。
- 为了保证容错恢复的高效，数据在内存中以RDD的形式存放。
- 在Spark系统的支持下，时间划分的粒度可以达到秒级别，这对于许多实际的大数据应用来说是足够的。
- 基于Spark分布式计算框架扩展得到了Spark Streaming，是D-Stream的原型实现。
关于D-Stream：
- 每个时间段内接收到的数据存储在集群上，构成了该时间段的输入数据集。
- 时间段结束时，数据集通过确定性的并行操作处理，如map，reduce，groupBy等，得到新的数据集或计算结果。
- D-Stream提供两种运算供用户构建流式计算程序。
- 另外，D-Stream还提供了一些跨越时间区间的算子：
注意: D-Stream的容错机制基于RDD通过构造lineage图实现，在最初提出Spark的论文中有详细介绍，这里不再赘述。

实例：页面访问时间计数

实现：

pageViews = readStream("http://...", "1s")

ones = pageViews.map(event => (event.url, 1))

counts = ones.runningReduce((a, b) => a + b)

说明：
- 首先通过HTTP协议读取事件流，生成数据集pageView。
- 然后通过map操作将数据转换为键值对，生成ones，键为事件的url。
- 最后通过runningReduce操作进行计数。
关于Spark Streaming：
- 基于Spark运行时实现
- 能够从网络上或定期从HDFS中读取数据流
- 使用亚马逊EC2节点部署集群进行了简单的评测，每个节点4核15GB RAM。
知识补充

批量计算 vs. 流式计算：
- 大数据计算模式可分为批量计算和流式计算。
- 流式计算和批量计算分别适用于不同的大数据应用场景。
查看全文

相关阅读:
Fiddler给手机设置代理并抓取https链接
 速盘下载
 多版本firefox共存
 firefox45版本与seleniumIDE
Linux基础快捷键
 解决虚拟机centOs不能上网问题
 HDU 4893 Wow! Such Sequence!(线段树)
UVALive 7045 Last Defence
POJ 3544 Journey with Pigs
POJ 2499 Binary Tree

原文地址：https://www.cnblogs.com/LionHeart-Grady/p/thesis-03.html

Discretized Streams: An Efficient and Fault-Tolerant Model for Stream Processing on Large Clusters

阅读笔记

知识补充