zoukankan      html  css  js  c++  java
  • 数据处理系统的不同模式

    批处理

    • 新到达的数据元素被收集到一个组中。整个组在未来的时间进行处理,批量处理一定时间段,一定数量或者一定大小的数据组。
    • 历史上,绝大多数数据处理技术都是为批处理而设计的。传统的数据仓库和Hadoop是专注于批处理的系统的两个常见示例。
    • 数据先保存起来,然后分析(全量数据),批处理有延迟性,响应时间分钟分钟/小时计

    流式处理

    • 在流处理中,每一条新数据都会在到达时进行处理。与批处理不同,在下一批处理间隔之前不会等待,每一条数据将作为单独的碎片进行处理,数据到达时就要立即对其进行响应
    • 有越来越多的系统设计用于流处理,包括Apache Storm和Apache Heron。 这些系统经常部署以支持近乎实时的事件处理。
    • 数据及时处理,处理过后一般不保存,具有实时性,响应时间毫秒计

    交互式处理

    • 在商业智能领域少量更新和大量扫描分析场景,目前是Impala+Kudu/Hive/Spark SQL/Greenplum Mpp数据库在混战。
    • 数据先保存起来,再进行处理,处理时一般查询部分数据,进行简单的统计分析,所以它所存取的是整个数据集的一部分
    • 它的响应时间比批处理快得多,一般是秒级

    Lambda架构

    批处理、流式数据处理、交互式处理等处理模式各有侧重,满足不同应用场合的需求,我们可以把这三种模式整合起来,这就是著名的Lambda架构。

     关于更详细的架构及其他架构介绍内容可以参考这篇:

    常用的大数据架构都有哪几种? - PurStar - 博客园
    https://www.cnblogs.com/purstar/p/14136512.html

    数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!

  • 相关阅读:
    Django模型-admin后台管理数据
    Django入门-登录(写死用户名、密码)
    Django-admin后台验证登录
    全面了解POI操作Microsoft Office(Word、Excel、PowerPoint)
    poi操作word 2007 常用方法总结
    submit text3常用快捷键
    c3p0配置详解
    c3p0参数解释
    log4j.properties 的使用详解
    TortoiseSVN文件夹及文件图标不显示解决方法(兼容Window xp、window7)
  • 原文地址:https://www.cnblogs.com/purstar/p/14165749.html
Copyright © 2011-2022 走看看