• Storm是什么


    Why use Storm?

    Apache Storm是一个免费的开源的分布式实时计算系统。Storm使得可靠的实时处理无边界的数据量变得很容易,就如同Hadoop做批处理那样。Storm很简单,可以用任意的编程语言。

    Storm有许多使用案例:实时分析、在线机器学习、持续的计算、分布式RPC、ETL等等。Storm很快速:每个节点每秒钟可以处理一百万个元组。它是可伸缩的、容错的,保证你的数据将会被处理,并且很容易操作。

    Storm集成了队列和数据库技术。一个Storm拓扑结构以任意复杂的方式消费并处理数据流,在计算的每一个阶段会重新分区数据流。

    Concepts

    Topologies

    一个实时应用程序的逻辑被打包成一个Storm topology。Storm topology和MapReduce的Job很类似。一个最关键的不同在于,一个MapReduce的Job最终会结束,而一个topology是永远运行的(除非你手动杀死它)。一个topology是一个由spouts和bolts以及将它们连接起来的stream grouping构成的图。

    Streams

    Stream是Storm中的核心抽象。一个Stream是一个无边界的元组序列。Stream是由元组中的命名字段被定义的。默认情况下,元组可以包含integers, longs, shorts, bytes, strings, doubles, floats, booleans, and byte arrays。你也可以定义自己的序列化方式。

    每一个Stream在被声明的时候都会给定一个id。

    Spouts

    在一个topology中,spouts是流的来源。一般而言,spout从外部的源中读取元组,并将其发送到topology中。Spout可以是可靠的,也可以是不可靠的。一个可靠的spout是如果在Storm中处理失败的话它会重新放一个元组,而不可靠的spout在它发送这个元组以后就忘记它了。

    Spouts可以发送到一个或者多个Stream。为了这样做,在声明多个stream的时候OutputFieldsDeclarer的declareStream方法。

    Spout中的主要方法是nextTuple。nextTuple发送一个新的元组到topology中或者没有新的元组的时候简单的返回。另一个重要的方法是ack和fail。

    Bolts

    Topologies中的所有处理都是由Bolts来做的。Bolts可以做许多事情,比如:过滤、聚集、连接数据等等。

    Bolts可以做简单的流转换,复杂的流转换通常需要多步,因此也需要多个bolts。

    当你声明了一个bolt的输入流的时候,你总是会订阅来自其它组件的特别的流。如果你想订阅所有组件的流,那么你必须一个一个的订阅。

    bolt的主要方法是execute

    Stream groupings

    一个stream grouping是定义流应该怎样被分区到bolt的task中去。

    1. Shuffle grouping:元组被随机分配到task中去,因此每个bolt可以保证获得相等数量的元组
    2. Fields grouping:按特定的字段分区。例如,"user-id"相同的元组总是被分到相同的task中去
    3. Partial Key grouping:跟Fields grouping类似,只不过会考虑下游的bolts的负载均衡
    4. All grouping:流会被复制,并且分发给所有的bolt
    5. Global grouping:整个流只进入到一个bolt的task。特别的,将进入到id最小的那个task
    6. None grouping:你不关心怎么分组。等价于Shuffle grouping
    7. Direct grouping:元组的生产者决定哪些消费者任务可以收到这个元组
    8. Local or shuffle grouping:如果目标bolts在相同的worker中有一个或者多个task,元组将会被随机分配到这些任务中

    Reliability

    Storm保证每个spout元组被完全处理。这是通过跟踪由每个元组触发的元组树实现的

    Tasks

    每一个spout和bolt都执行很多tasks,每一个task对应执行的一个线程,stream grouping定义元组怎么从一个task到另一个task。

    Workers

    Topologies执行一个或多个worker进程。每个worker进程是一个物理的JVM。

    参考 http://storm.apache.org/index.html

  • 相关阅读:
    Nginx-limit_req限速配置示例
    Linux-配置虚拟IP实例
    jQuery中获取a标签的值
    js时间格式化
    a标签与js的冲突
    spring MVC页面的重定向
    EL表达式遍历集合获取下标
    商城项目之实战-购物车模块
    js中得计算问题算式结果拼接成字符串怎么解决
    js中数值类型相加变成拼接字符串的问题
  • 原文地址:https://www.cnblogs.com/cjsblog/p/8385869.html
走看看 - 开发者的网上家园