zoukankan      html  css  js  c++  java
  • 大数据架构之:Flume

    1、 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

    2、一个独立的Flume进程称之为Agent,包含组件Source、Channel、Sink Source

    Flume基础架构:Flume 可以单节点直接采集数据。  

    Flume 的内部实现  

    Event:Event是Flume数据传输的基本单元。Flume以Event的形式将数据从源头传送到最终目的。

    Source:Source负责接收events或通过特殊机制产生events,并将events批量的放到一个或多个Channels。Flume支持文件、消息流等数据源,并在Source部件中将接收到的数据转换为一个Event。例如Flume支持监听文件目录(spooling directory source),当监听的目录下新到一个文件,Flume就会将其作为数据源通过Source转换为Event实时的传输走。

    Channel:Channel位于Source和Sink之间,用于缓存进来的events,当Sink成功地将events发送到下一跳的channel或最终目的,events从Channel移除。目前Flume支持3种channel memory channel:消息放在内存中,提供高吞吐,但不提供可靠性;可能丢失数据; file channel:对数据持久化;但是配置较为麻烦,需要配置数据目录和checkpoint目录;不同的file channel均需要配置一个checkpoint 目录; jdbc channel:内置的derby数据库,对event进行了持久化,提供高可靠性;未来取代同样具有持久特性的file channel

    Sink:Sink负责将events传输到下一跳或最终目的。Sink支持将数据写入到离线存储如HDFS、消息系统如Kafka等。

    Interceptor:用于Source的一组拦截器,按照预设的顺序在必要地方对events进行过滤和自定义的处理逻辑实现。

    Channel Selector允许Source基于预设的规则,从所有Channel中,选择一个或多个Channel。例如根据话单中的漫游字段,可以将原始话单放到不同的Channel,这样Sink就可以将数据送到不同的目标系统中。

    Channel Selector支持两种选择器: 复制Replicating: 一个event被复制到多个channel; 复用Multiplexing: event被路由到特定的channel,即非复制模式。

  • 相关阅读:
    C# WebSocket 实现客户端和服务端的通信(二)
    C# WebSocket 实现客户端和服务端的通信(一)
    regsvr32 将dll写入注册表
    Dictionary 添加重复的键值对
    C# Math.Round()的银行家算法
    DataGridView 合并数据相同的行
    获取系统当前日期,分布获取年月日和时分秒
    [Err] ORA-00923: 未找到要求的 FROM 关键字
    正则表达式常用的字符类
    Spring注解作用
  • 原文地址:https://www.cnblogs.com/tychyg/p/4950814.html
Copyright © 2011-2022 走看看