Flume 学习（一）初识

zoukankan html css js c++ java

Flume 学习（一）初识
一，前言

原文地址：https://www.cnblogs.com/zhangyinhua/p/7803486.html

　　

　　上图是Hadoop的生态的架构图，从上图可以看出Flume是用来日志采集的。下图是hadoop的其中一种业务流程图：

　　

　　我们知道hadoop是用来处理海量数据业务的，所以说数据采集是非常重要的，而Flume就是用来收集日志数据的。

　　其实对于大数据处理，日志处理是非常重要的一环，大多数公司每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询，访问日志等等），当然我们自己可以写一些服务来处理这些日志，而Hadoop为我们准备了一个很好打理日志处理系统，日志处理系统一般由以下优点：

　　1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；

　　2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；

　　3）具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。

二，Flume简介

　　2.1 Flume是什么

　　Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume 0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flume-og有很大不同，使用时请注意区分。

　　2.2 Flume的特点

　　1. Flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中

　　2. 使用Flume，我们可以将从多个服务器中获取的数据迅速的移交给Hadoop中

　　3. 除了日志信息，Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据，比如facebook,twitter,电商网站如亚马逊，flipkart等

　　4. 支持各种接入资源数据的类型以及接出数据类型

　　5. 支持多路径流量，多管道接入流量，多管道接出流量，上下文路由等

　　6. 可以被水平扩展

　　2.3 Flume的优势　

　　1. Flume可以将应用产生的数据存储到任何集中存储器中，比如HDFS,HBase

　　2. 当收集数据的速度超过将写入数据的时候，也就是当收集信息遇到峰值时，这时候收集的信息非常大，甚至超过了系统的写入数据能力，这时候，Flume会在数据生产者和数据收容器间做出调整，保证其能够在两者之间提供平稳的数据.

　　3. 提供上下文路由特征

　　4. Flume的管道是基于事务，保证了数据在传送和接收时的一致性.

　　5. Flume是可靠的，容错性高的，可升级的，易管理的,并且可定制的。

三，Flume核心概念

　　要学习Flume，就必须了解Flume的机构核心的概念。分别是Agent，Source，Channel，Sink。

　　3.1 Agent结构

　　　Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具，含有三个核心组件，分别是source、 channel、 sink。通过这些组件， Event 可以从一个地方流向另一个地方，如下图所示。

　　

　　3.2 Source　　　

　　　Source是数据的收集端，负责将数据捕获后进行特殊的格式化，将数据封装到事件（event）里，然后将事件推入Channel中。 Flume提供了很多内置的Source，支持 Avro， log4j， syslog 和 http post(body为json格式)。可以让应用程序同已有的Source直接打交道，如AvroSource，SyslogTcpSource。如果内置的Source无法满足需要， Flume还支持自定义Source。如下图：

　　　

　　3.3 Channel　　　

　　　Channel是连接Source和Sink的组件，大家可以将它看做一个数据的缓冲区（数据队列），它可以将事件暂存到内存中也可以持久化到本地磁盘上，直到Sink处理完该事件。介绍两个较为常用的Channel， MemoryChannel和FileChannel。

　　　

　　3.4 Sink　　　

　　　Sink从Channel中取出事件，然后将数据发到别处，可以向文件系统、数据库、 hadoop存数据，也可以是其他agent的Source。在日志数据较少时，可以将数据存储在文件系统中，并且设定一定的时间间隔保存数据。

　　　如下图示例：

　　　

　　3.5 Flume拦截器

　　　当我们需要对数据进行过滤时，除了我们在Source、 Channel和Sink进行代码修改之外， Flume为我们提供了拦截器，拦截器也是chain形式的。拦截器的位置在Source和Channel之间，当我们为Source指定拦截器后，我们在拦截器中会得到event，根据需求我们可以对event进行保留还是抛弃，抛弃的数据不会进入Channel中。

　　　如下图所示：

　　

　　3.6 Flume数据流

　　　1）Flume 的核心是把数据从数据源收集过来，再送到目的地。为了保证输送一定成功，在送到目的地之前，会先缓存数据，待数据真正到达目的地后，删除自己缓存的数据。

　　　2） Flume 传输的数据的基本单位是 Event，如果是文本文件，通常是一行记录，这也是事务的基本单位。 Event 从 Source，流向 Channel，再到 Sink，本身为一个 byte 数组，并可携带 headers 信息。 Event 代表着一个数据流的最小完整单元，从外部数据源来，向外部的目的地去。

　　　如下图所示：

　　

　　

　　　值得注意的是，Flume提供了大量内置的Source、Channel和Sink类型。不同类型的Source,Channel和Sink可以自由组合。组合方式基于用户设置的配置文件，非常灵活。比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase，甚至是另外一个Source等等。Flume支持用户建立多级流，也就是说，多个agent可以协同工作，并且支持Fan-in、Fan-out、Contextual Routing、Backup Routes，这也正是Flume强大之处。如下图所示：

　　

　　3.7 Flume可靠性

　　　Flume 使用事务性的方式保证传送Event整个过程的可靠性。 Sink 必须在Event 被存入 Channel 后，或者，已经被传达到下一站agent里，又或者，已经被存入外部数据目的地之后，才能把 Event 从 Channel 中 remove 掉。这样数据流里的 event 无论是在一个 agent 里还是多个 agent 之间流转，都能保证可靠，因为以上的事务保证了 event 会被成功存储起来。比如 Flume支持在本地保存一份文件 channel 作为备份，而memory channel 将event存在内存 queue 里，速度快，但丢失的话无法恢复。

四，Flume的部署类型

　　 Flume在英文中的意思是水道，但Flume更像可以随意组装的消防水管，下面根据官方文档，展示几种Flow。

　　4.1、多个agent顺序连接　　　

　　　可以将多个Agent顺序连接起来，将最初的数据源经过收集，存储到最终的存储系统中。这是最简单的情况，一般情况下，应该控制这种顺序连接的Agent 的数量，因为数据流经的路径变长了，如果不考虑failover的话，出现故障将影响整个Flow上的Agent收集服务。如下图所示：

　　　

　　4.2、多个Agent的数据汇聚到同一个Agent 　　　

　　　这种情况应用的场景比较多，比如要收集Web网站的用户行为日志， Web网站为了可用性使用的负载集群模式，每个节点都产生用户行为日志，可以为每个节点都配置一个Agent来单独收集日志数据，然后多个Agent将数据最终汇聚到一个用来存储数据存储系统，如HDFS上。如下图所示：

　　　

　　4.3、多级流　　　

　　　Flume还支持多级流，什么多级流？结合在云开发中的应用来举个例子，当syslog， java， nginx、 tomcat等混合在一起的日志流开始流入一个agent后，可以agent中将混杂的日志流分开，然后给每种日志建立一个自己的传输通道。如下图所示：

　　　

　　4.4、load balance功能

　　　agent一个路由节点，负责将Channel暂存的Event均衡到对应的多个Sink组件上，而每个Sink组件分别连接到一个独立的Agent上。

　　　

五，Flume的安装

　　5.1 文件下载

　　　flume下载：点击下载

　　5.2 解压安装
tar -zxvf apache-flume-1.9.0-bin.tar.gz
查看全文

相关阅读:
python3的pygame的五子棋布局设置和代码详细分析
 RAID原理分析
 Python攻城狮教你用Pythin开机和关机,关机只需一条执行命令
 Python 之 MySql 每日一练 329——查询名字中含有风字的学生信息
 Python 之 MySql 每日一练 232——查询每门课程的平均成绩
 网络虚拟化基础协议·Geneve
openstack octavia的实现与分析（一）openstack负载均衡的现状与发展以及lvs，Nginx，Haproxy三种负载均衡机制的基本架构和对比
 Linux下多网卡绑定bond及模式介绍
 Python调试器-pdb的使用
 ubuntu server安装的一些坑

原文地址：https://www.cnblogs.com/tashanzhishi/p/10876060.html

Flume 学习（一） 初识

一，前言

二，Flume简介

2.1 Flume是什么

2.2 Flume的特点

2.3 Flume的优势

三，Flume核心概念

3.1 Agent结构

3.2 Source

3.3 Channel

3.4 Sink

3.5 Flume拦截器

3.6 Flume数据流

3.7 Flume可靠性

四，Flume的部署类型

4.1、多个agent顺序连接

4.2、多个Agent的数据汇聚到同一个Agent

4.3、多级流

4.4、load balance功能

五，Flume的安装

5.1 文件下载

5.2 解压安装

Flume 学习（一）初识

　　2.1 Flume是什么

　　2.2 Flume的特点

　　2.3 Flume的优势　

　　3.1 Agent结构

　　3.2 Source　　　

　　3.3 Channel　　　

　　3.4 Sink　　　

　　3.5 Flume拦截器

　　3.6 Flume数据流

　　3.7 Flume可靠性

　　4.1、多个agent顺序连接　　　

　　4.2、多个Agent的数据汇聚到同一个Agent 　　　

　　4.3、多级流　　　

　　4.4、load balance功能

　　5.1 文件下载

　　5.2 解压安装