zoukankan      html  css  js  c++  java
  • flume

    (1)Apache Fulme 是一个分布式的,可靠、高可用的系统。它用来从许多不同的源收集、聚合、传输大量的日志数据到一个集中的数据仓库。

    (2)ApacheFlume 的使用不仅仅局限在日志数据的收集。

    (3)Flume 是Apache基金会的一个顶级项目。

    (4)两个版本 0.9.x简称og  和1.x 简称ng

    从og到ng经过了重构,并且ng不能兼容og

    (5)Flume支持过滤器。使用正则表达式。

    (6)Flume可以支持多级flume的agent,支持扇入(fan-in)、扇出(fan-out)

    Flume介绍

    Flume是Cloudera提供的日志收集系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 
    Flume是一个分布式、可靠、高可用的海量日志采集、聚合和传输的系统。

    Flume的架构主要有一下几个核心概念:

    • Event:一个数据单元,带有一个可选的消息头
    • Flow:Event从源点到达目的点的迁移的抽象
    • Client:操作位于源点处的Event,将其发送到Flume Agent
    • Agent:一个独立的Flume进程,包含组件Source、Channel、Sink
    • Source:用来消费传递到该组件的Event
    • Channel:中转Event的一个临时存储,保存有Source组件传递过来的Event
      • MemoryChannel 可以实现高速的吞吐,但是无法保证数据的完整性。
      • MemoryRecoverChannel 在官方文档的建议上已经建义使用FileChannel来替换。
      • FileChannel保证数据的完整性与一致性。在具体配置FileChannel时,建议FileChannel设置的目录和程序日志文件保存的目录设成不同的磁盘,以便提高效率。
      • File Channel 是一个持久化的隧道(channel),它持久化所有的事件,并将其存储到磁盘中。因此,即使 Java 虚拟机当掉,或者操作系统崩溃或重启,再或者事件没有在管道中成功地传递到下一个代理(agent),这一切都不会造成数据丢失。Memory Channel 是一个不稳定的隧道,其原因是由于它在内存中存储所有事件。如果 java 进程死掉,任何存储在内存的事件将会丢失。另外,内存的空间收到 RAM大小的限制,而 File Channel 这方面是它的优势,只要磁盘空间足够,它就可以将所有事件数据存储到磁盘上。美团在两者性能缺陷上设计出一个dualchannel 来进行两者使用时的转换。
    • Sink:从Channel中读取并移除Event,将Event传递到Flow Pipeline中的下一个Agent(如果有的话)
    • 将日志采集系统系统分为三层:Agent 层,Collector 层和 Store 层,其中 Agent 层每个机器部署一个进程,负责对单机的日志收集工作;Collector 层部署在中心服务器上,负责接收Agent层发送的日志,并且将日志根据路由规则写到相应的 Store 层中;Store 层负责提供永久或者临时的日志存储服务,或者将日志流导向其它服务器。

    Flume特点

    • Reliability:数据可靠性,包括End-to-end,Store on failure和Best effort
    • Scalability:Flume的3大组件collector、master和storage tier都是可伸缩的
    • Manageability:利用ZooKeeper和gossip,保证配置数据的一致性、高可用,同时多Master
    • Extensibility:基于Java,用户可以为Flume添加各种新的功能。

     

    Flume架构

    其中最重要的抽象是data flow,描述了数据从产生、传输、处理并最终写入目标的一条路径。 
    上图实线是data flow。 
    Agent用于采集数据,agent是flume中产生数据流的地方,同时,agent会将产生的数据流传输到collector。对应的,collector用于对数据进行聚合,往往产生一个更大的流。

     

    其中,收集数据有2种主要工作模式: 
    - Push Sources:外部系统会主动地将数据推送到Flume中,如RPC、syslog 
    - Polling Sources:Flume到外部系统中获取数据,一般使用轮询的方式,如text和exec 
    注意,在Flume中,agent和collector对应,而source和sink对应。 
    Source和sink强调发送、接受方的特性(如数据格式、编码等),而agent和collector关注功能。

    ===================================================================

    在软件设计中,扇入和扇出的概念是指应用程序模块之间的层次调用情况。
    按照结构化设计方法,一个应用程序是由多个功能相对独立的模块所组成。
    扇入:是指直接调用该模块的上级模块的个数。扇入大表示模块的复用程序高。
    扇出:是指该模块直接调用的下级模块的个数。扇出大表示模块的复杂度高,需要控制和协调过多的下级模块;但扇出过小(例如总是1)也不好。扇出过
    大一般是因为缺乏中间层次,应该适当增加中间层次的模块。扇出太小时可以把下级模块进一步分解成若干个子功能模块,或者合并到它的上级模块中去。
    设计良好的软件结构,通常顶层扇出比较大,中间扇出小,底层模块则有大扇入
  • 相关阅读:
    深入浅出讲解 ElasticSearch的安装与使用【建议收藏】
    win10 elasticsearch安装IK中文分词器
    elasticsearch 使用过程中经常遇到的问题
    在给elasticsearch安装head插件时,npm install 版本不匹配
    elasticsearch.bat闪退的解决方案
    图文详解| Node.js安装及环境配置之Windows篇
    面试必备:秒杀场景九个细节
    vagrant 安装中遇到的问题
    2021 年上海市成人高校考试招生工作规定
    成考专科数学模拟试题一及答案
  • 原文地址:https://www.cnblogs.com/Hei-po/p/6912409.html
Copyright © 2011-2022 走看看