zoukankan      html  css  js  c++  java
  • 日志采集框架 Flume

    日志采集框架 Flume

    1 概述

       Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

      Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中。

      一般的采集需求,通过对flume的简单配置即可实现。

      Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景。

    2 运行机制及组件

      Flume分布式系统中最核心的角色是agent,flume采集系统就是由一个个agent所连接起来形成。

      每一个angent相当于一个数据传递员,内部有三个组件:

      a) Source:采集源,用于对接数据源,以获取数据。

      b) Sink:下沉地,采集数据的传送目的地,用于往下一级agent传递数据或者往最终存储系统传递数据。

      c) Channel:angent内部的数据传输通道,用于将数据从Source传递到Sink。

      Source到channel到Sink之间传递数据的形式是Event事件;Event事件是一个数据流单元。

    3 Flume采集系统结构图

      a)简单结构-单个angent采集数据

        

      b)复杂结构-多级angent之间串联

        

    4 Flume的安装部署

      4.1 flume安装

        a)前提是已有hadoop环境,上传安装包到数据源所在的节点,下载地址:http://archive.apache.org/dist/flume/1.6.0/;

        b)然后进入flume的目录,修改conf下的flume-env.sh,在里面配置JAVA_HOME

        c)根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)

        d)指定采集方案配置文件,在相应的节点上启动flume angent

      4.2 采集方案配置示例

        4.2.1 采集目录到hdfs

          需求:某服务器的特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到hdfs中去。

          根据需求首先定义3大要素:

          a)采集源,即Source--监控文件目录:spooldir

          b)下沉目标,即Sink--hdfs文件系统:hdfs sink

          c) source 和 sink之间的传递通道--channel,可用file channel 也可用内存channel 

        配置文件编写:

    spooldir-hdfs.conf

    #定义三大组件的名称
    agent1.sources = source1
    agent1.sinks = sink1
    agent1.channels = channel1
    
    # 配置source组件
    agent1.sources.source1.type = spooldir
    agent1.sources.source1.spoolDir = /home/hadoop/logs/
    agent1.sources.source1.fileHeader = false
    
    #配置拦截器
    agent1.sources.source1.interceptors = i1
    agent1.sources.source1.interceptors.i1.type = host
    agent1.sources.source1.interceptors.i1.hostHeader = hostname
    
    # 配置sink组件
    agent1.sinks.sink1.type = hdfs
    agent1.sinks.sink1.hdfs.path =hdfs://hdp-node-01:9000/weblog/flume-collection/%y-%m-%d/%H-%M
    agent1.sinks.sink1.hdfs.filePrefix = access_log
    agent1.sinks.sink1.hdfs.maxOpenFiles = 5000
    agent1.sinks.sink1.hdfs.batchSize= 100
    agent1.sinks.sink1.hdfs.fileType = DataStream
    agent1.sinks.sink1.hdfs.writeFormat =Text
    agent1.sinks.sink1.hdfs.rollSize = 102400
    agent1.sinks.sink1.hdfs.rollCount = 1000000
    agent1.sinks.sink1.hdfs.rollInterval = 60
    #agent1.sinks.sink1.hdfs.round = true
    #agent1.sinks.sink1.hdfs.roundValue = 10
    #agent1.sinks.sink1.hdfs.roundUnit = minute
    agent1.sinks.sink1.hdfs.useLocalTimeStamp = true
    # Use a channel which buffers events in memory
    agent1.channels.channel1.type = memory
    agent1.channels.channel1.keep-alive = 120
    agent1.channels.channel1.capacity = 500000
    agent1.channels.channel1.transactionCapacity = 600
    
    # Bind the source and sink to the channel
    agent1.sources.source1.channels = channel1
    agent1.sinks.sink1.channel = channel1

        Channel参数解释:

          capacity:默认该通道中最大的可以存储的event数量

          trasactionCapacity:每次最大可以从source中拿到或者送到sink中的event数量

          keep-alive:event添加到通道中或者移出的允许时间

    Flume支持众多的source和sink类型,详细手册可参考官方文档

    http://flume.apache.org/FlumeUserGuide.html

    启动

    bin/flume-ng agent -c conf -f conf/spooldir-hdfs.conf -n agent1

          

        

      

      

      

      

      

  • 相关阅读:
    snmp扫描
    操作系统扫描
    服务扫描
    端口扫描,僵尸机扫描
    主动信息收集:四层发现
    主动信息收集:三层发现
    主动信息收集:二层发现
    RECON-NG
    metadata信息的采集
    cupp字典生成器使用
  • 原文地址:https://www.cnblogs.com/zhaobingqing/p/8057507.html
Copyright © 2011-2022 走看看