大数据学习——采集文件到HDFS

zoukankan html css js c++ java

大数据学习——采集文件到HDFS
采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs

根据需求，首先定义以下3大要素

l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’

l 下沉目标，即sink——HDFS文件系统 : hdfs sink

l Source和sink之间的传递通道——channel，可用file channel 也可以用内存channel

vi exec-hdfs-sink.conf

agent1.sources = source1
agent1.sinks = sink1
agent1.channels = channel1

# Describe/configure tail -F source1
agent1.sources.source1.type = exec
agent1.sources.source1.command = tail -F /root/logs/access_log
agent1.sources.source1.channels = channel1

#configure host for source
agent1.sources.source1.interceptors = i1 i2
agent1.sources.source1.interceptors.i1.type = host
agent1.sources.source1.interceptors.i1.hostHeader = hostname
#agent1.sources.source1.interceptors.i1.useIP=true 表示使用ip地址或者主机名

agent1.sources.source1.interceptors.i1.useIP=false
agent1.sources.source1.interceptors.i2.type = timestamp

# Describe sink1

agent1.sinks.sink1.type = hdfs

#a1.sinks.k1.channel = c1

agent1.sinks.sink1.hdfs.path=hdfs://mini1:9000/file/%{hostname}/%y-%m-%d/%H-%M

agent1.sinks.sink1.hdfs.filePrefix = access_log

agent1.sinks.sink1.hdfs.batchSize= 100

agent1.sinks.sink1.hdfs.fileType = DataStream

agent1.sinks.sink1.hdfs.writeFormat =Text

agent1.sinks.sink1.hdfs.rollSize = 10240

agent1.sinks.sink1.hdfs.rollCount = 1000

模拟数据
mkdir logs
cd logs
while true; do date >>access_log ;sleep 0.5s; done
启动
bin/flume-ng agent -c conf -f conf/exec-hdfs-sink.conf -n agent1 -Dflume.root.logger=INFO,console
查看结果
查看全文

相关阅读:
求转置矩阵问题
 喷水装置
 面试之谈
 迭代任意8种数据类型数组
 Session那点事
 随机验证码
 正则表达式：网页爬虫
 模拟上传服务端
 Properties集合的练习
 用递归算法对指定目录的深度遍历

原文地址：https://www.cnblogs.com/feifeicui/p/10305971.html

最新文章
最大子数组和
 gentoo下grub文件编辑
 大数比较
 笨小熊
 字母小游戏
 a letter and a number
队花的烦恼一
 素数求和问题
 素数
 移位密码

热门文章
一种排序
 A+B Problem II
三角形面积
 A*B Problem II
国王的魔镜
 韩信点兵
 C小加之随机数
 变态最大值
 小明的调查作业
 分数拆分