zoukankan html css js c++ java

05 友盟项目--通过flume-kafka消息到hdfs

收集kafka消息到hdfs

开hdfs

start-dfs.sh

1.说明

每天上报的日志可能会含有以前的日志数据。但是每天上报的日志在一个以日期分割的目录内。

ym/day

2.umeng_kafka_to_hdfs.conf

a1.sources = r1
a1.channels = c1
a1.sinks = k1
 
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.batchSize = 5000
a1.sources.r1.batchDurationMillis = 2000
a1.sources.r1.kafka.bootstrap.servers = s102:9092
a1.sources.r1.kafka.topics = big12-umeng-raw-logs
a1.sources.r1.kafka.consumer.group.id = g10
 
a1.channels.c1.type=memory
 
a1.sinks.k1.type = hdfs
#hdfs文件存储路径 ，以年月日为目录存储
a1.sinks.k1.hdfs.path = /user/centos/umeng_big12/raw-logs/%Y%m/%d
#文件前缀
a1.sinks.k1.hdfs.filePrefix = events-
# 对目录进行滚动
a1.sinks.k1.hdfs.round = true
# 滚动时间单位 1 天
a1.sinks.k1.hdfs.roundValue = 1
a1.sinks.k1.hdfs.roundUnit = day
# 文件滚动 时间：30s    大小：10240k   行数：500
a1.sinks.k1.hdfs.rollInterval = 30
a1.sinks.k1.hdfs.rollSize = 10240
a1.sinks.k1.hdfs.rollCount = 500
# 时间戳
a1.sinks.k1.hdfs.useLocalTimeStamp = true
# 文件
a1.sinks.k1.hdfs.fileType = DataStream
 
a1.sources.r1.channels=c1
a1.sinks.k1.channel=c1

3.准备hdfs

hdfs dfs -mkdir -p /user/centos/umeng_big12/raw-logs

/user/centos/umeng_big12/raw-logs

4.启动flume进程

flume-ng agent -f /soft/flume/conf/umeng_kafka_to_hdfs.conf -n a1 &

查看全文

相关阅读:
欧几里得算法
 匈牙利算法找二分图最大匹配
 hdu3374 String Problem(最小值表示法 + KMP）
hdu6704 K-th occurrence（后缀数组+RMQ+主席树）
洛谷 P3809 【模板】后缀排序
 hdu2222 【AC自动机】Keywords Search
2019杭电多校十 1011 Make Rounddog Happy（rmq + 分治）
Separate String(Ac自动机+dp）
2019杭电多校二 I Love Palindrome String(回文自动机)
HDU2451 Simple Addition expression（数位dp/找规律）

原文地址：https://www.cnblogs.com/star521/p/9877352.html