Pentaho Work with Big Data（五）—— 格式化原始web日志

zoukankan html css js c++ java

Pentaho Work with Big Data（五）—— 格式化原始web日志
本演示样例说明怎样使用Pentaho MapReduce把原始web日志解析成格式化的记录。

一、向HDFS导入演示样例数据文件
将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/文件夹下（因资源有限，本演示样例仅仅取了这个文件的前10行数据）
參考：http://blog.csdn.net/wzy0623/article/details/51133760

二、建立一个用于Mapper的转换
1. 新建一个转换，如图1所看到的。

图1
2. 编辑'MapReduce Input'步骤，如图2所看到的。

图2
3. 编辑'Regex Evaluation'步骤，如图3所看到的。

图3
说明：
. “正則表達式”里面填写例如以下内容：

^([^s]{7,15})s # client_ip -s # unused IDENT field -s # unused USER field [((d{2})/(w{3})/(d{4}) # request date dd/MMM/yyyy :(d{2}):(d{2}):(d{2})s([-+ ]d{4}))] # request time :HH:mm:ss -0800 s"(GET|POST)s # HTTP verb ([^s]*) # HTTP URI sHTTP/1.[01]"s # HTTP version (d{3})s # HTTP status code (d+)s # bytes returned "([^"]+)"s # referrer field " # User agent parsing, always quoted. "?
# Sometimes if the user spoofs the user_agent, they incorrectly quote it. ( # The UA string [^"]*?
# Uninteresting bits (?: (?
: rv: # Beginning of the gecko engine version token (?=[^;)]{3,15}[;)]) # ensure version string size ( # Whole gecko version (d{1,2}) # version_component_major .(d{1,2}[^.;)]{0,8}) # version_component_minor (?
:.(d{1,2}[^.;)]{0,8}))? # version_component_a (?:.(d{1,2}[^.;)]{0,8}))?
# version_component_b ) [^"]* # More uninteresting bits ) | [^"]* # More uninteresting bits ) ) # End of UA string "?
"
. “捕获组(Capture Group)字段”例如以下所看到的，全部字段都是String类型

client_ip full_request_date day month year hour minute second timezone http_verb uri http_status_code bytes_returned referrer user_agent firefox_gecko_version firefox_gecko_version_major firefox_gecko_version_minor firefox_gecko_version_a firefox_gecko_version_b
4. 编辑'Filter Rows'步骤，如图4所看到的。

图4
5. 编辑'Value Mapper'步骤。如图5所看到的。

图5
6. 编辑'User Defined Java Expression'步骤，如图6所看到的。

图6
说明：“Java Expression”列填写例如以下内容：

client_ip + ' ' + full_request_date + ' ' + day + ' ' + month + ' ' + month_num + ' ' + year + ' ' + hour + ' ' + minute + ' ' + second + ' ' + timezone + ' ' + http_verb + ' ' + uri + ' ' + http_status_code + ' ' + bytes_returned + ' ' + referrer + ' ' + user_agent

7. 编辑'MapReduce Output'步骤，如图7所看到的。

图7
将转换保存为weblog_parse_mapper.ktr

三、建立一个调用MapReduce步骤的作业，使用mapper转换，仅执行map作业
1. 新建一个作业，如图8所看到的。

图8
2. 编辑'Pentaho MapReduce'作业项。如图9到图11所看到的。

图9

图10

图11
说明：
. 仅仅须要编辑“Mapper”、“Job Setup”和“Cluster”三个标签
. hadoop_local是已经建立好的Hadoop Clusters连接。设置如图12所看到的

图12
建立过程參考http://blog.csdn.net/wzy0623/article/details/51086821。

将作业保存为weblogs_parse_mr.kjb

四、运行作业并验证输出
1. 启动hadoop集群
# 启动HDFS
$HADOOP_HOME/sbin/start-dfs.sh
# 启动yarn
$HADOOP_HOME/sbin/start-yarn.sh
# 启动historyserver
$HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

2. 运行作业，日志如图13所看到的。

图13
从图13能够看到，作业已经成功运行。

3. 检查Hadoop的输出文件。结果如图14所看到的。

图14
从图14能够看到，/user/grid/parse文件夹下生成了名为part-00000和part-00001的两个输出文件。

參考：

http://wiki.pentaho.com/display/BAD/Using+Pentaho+MapReduce+to+Parse+Weblog+Data
查看全文

相关阅读:
hdu5269 ZYB loves Xor I
UVA 11181 Probability|Given
UVA 10277 Boastin' Red Socks
CodeForces 566B Replicating Processes
UVA 10714 Ants
CodeForces 567B Berland National Library hdu-5477 A Sweet Journey
UVA 10759 Dice Throwing
UVA 11027
「CF241E」Flights
「CF891C」Envy

原文地址：https://www.cnblogs.com/jhcelue/p/7230494.html