zoukankan      html  css  js  c++  java
  • Pentaho Work with Big Data(五)—— 格式化原始web日志

    本演示样例说明怎样使用Pentaho MapReduce把原始web日志解析成格式化的记录。

    一、向HDFS导入演示样例数据文件
    将weblogs_rebuild.txt文件放到HDFS的/user/grid/raw/文件夹下(因资源有限,本演示样例仅仅取了这个文件的前10行数据)
    參考:http://blog.csdn.net/wzy0623/article/details/51133760

    二、建立一个用于Mapper的转换
    1. 新建一个转换,如图1所看到的。


    图1

    2. 编辑'MapReduce Input'步骤,如图2所看到的。


    图2

    3. 编辑'Regex Evaluation'步骤,如图3所看到的。


    图3

    说明:
    . “正則表達式”里面填写例如以下内容:
    ^([^s]{7,15})s            # client_ip
    -s                         # unused IDENT field
    -s                         # unused USER field
    [((d{2})/(w{3})/(d{4})  # request date dd/MMM/yyyy
    :(d{2}):(d{2}):(d{2})s([-+ ]d{4}))]
                                # request time :HH:mm:ss -0800
    s"(GET|POST)s             # HTTP verb
    ([^s]*)                     # HTTP URI
    sHTTP/1.[01]"s           # HTTP version
    
    
    (d{3})s                   # HTTP status code
    (d+)s                     # bytes returned
    "([^"]+)"s                 # referrer field
    
    
    "                           # User agent parsing, always quoted.
    "?

    # Sometimes if the user spoofs the user_agent, they incorrectly quote it. ( # The UA string [^"]*?

    # Uninteresting bits (?: (?

    : rv: # Beginning of the gecko engine version token (?=[^;)]{3,15}[;)]) # ensure version string size ( # Whole gecko version (d{1,2}) # version_component_major .(d{1,2}[^.;)]{0,8}) # version_component_minor (?

    :.(d{1,2}[^.;)]{0,8}))? # version_component_a (?:.(d{1,2}[^.;)]{0,8}))?

    # version_component_b ) [^"]* # More uninteresting bits ) | [^"]* # More uninteresting bits ) ) # End of UA string "?

    "

    . “捕获组(Capture Group)字段”例如以下所看到的,全部字段都是String类型
    client_ip
    full_request_date
    day
    month
    year
    hour
    minute
    second
    timezone
    http_verb
    uri
    http_status_code
    bytes_returned
    referrer
    user_agent
    firefox_gecko_version
    firefox_gecko_version_major
    firefox_gecko_version_minor
    firefox_gecko_version_a
    firefox_gecko_version_b 
    4. 编辑'Filter Rows'步骤,如图4所看到的。



    图4

    5. 编辑'Value Mapper'步骤。如图5所看到的。


    图5

    6. 编辑'User Defined Java Expression'步骤,如图6所看到的。


    图6

    说明:“Java Expression”列填写例如以下内容:
    client_ip + '	' + full_request_date + '	' + day + '	' + month + '	' + month_num + '	' + year + '	' + hour + '	' + minute + '	' + second + '	' + timezone + '	' + http_verb + '	' + uri + '	' + http_status_code + '	' + bytes_returned + '	' + referrer + '	' + user_agent

    7. 编辑'MapReduce Output'步骤,如图7所看到的。



    图7

    将转换保存为weblog_parse_mapper.ktr

    三、建立一个调用MapReduce步骤的作业,使用mapper转换,仅执行map作业
    1. 新建一个作业,如图8所看到的。


    图8

    2. 编辑'Pentaho MapReduce'作业项。如图9到图11所看到的。



    图9


    图10


    图11

    说明:
    . 仅仅须要编辑“Mapper”、“Job Setup”和“Cluster”三个标签
    . hadoop_local是已经建立好的Hadoop Clusters连接。设置如图12所看到的


    图12

    建立过程參考http://blog.csdn.net/wzy0623/article/details/51086821

    将作业保存为weblogs_parse_mr.kjb

    四、运行作业并验证输出
    1. 启动hadoop集群
    # 启动HDFS
    $HADOOP_HOME/sbin/start-dfs.sh
    # 启动yarn
    $HADOOP_HOME/sbin/start-yarn.sh
    # 启动historyserver
    $HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

    2. 运行作业,日志如图13所看到的。



    图13

    从图13能够看到,作业已经成功运行。



    3. 检查Hadoop的输出文件。结果如图14所看到的。



    图14

    从图14能够看到,/user/grid/parse文件夹下生成了名为part-00000和part-00001的两个输出文件。

    參考:

    http://wiki.pentaho.com/display/BAD/Using+Pentaho+MapReduce+to+Parse+Weblog+Data

  • 相关阅读:
    [改善Java代码]养成良好习惯,显式声明UID
    [改善Java代码]警惕自增的陷阱
    [改善Java代码]覆写变长方法也循规蹈矩
    [改善Java代码]别让null值和空值威胁到变长方法
    [改善Java代码]避免带有变长参数的方法重载
    [改善Java代码]三元操作符的类型务必一致
    关于Windows下mysql忘记root密码的解决方法
    关于同步VSS服务器上的代码发生Eclipse里面的项目全部不见了
    关于关闭Eclipse的控制台自动跳出
    关于Windows下如何查看端口占用和杀掉进程
  • 原文地址:https://www.cnblogs.com/jhcelue/p/7230494.html
Copyright © 2011-2022 走看看