zoukankan      html  css  js  c++  java
  • 03.网站点击流数据分析项目_模块开发_数据预处理

    4 模块开发—数据预处理

    4.1 主要目的: 

      过滤“不合规”数据

      格式转换和规整

      根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据

    4.2  实现方式:

      开发一个MapReduce程序WeblogPreProcess来实现逻辑;

      运行mr对数据进行预处理:hadoop jar click.jar cn.itcast.bigdata.hive.mr.pre.WeblogPreProcess /azaz /fenazaz

      如上步骤即就是:将采集的日志文件access.log,进行清洗;

    4.3 点击流模型数据梳理

      由于大量的指标统计从点击流模型中更容易得出,所以在预处理阶段,可以使用mr程序来生成点击流模型的数据

      4.3.1 点击流模型pageviews表(session聚集的访问页面信息)

      hadoop jar click.jar cn.itcast.bigdata.hive.mr.ClickStreamThree /fenazaz /pageviews

      

      4.3.2 点击流模型visit信息表:MR程序从pageviews数据中,梳理出每一次visit的起止时间、页面信息

      hadoop jar click.jar cn.itcast.bigdata.hive.mr.ClickStreamVisit /pageviews /visitout

      

      这就是点击流模型。当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流

    的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量

      然后,在hive仓库中建点击流visit模型表:

    drop table if exist click_stream_visit;
    create table click_stream_visit(
    session     string,
    remote_addr string,
    inTime      string,
    outTime     string,
    inPage      string,
    outPage     string,
    referal     string,
    pageVisits  int)
    partitioned by (datestr string);

      然后,将MR运算得到的visit数据导入visit模型表

      load data inpath '/visitout' into table click_stream_visit partition(datestr='2013-09-18');

      

     

      

      

    load data inpath '/weblog/visitout' into table click_stream_visit partition(datestr='2013-09-18');

  • 相关阅读:
    韩式英语
    Daily dictation 听课笔记
    words with same pronunciation
    you will need to restart eclipse for the changes to take effect. would you like to restart now?
    glottal stop(britain fountain mountain)
    education 的发音
    第一次用Matlab 的lamada语句
    SVN的switch命令
    String的split
    SVN模型仓库中的资源从一个地方移动到另一个地方的办法(很久才解决)
  • 原文地址:https://www.cnblogs.com/yaboya/p/9329371.html
Copyright © 2011-2022 走看看