zoukankan      html  css  js  c++  java
  • 03.网站点击流数据分析项目_模块开发_数据预处理

    4 模块开发—数据预处理

    4.1 主要目的: 

      过滤“不合规”数据

      格式转换和规整

      根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据

    4.2  实现方式:

      开发一个MapReduce程序WeblogPreProcess来实现逻辑;

      运行mr对数据进行预处理:hadoop jar click.jar cn.itcast.bigdata.hive.mr.pre.WeblogPreProcess /azaz /fenazaz

      如上步骤即就是:将采集的日志文件access.log,进行清洗;

    4.3 点击流模型数据梳理

      由于大量的指标统计从点击流模型中更容易得出,所以在预处理阶段,可以使用mr程序来生成点击流模型的数据

      4.3.1 点击流模型pageviews表(session聚集的访问页面信息)

      hadoop jar click.jar cn.itcast.bigdata.hive.mr.ClickStreamThree /fenazaz /pageviews

      

      4.3.2 点击流模型visit信息表:MR程序从pageviews数据中,梳理出每一次visit的起止时间、页面信息

      hadoop jar click.jar cn.itcast.bigdata.hive.mr.ClickStreamVisit /pageviews /visitout

      

      这就是点击流模型。当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流

    的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量

      然后,在hive仓库中建点击流visit模型表:

    drop table if exist click_stream_visit;
    create table click_stream_visit(
    session     string,
    remote_addr string,
    inTime      string,
    outTime     string,
    inPage      string,
    outPage     string,
    referal     string,
    pageVisits  int)
    partitioned by (datestr string);

      然后,将MR运算得到的visit数据导入visit模型表

      load data inpath '/visitout' into table click_stream_visit partition(datestr='2013-09-18');

      

     

      

      

    load data inpath '/weblog/visitout' into table click_stream_visit partition(datestr='2013-09-18');

  • 相关阅读:
    【python】使用matplotlib绘制多个子图时出现标题、轴标签等文字重叠的解决
    【python】反转字典键值
    关于MacOs python 安装tensorflow1.8版本时出现的问题及解决
    【Python】爬取百度图片进行人脸识别
    【转载】利用python、tensorflow、opencv实现人脸识别
    ubuntu16.04源码方式安装配置nginx
    ubuntu16.04 14.04更换源
    stdClass类
    redis常用配置项
    redis主从模式
  • 原文地址:https://www.cnblogs.com/yaboya/p/9329371.html
Copyright © 2011-2022 走看看