zoukankan      html  css  js  c++  java
  • java mapreduce实现网站PV分析

    原文链接:

    https://www.toutiao.com/i6765677128022229517/

    PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页面,pv就增加一次。

    我们目前的数据是:

    java mapreduce实现网站PV分析

     

    其中的数据我们会得到标注

    java mapreduce实现网站PV分析

     

    根据标注我们进行代码筛选,编写MapReduce

    分析:我们先根据标注的表中有一个"省份"的字段,依据"省份"编写map。

    首先我们创建Maven项目

    java mapreduce实现网站PV分析

     

    填写pom信息

    java mapreduce实现网站PV分析

     

    java mapreduce实现网站PV分析

     

    java mapreduce实现网站PV分析

     

    创建Map类

    java mapreduce实现网站PV分析

     

    基本结构如下:

    java mapreduce实现网站PV分析

     

    我们需要对原数据进行筛选

    长度筛选

    java mapreduce实现网站PV分析

     

    省份编号是空值

    java mapreduce实现网站PV分析

     

    确保数字编号是否是数字

    java mapreduce实现网站PV分析

     

    筛选URL是否为空值

    java mapreduce实现网站PV分析

     

    创建Reduce类

    java mapreduce实现网站PV分析

     

    编写内容

    java mapreduce实现网站PV分析

     

    创建运行类

    java mapreduce实现网站PV分析

     

    编写程序内容

    java mapreduce实现网站PV分析

     

    准备数据源文件和Jar包

    java mapreduce实现网站PV分析

     

    启动Hadoop

    java mapreduce实现网站PV分析

     

    我们将数据上传到HDFS中

    java mapreduce实现网站PV分析

     

    我们查看下数据,发现数据已经上传了

    java mapreduce实现网站PV分析

     

    我们执行我们的jar包

    yarn jar /data/webpv/webpv.jar com.xlglvc.xxx.mapredece.webpv.WebPvDriver /webpv/data1 /webpvoutput

    java mapreduce实现网站PV分析

     

    执行成功

    java mapreduce实现网站PV分析

     

    我们查看生成的数据,已经生成了,我们查看下最终数据

    java mapreduce实现网站PV分析

     

    这样我们就知道每个省份最终访问的次数了,了解到那个省份访问的最多了

    java mapreduce实现网站PV分析
  • 相关阅读:
    软件开发模版与规范 & 项目组规范
    CSS代码结构初探
    DIV+CSS 一行两列布局
    AE 9.3代码 升级到AE10.0
    栅格相减 异常
    鹰眼视图异常
    十进制度批量转换度分秒
    javascript是一朵奇葩
    pku 1065 pku 1548
    hdu 1254 推箱子
  • 原文地址:https://www.cnblogs.com/bqwzy/p/12528472.html
Copyright © 2011-2022 走看看