zoukankan      html  css  js  c++  java
  • 用户行为日志

    用于行为日志生成方式

    1、Nginx

    2、Ajax

    用户行为日志内容

    日志数据内容:

    1)访问的系统属性:操作系统、浏览器等等

    2)访问特征:点击的URL、从哪个URL跳转过来的(referer)、页面上的停留时间

    3)访问信息:session_id、访问ID(访问城市)等

    用户行为日志分析的意义

    网站的眼睛

    网站的神经

    网站的大脑

    离线数据处理流程

    1)数据采集

      Flume:web日志写入到HDFS

    2)数据清洗

      脏数据

      spark、hive、MapReduce 或者是其他的分布式计算框架

      清洗后的数据可以放到HDFS(hive表/spark SQL表)

    3)数据处理

      按照需求进行相应业务的统计和分析

      spark、hive、MapReduce 或者是其他的分布式计算框架

    4)数据处理结果入库

      结果可以存到RDBMS、nosql

      调用API完成

    5)数据的可视化

      通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

      echarts、hue、zeppelin

    数据处理架构

      项目需求

    需求一:慕课网主站最受欢迎的课程/手记 topN

    需求二:按地市统计imooc主站最受欢迎的topN课程

      按IP地址提取地市信息

      窗口函数在spark SQL中的使用

    需求三:按流量统计imooc主站最受欢迎topN课程

    imooc主站日志介绍

    访问时间、访问URL、访问IP、访问过程耗费流量

    数据清洗:

  • 相关阅读:
    [Java123] JDBC and Multi-Threading 多线程编程学习笔记
    3:2D装换 [ 重点 ]
    2:属性选择器 + 结构伪类选择器 + 伪元素
    1:新增 H5 常用属性
    day2
    代码实操第一天
    1 滑动门
    css高级技巧
    11:网页布局总结
    10:定位
  • 原文地址:https://www.cnblogs.com/liuffblog/p/13050092.html
Copyright © 2011-2022 走看看