zoukankan      html  css  js  c++  java
  • 用户行为日志

    用于行为日志生成方式

    1、Nginx

    2、Ajax

    用户行为日志内容

    日志数据内容:

    1)访问的系统属性:操作系统、浏览器等等

    2)访问特征:点击的URL、从哪个URL跳转过来的(referer)、页面上的停留时间

    3)访问信息:session_id、访问ID(访问城市)等

    用户行为日志分析的意义

    网站的眼睛

    网站的神经

    网站的大脑

    离线数据处理流程

    1)数据采集

      Flume:web日志写入到HDFS

    2)数据清洗

      脏数据

      spark、hive、MapReduce 或者是其他的分布式计算框架

      清洗后的数据可以放到HDFS(hive表/spark SQL表)

    3)数据处理

      按照需求进行相应业务的统计和分析

      spark、hive、MapReduce 或者是其他的分布式计算框架

    4)数据处理结果入库

      结果可以存到RDBMS、nosql

      调用API完成

    5)数据的可视化

      通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

      echarts、hue、zeppelin

    数据处理架构

      项目需求

    需求一:慕课网主站最受欢迎的课程/手记 topN

    需求二:按地市统计imooc主站最受欢迎的topN课程

      按IP地址提取地市信息

      窗口函数在spark SQL中的使用

    需求三:按流量统计imooc主站最受欢迎topN课程

    imooc主站日志介绍

    访问时间、访问URL、访问IP、访问过程耗费流量

    数据清洗:

  • 相关阅读:
    1022 D进制的A+B
    1021 个位数统计
    L1-040 最佳情侣身高差
    Celery--基本使用
    Celery--安装
    Celery--简介
    RabbitMQ--常用命令
    RabbitMQ--RPC实现
    RabbitMQ发布订阅
    RabbitMQ基本使用
  • 原文地址:https://www.cnblogs.com/liuffblog/p/13050092.html
Copyright © 2011-2022 走看看