用于行为日志生成方式
1、Nginx
2、Ajax
用户行为日志内容
日志数据内容:
1)访问的系统属性:操作系统、浏览器等等
2)访问特征:点击的URL、从哪个URL跳转过来的(referer)、页面上的停留时间
3)访问信息:session_id、访问ID(访问城市)等
用户行为日志分析的意义
网站的眼睛
网站的神经
网站的大脑
离线数据处理流程
1)数据采集
Flume:web日志写入到HDFS
2)数据清洗
脏数据
spark、hive、MapReduce 或者是其他的分布式计算框架
清洗后的数据可以放到HDFS(hive表/spark SQL表)
3)数据处理
按照需求进行相应业务的统计和分析
spark、hive、MapReduce 或者是其他的分布式计算框架
4)数据处理结果入库
结果可以存到RDBMS、nosql
调用API完成
5)数据的可视化
通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图
echarts、hue、zeppelin
数据处理架构
项目需求
需求一:慕课网主站最受欢迎的课程/手记 topN
需求二:按地市统计imooc主站最受欢迎的topN课程
按IP地址提取地市信息
窗口函数在spark SQL中的使用
需求三:按流量统计imooc主站最受欢迎topN课程
imooc主站日志介绍
访问时间、访问URL、访问IP、访问过程耗费流量
数据清洗: