zoukankan      html  css  js  c++  java
  • 大数据综合案例---网站点击流数据分析系统

    大数据的学习告一段落,今天是大数据近些日子的最后一篇。

    这篇主要是一个思路,并没有代码啥的,也是将所学的东西,进行一个小的应用。

    最后希望大家都可以学习到东西,还是那句话,不懂就问我

    点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。

     系统架构
    nginx做负载均衡,代理服务器;flume收集nginx的日志,存储在hdfs上,mayreduce对hdfs的信息进行分析,并存到hdfs上;hive使用mapreduce的数据得到一个统计处理,oozie(azkaban)做任务调度,sqoop在两个数据库之间做导入和导出

     数据采集

     

     开启nginx  (我的是在/usr/local/nginx这里)没在bin下开服务前是没有很多文件夹的,开启之后便能在logs看到访问日志

     

     

     数据预处理

    过滤不合规数据,格式转换和规整数据,根据后续的统计需求,过滤分离出各种不同主题的基础数据

     

  • 相关阅读:
    awk-使用
    缓存使用
    一致性hash-java实现treemap版
    线程同步-CountDownLatch
    一致性hash算法
    linux-配置字符串-grep
    linux-查找命令-find
    linux-网络监控命令-netstat进阶
    linux-网络监控命令-netstat初级
    linux-单引号、双引号、反引号的区别。
  • 原文地址:https://www.cnblogs.com/longshisan/p/14928216.html
Copyright © 2011-2022 走看看