zoukankan      html  css  js  c++  java
  • 大数据综合案例---网站点击流数据分析系统

    大数据的学习告一段落,今天是大数据近些日子的最后一篇。

    这篇主要是一个思路,并没有代码啥的,也是将所学的东西,进行一个小的应用。

    最后希望大家都可以学习到东西,还是那句话,不懂就问我

    点击流数据即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。

     系统架构
    nginx做负载均衡,代理服务器;flume收集nginx的日志,存储在hdfs上,mayreduce对hdfs的信息进行分析,并存到hdfs上;hive使用mapreduce的数据得到一个统计处理,oozie(azkaban)做任务调度,sqoop在两个数据库之间做导入和导出

     数据采集

     

     开启nginx  (我的是在/usr/local/nginx这里)没在bin下开服务前是没有很多文件夹的,开启之后便能在logs看到访问日志

     

     

     数据预处理

    过滤不合规数据,格式转换和规整数据,根据后续的统计需求,过滤分离出各种不同主题的基础数据

     

  • 相关阅读:
    Codeforces 1255B Fridge Lockers
    Codeforces 1255A Changing Volume
    Codeforces 1255A Changing Volume
    leetcode 112. 路径总和
    leetcode 129. 求根到叶子节点数字之和
    leetcode 404. 左叶子之和
    leetcode 104. 二叉树的最大深度
    leetcode 235. 二叉搜索树的最近公共祖先
    450. Delete Node in a BST
    树的c++实现--建立一棵树
  • 原文地址:https://www.cnblogs.com/longshisan/p/14928216.html
Copyright © 2011-2022 走看看