zoukankan      html  css  js  c++  java
  • 本周进度

    本周周四进行了极限挑战,其任务如下:

    1.数据清洗

          两阶段数据清洗:
    第一阶段:把需要的信息从原始日志中提取出来
       ip:199.30.25.88
      time: 10/Nov/2016:00:01:03 +0800
       traffic:62
    第二阶段:根 据提取出来的信息做精细化操作
         ip--->城市 city
         date-->  time:2016-11-10  00:01:03
                    day: 10
        traffic:62
         type:article/video
         id:11325
      hive:
        create table data(
           ip string,
           time string ,
          day string,
          traffic bigint,
          type string,
          id   string
        )
     2.数据处理
                 按照我们的需要进行相应业务的统计和分析
               spark、Hive、MapReduce或其他的一些分布式计算框架
               create table data(
           ip string,
           time string ,
          day string,
          traffic bigint,
          type string,
          id   string
        )
              统计最受欢迎的视频/文章的TopN访问次数
                     按照地市统计最受欢迎的TopN课程
                 按照流量统计最受欢迎的TopN课程
    处理结果入库
               结果可以存放到mysql
    3.数据的可视化
                 通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

    学习时长:6小时       代码量:1200行

  • 相关阅读:
    bzoj 1004 burnside 引理+DP
    bzoj 3453 数论
    HDU 2899 三分
    HDU 2199 二分
    bzoj 3450 DP
    bzoj 1197 DP
    bzoj 2121 DP
    bzoj 2258 splay
    bzoj 1296 DP
    Memcached的限制和使用建议
  • 原文地址:https://www.cnblogs.com/PSLQYZ/p/13943639.html
Copyright © 2011-2022 走看看