zoukankan      html  css  js  c++  java
  • 本周进度

    本周周四进行了极限挑战,其任务如下:

    1.数据清洗

          两阶段数据清洗:
    第一阶段:把需要的信息从原始日志中提取出来
       ip:199.30.25.88
      time: 10/Nov/2016:00:01:03 +0800
       traffic:62
    第二阶段:根 据提取出来的信息做精细化操作
         ip--->城市 city
         date-->  time:2016-11-10  00:01:03
                    day: 10
        traffic:62
         type:article/video
         id:11325
      hive:
        create table data(
           ip string,
           time string ,
          day string,
          traffic bigint,
          type string,
          id   string
        )
     2.数据处理
                 按照我们的需要进行相应业务的统计和分析
               spark、Hive、MapReduce或其他的一些分布式计算框架
               create table data(
           ip string,
           time string ,
          day string,
          traffic bigint,
          type string,
          id   string
        )
              统计最受欢迎的视频/文章的TopN访问次数
                     按照地市统计最受欢迎的TopN课程
                 按照流量统计最受欢迎的TopN课程
    处理结果入库
               结果可以存放到mysql
    3.数据的可视化
                 通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

    学习时长:6小时       代码量:1200行

  • 相关阅读:
    fmri资源站点
    spm教程
    linux下ntfs硬盘的加载
    Unix网络编程代码 第13章 守护进程和inetd超级服务器
    APUE16章的运行示例16-14
    Linux守护进程详解(init.d和xinetd)
    centos安装g++
    linux下daemon守护进程的实现(以nginx代码为例)
    Linux进程学习(孤儿进程和守护进程)
    Linux之TCPIP内核参数优化
  • 原文地址:https://www.cnblogs.com/PSLQYZ/p/13943639.html
Copyright © 2011-2022 走看看