zoukankan      html  css  js  c++  java
  • 015_[小插曲]看黄老师《炼数成金Hadoop应用开发实战案例》笔记

    1、大数据金字塔结构

       Data Source-->Data Warehouses/Data Marts-->data exploration-->Data Mining-->Data Presentations-->Making Decisions

    2、从业职位
       业务人员、ETL工程师、数据仓库工程师(及时需求)、数据分析师、数据展现设计师、
       IT支持人员:运维。程序员、生产线数据管理员

    3、数据分析:统计方法,有目的 地对收集到的数据进行处理。
       数据挖掘:查找隐藏在数据中的信息的技术、应用算法从大数据集提取知识、隐性关联
       商业智能:Business Intelligece简称BI。
        BI=数据仓库(存储层)+数据分析与数据挖掘(分析层)+报表(展示层)

    4、数据分析常用的算法和软件
       回归、时间序列分析、分类器(学习集)、聚类(聚合)、频繁模式挖掘

    5、常用的传统数据分析工具排行
       R、SAS、Weka、STATISTICA、Matlab……
       这些都是实验室工具,当建模结束后,就不要他们,后面的预测工作就可以使用java、php、oracle等来做。
       后者是生产环境里面实现模型的工具。
       将建模的过程与实现建模生产的过程区分开来。

    6、数据分析的层次
       第一层:业务人员主导-------------------遍地黄金
       第二层:业务人员与数据分析师共同主导:最好的层次,分析师喜欢、业务员肯定---------------浅表黄金
       第三层:完全由数据分析师主导的分析:数据分析师王国(人工智能、模式识别、机器学习)、失败率高、业务人员反感抗拒-----黄金深埋
       业务是数据分析扎根的土壤,提升业务业绩是数据分析的目标,因此任何数据分析必须要和业务相连接。
       有意思的分析主题可能比分析技术本身更重要。

    7、大数据定义:超过当前数据处理能力的数据量。

    8、传统数据分析软件与hadoop区别

       R、SAS、SPASS等典型的应用场景为实验室工具,是试管和蒸馏瓶
       Hadoop集群和Map-Reduce计算才是大规模生产的可行之路。

    9、实例
       1)场景一:电信运营商信令分析与监测:信令处理模块---CDR(collect report data)生成(基站信号、国际电话中转)
       2)场景二:DNA数据库---------匹配
       3)社会学分析——人物重要度计算----社交网络

    10、Hadoop体系下的分析手段
       1)主流,Map-Reduce:java程序
       2)轻量级的脚本语言:Pig
       3)SQL技巧平稳过度:Hive
       4)机器学习平台:Mahout
       5)NoSQL:HBase

    11、典型的实验环境
       1)服务器:ESXi,可以在服务器上面部署多台虚拟机,能同时启动3台。
       2)PC,要求Linux环境或者windows+Cygwin,linux可以使standalone或者使用虚拟机。

    12、实验环境
       1)部署Pig
       2)部署Hive
       3)部署Mahout

    13、典型案例
       1)巨型网站日志系统分析,提取KPI数据(Map-Reduce)
       2)电信运营商LBS应用,分析手机用户移动轨迹(Map-reduce)
       3)电信运行商用户分析,通过童话指纹判别重入网用户(Map-reduce)
       4)电子商务推荐系统设计(Map-reduce)
       5)更复杂的推荐系统场景(Mahout)
       6)社交网络,判断微博用户关系亲疏程度,发现社区(Pig)
       7)在社交网络中衡量节点的重要程度(Map-reduce)
       8)聚类算法应用,分析优质客户(Map-reduce、Mahout)
       9)金融数据分析,从历史数据中提取逆回购信息(Hive)
       10)通过数据分析指定股票策略(Map-reduce,Hive)
       11)GPS应用,签到数据分析(Pig)
       12)Map-reduce全排序实现和优化
       13)中间件开发,让过个Hadoop集群协作起来。

    备注:这段时间将云帆大数据的《Hadoop从入门到企业级开发》一共14天教程,80+集看完了,后面的部分目前网上还没有公开的视频教程,等找到再看或者直接去买。博客还没来得及整理,技术有一定了解,又看了黄老师的视频加深了自己对Hadoop应用领域的了解,甚是感谢!

  • 相关阅读:
    wxpython的安装

    拓扑排序
    树,二叉树,森林,三者的转换
    二叉树的遍历
    最短路径
    图的遍历
    图的最小生成树
    哈夫曼树的应用
    哈夫曼树
  • 原文地址:https://www.cnblogs.com/xiangyangzhu/p/5278045.html
Copyright © 2011-2022 走看看