zoukankan      html  css  js  c++  java
  • 大数据简介

    大数据简介
                  -从BI到大数据

    BI

    什么是BI

    BI(Business Intelligence)即商务智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确地提供报表并提出决策依据,帮助企业做出明智的业务经营决策。

    应用范围:

    商业智能系统可辅助建立信息中心,如产生各种工作报表和分析报表。

    为什么传统BI没前途?

    计算性能:浙江移动用GBASE+HADOOP花了半年时间把2台P780替换掉了,综合性能可以说是原来的1.5倍,但投资只有几分之一,虽然前期涉及一些调优,对于代码也有更高的要求,但性价比非常高

    数据采集:目前采集方式的百花齐放,即消息、数据流、爬虫、文件、日志增量都能支持

    数据采集需要分布式,可以并行动态扩展。这些对于传统BI挑战很大。

    多维分析:打cube, 千万级数据量、10个维度估计也是它的性能极限

    挖掘平台:SAS、SPSS都是传统数据挖掘的利器,但他们大部分时候只能在PC上进行抽样分析。从样本到全量,需要全面升级装备。

    ……

    大数据

    随着软硬件技术的进度,传统BI存在的问题,被大数据时代解决了。

     

    大数据的定义,随着技术的发展不断演进

     

    不同认知角度的大数据定义

     

    大数据的典型特征(4V)

     

    规模:传统数据库,从未处理过PB级的数据。大数据动不动就是上百PB。

    速度:海量数据实时处理。

    传统的处理方式比较慢。关于公共卫生的例子。09年甲流流行时,传统做法

    医生在发现新型流感病例时告知疾病控制与预防中心。 但由于人们可能患病多日实在受不了了才会去医院, 同时这个信息传达回疾控中心也需要时间, 因此, 通告新流感病例时往往会有一两周的延迟。 而且, 疾控中心每周只进行一次数据汇总。 然而, 对于一种飞速传播的疾病, 信息滞后两周的后果将是致命的。 这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。

    Google根据大家的搜索数据,提供更有效、 更及时的指示标。 不仅是全美范围的传播, 而且可以具体到特定的地区和州。 谷歌通过观察人们在网上的搜索记录来完成这个预测, 而这种方法以前一直是被忽略的。

    价值:数据被称为 新时代的石油。石油的价值?控制石油价格,控制全世界。

    大数据思维区别于传统思维,其精髓在于数据分析方法的3个转变

     

    大数据应用

     

     

    大数据发展史

     

    大数据技术主要是Google发了3篇论文Google File System(GFS), MapReduce,BigTable。

    但是大数据时代跟他没半毛钱关系,为什么?他撒了谎,虽然告诉我们一些知识了,但是有所隐瞒。所以也就拿不出相应的开源产品。

    当人工智能这个新泡泡起来的时候,Google迅速采用了一个完全不同的策略,不仅仅用AlphaGo这个程序告诉大家,所谓围棋,不管东亚人怎么吹是信仰是人生是哲理,其实无非就是个计算的问题。Google接下来很快的开放了Google内部的人工智能平台TensorFlow。

    Google的大数据三驾马车

    三驾马车之永垂不朽的GFS

    这篇论文值得每个做系统的人反复的读。

    三驾马车之坑人的MapReduce

    MapReduce计算模型极其的粗糙。从做数据库的人的角度来看这无非是一个select一个groupby,这些花样197x的时候在SystemR里都被玩过了。

    完全基于MapReduce的很多project都不太成功。这个计算模型最重要的是做inverted index build。另外随着F1的披露,大家知道Google的Ads系统实际上长期运行在MySQL上,这也从侧面反应了Google内部的一些情况和当初论文的高调宣扬之间的矛盾。

    很重要的资源管理系统Borg又在当初的论文里被彻底隐藏起来。HadoopV2必须引入Yarn的很重要的原因。

    微软内部支撑大数据分析的平台Cosmos是狠狠的抄袭了Google的File system却很大程度上摒弃了MapReduce这个框架。

    当然MapReduce不是一无是处,它告诉大家如何用一堆廉价PC去稳定的实现超大规模的并行数据处理。

    李逵麻子,李鬼坑人--BigTable的数据模型

    A BigTable is a sparse, distributed, persistent multidimensional sorted map.

    复合key<key1, key2, key3>.其中这几个key的名字分别如下:

    key1: row

    key2: column

    key3:timestamp

    BigTable是一个map,也就注定它不是数据库,没有数据库的特性,不能支持按列查询。这也是基于HBase的查询引擎百花齐发的原因。

    Google File System(GFS), MapReduce,BigTable。如果我们拉长时间轴到20年为一个周期来看呢,这三驾马车到今天的影响力其实已然不同。MapReduce作为一个有很多优点又有很多缺点的东西来说,很大程度上影响力已经释微了。BigTable以及以此为代表的各种KeyValue Store还有着它的市场,但是在Google内部Spanner作为下一代的产品,也在很大程度上开始取代各种各样的的BigTable的应用。而作为这一切的基础的Google File System,不但没有任何倒台的迹象,还在不断的演化,事实上支撑着Google这个庞大的互联网公司的一切计算。

    Presto之坑和萝卜傻子和骗子的故事

    Presto的来源有个八卦,大致上是Facebook的人觉得HIVE太慢于是让HIVE团队开发一个更快的。HIVE团队在犹豫是在HIVE上继续开发还是搞个新的。

    做出来的决定是让5个人继续开发HIVE,让一个人去做新的。结果这一个人的手脚比五个人更快,做出来Presto。所以有的时候人多也未必力量大啊。

    于是Presto就取代了在开发中的interactive HIVE上线了。再后来Facebook老的HIVE团队,创业的去创业,去startup的去startup,也就散了。

    这事典型的Facebook开源项目,管杀不管埋。所以有人经常抱怨你们开源了怎么不好好维护呢?Facebook干这类事情不是第一次了,这之前有Cassandra。后来被开源社区接管了Cassandra过的不错。

    国内Presto最忠实的用户可能是美团了。

    个人感觉用主流的技术,踩坑的人够多,这样可以少踩一点坑。另外不迷信大公司与专家。

    参考文献

    为什么传统BI没前途?

    大数据的那些事(1):Google的后悔药

    大数据那些事(2):三驾马车之永垂不朽的GFS

    大数据的那些事(3):三驾马车之坑人的MapReduce

    大数据那些事(30):Presto之坑和萝卜傻子和骗子的故事

  • 相关阅读:
    spingboot项目在windows环境中运行时接收参数及日志中文乱码
    应用node-webkit(NWJS)把BS架构的网址封装成桌面应用
    AndroidStudio离线打包MUI集成JPush极光推送并在java后端管理推送
    AndroidStudio离线打包MUI
    Centos7环境下搭建Nginx+Lua+Redis进行数据存取
    Nginx各项配置的含义
    MyBatis动态批量插入、更新Mysql数据库的通用实现方案
    spring+springMVC+Mybatis架构下采用AbstractRoutingDataSource、atomikos、JTA实现多数据源灵活切换以及分布式事务管理
    《spring boot》8.2章学习时无法正常启动,报“ORA-00942: 表或视图不存在 ”
    Win10系统使用Docker安装oracle并通过Navicat for oracle进行登录
  • 原文地址:https://www.cnblogs.com/small-k/p/9573366.html
Copyright © 2011-2022 走看看