zoukankan      html  css  js  c++  java
  • 大数据


    对于很多人来说,当他第一次听到“大数据”这个词,会自然而然从字面上去理解——认为大数据就是大量的数据,大数据技术就是大量数据的存储技术。

    但是,事实并非如此。

    大数据比想象中复杂。它不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。

    更进一步来说,大数据是一种全新的思维方式和商业模式。

    1.大数据的定义

    广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

    狭义的定义,是技术工程师给的——大数据,是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。

    传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。

    2.大数据,到底有多大

    传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。

    1 KB = 1024 B (KB - kilobyte)

    1 MB = 1024 KB (MB - megabyte)

    1 GB = 1024 MB (GB - gigabyte)

    1 TB = 1024 GB (TB - terabyte)

    而大数据是什么级别呢?PB/EB级别。

    大部分人都没听过。其实也就是继续翻1024倍:

    1 PB = 1024 TB (PB - petabyte)

    1 EB = 1024 PB (EB - exabyte)

    1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是671部《红楼梦》小说。

    1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。

    1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。

    大数据的级别定位:

    1 KB = 1024 B (KB - kilobyte)

    1 MB = 1024 KB (MB - megabyte)

    1 GB = 1024 MB (GB - gigabyte)

    1 TB = 1024 GB (TB - terabyte)

    1 PB = 1024 TB (PB - petabyte)

    1 EB = 1024 PB (EB - exabyte)

    1 ZB = 1024 EB (ZB - zettabyte)

    3.数据的来源

    人类社会数据产生的几个重要阶段。

    大致来说,是三个重要的阶段。

    第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。

    这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。

    第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。

    随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。

    第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。

    经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。

    4.大数据的4Vs

    庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。

    • Variety(多样化)

    数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。

    数据又分为结构化数据和非结构化数据。

    从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

    例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

    而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。

    在互联网领域里,非结构化数据的占比已经超过整个数据量的80%。

    大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。

    • Velocity(时效性)

    大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

    我们还是用数字来说话:

    就在刚刚过去的这一分钟,数据世界里发生了什么?

    Email:2.04亿封被发出

    Google:200万次搜索请求被提交

    Youtube:2880分钟的视频被上传

    Facebook:69.5万条状态被更新

    Twitter:98000条推送被发出

    12306:1840张车票被卖出

    ……

    怎么样?是不是瞬息万变?

    • Value(价值密度)

    最后一个特点,就是价值密度。

    大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

    5.大数据的价值

    大数据的价值主要来自于两个方面:

    5.1帮助企业了解用户

    大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。

    典型的例子就是电商。

    像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。

    通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。

    大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。

    除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。

    5.2帮助企业了解自己

    除了帮助了解用户之外,大数据还能帮助了解自己。

    企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。

    总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。

    6.大数据和云计算

    数据本身是一种资产,而云计算,则是为挖掘资产价值提供合适的工具。

    从技术上,大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。

    云计算就像是挖掘机,大数据就是矿山。如果没有云计算,大数据的价值就发挥不出来。

    相反的,大数据的处理需求,也刺激了云计算相关技术的发展和落地。

    也就是说,如果没有大数据这座矿山,云计算这个挖掘机,很多强悍的功能都发展不起来。

    套用一句老话——云计算和大数据,两者是相辅相成的。

    7.大数据和物联网(5G)

    物联网就是“物与物互相连接的互联网”。物联网的感知层,产生了海量的数据,将会极大地促进大数据的发展。

    同样,大数据应用也发挥了物联网的价值,反向刺激了物联网的使用需求。越来越多的企业,发觉能够通过物联网大数据获得价值,就会愿意投资建设物联网。

    其实这个问题也可以进一步延伸为“大数据和5G之间的关系”。

    即将到来的5G,通过提升连接速率,提升了“人联网”的感知,也促进了人类主动创造数据。

    另一方面,它更多是为“物联网”服务的。包括低延时、海量终端连接等,都是物联网场景的需求。

    5G刺激物联网的发展,而物联网刺激大数据的发展。所有通信基础设施的强大,都是为大数据崛起铺平道路。

    8.大数据的产业链

    大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。

    每个环节,都有相应的角色玩家。

    9.大数据的挑战

    大数据也面临着很多挑战。

    除了数据管理技术难度之外,大数据的最大挑战,就是安全。

    数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了很多法律。

    在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。

    此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。

    除了安全之外,大数据还要面临能耗等方面的问题。

    换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。

  • 相关阅读:
    微信开发者工具http申请图片变成https
    vue 中v-for img src 路径加载问题
    nodejs内置模块querystring中parse使用问题
    用git上传项目到github遇到的问题和解决方法
    页面刷新——微信小程序生命周期探索
    小程序项目复盘(三) 用全局变量传参的问题
    小程序项目复盘(二) wx.request异步请求处理
    小程序项目复盘(一)字符串处理问题
    微信小程序中我常用到的CSS3弹性盒子布局(flex)总结
    wx.request中POST方法传参问题,用到JSON.stringify()
  • 原文地址:https://www.cnblogs.com/aixing/p/13327343.html
Copyright © 2011-2022 走看看