zoukankan      html  css  js  c++  java
  • 大数据时代数据处理技术及应用

    大数据时代数据处理技术及应用     

      现如今,人们所处的社会是信息化社会,人们不再认为数据是静止而陈旧的。以前,一旦完成了数据收集的目的后,数据便会没有任何用处变为废弃物。例如在火车到达终点站后,火车票的数据就没有用处了。而现如今数据已经成为了一种商业资本,一项重要的经济投入,可以创造更多的经济利益。现代社会的一切事物几乎都是由互联网为基础而衍生的无数行业与机遇,那么在这个极具机遇与挑战的信息时代我们每天都在接触、使用、传播、产生数之不尽的数据,而这些存储在云端服务器的海量0、1编码便逐步聚集成为了大数据。数据在这个时代已经成为一种资源,一种筹码,因为它不为人们所感知,但却与我们每一个互联网用户形影不离,日夜相伴。

        现在我们每个人口袋里都有一个移动智能终端,它时时刻刻都在不停地记录、传输、接收着大量的信息,而网络将无数智能终端联系在一起,共同构成了一个庞大的关系网络,纷繁复杂。而云端服务器将这些存储下来,在一系列高端算法的分析与归纳便可以得到一定质量的事件预测。这仅仅是一个开始,大数据时代对我们的生活,以及整个世界交流的方式提出了挑战。最令人震惊的是,社会需要放弃它对于因果关系的渴求,而仅仅需要关注相关关系。也就是我们只需要知道是什么,而不需要知道为什么。

    一、   大数据的特点

    大数据5V特征:

      1.Volume(大体量):即可从数百TB到数十数百PB、甚至EB的规模。过去的时代是小数据时代,只能利用随机抽样的方法对某一项数据用局部替代整体,并渴望从最少的数据获得最多的信息,但是这样的方法是有很大局限性的,例如人口普查,只能挨个的去记录和整理,那么当数据收集齐全时,数据本身就已经过时了,那是徒劳的,低效的。而在当今的大数据时代,数据不再深藏于各处,而是即时上传、记录、分析、存储。这不仅使得数据被最大化的利用,并且使得所有的数据都能“发声”,告诉人们想得到的信息,并从中获得相应的利益。

      2、Variety(多样性):即大数据包括各种格式和形态的数据。得到数据的方法数之不尽,曾今我们对于数据的认识是片面的,我们单纯的认为数据只是指数值类数据,但在互联网时代,一切事物都是可以被“量化”的,你说的话,打印的文字,看的书籍,浏览的网页等都被称为数据,因为在互联网时代数据是使用约定俗成的关键词,对客观事物的数量、属性、位置及其相互关系进行抽象表示,以适合在这个领域中用人工或自然的方式进行保存、传递和处理。包括的范围极为广泛,几乎可以容纳一切事物。事物的种类繁杂与多样化便使得大数据时代具有多样性,举个例子:沃尔玛超市员工将啤酒和尿布摆放在一起,而二者的联系就是通过大数据分析所发现的。由此可见任何两种或多种完全不相干的事物在大数据的分析下都可以拥有直接或间接地联系。正如六度空间理论。难以证实,但却客观存在。

      3、Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。在前面的大体量中也已经阐述了在现代信息爆炸的时代,数据量与秒俱增,信息量大的十分可怕,海量数据“喷涌”而出,甚是惊人,而数据的价值也如新闻一般,一旦超过了“保质期”,再多的数据也只不过是昨日黄花,一文不值。生活中的许许多多的数据都具有时效性,例如人口普查的数据、飞机票等相关数据如果不能够实时更新,便会给人们的生活带来许多不便。从而大数据的时效性至关重要。

      4、Veracity(准确性):即处理的结果要保证一定的准确性。数据收集时不可避免的会收集到许许多多的虚假信息,而这些不真实的信息必然会给后期的数据记录和分析带来误差。那么在大数据时代对于数据的真实性与准确性也有一定的要求。

      5、Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。就拿我们最常用的购物APP—“淘宝”来说吧,淘宝是阿里旗下的网购应用平台,每天有数以亿计的人们使用它,而在淘宝的云端服务器,每天都在处理着无数的数据,卖家的信息、买家的信息、商品的相关信息、物流信息,这些数据汇集起来便构成了一个大数据,阿里便通过买家的浏览商品的记录和下单的记录为买家接连不断的推荐相关商品,之后你的淘宝主界面便全都是你所关注的同类型商品(当然对于不常使用的人来说这是一件令人反感的事情,例如我自己)而且每当你打开淘宝,便会向你推荐一堆你之前买过或浏览过的商品,这对于购物爱好者们自然是一件开心并且享受的事情,对于卖家也是如此。这个流程便是大数据的分析所带来的巨大商业利益。记录“足迹”,分析喜好,推荐商品,用户下单,阿里便可轻松获取巨额利益。由此可见大数据的商业价值无处不在。

    二、大数据处理算法

       在给定的资源约束下,以大数据为输入,再给定时间约束内可生成满足给订约束结果的算法称为大数据算法。大数据处理算法可以不是一个精确的算法,因为在海量的数据面前,人们逐渐开始以损失一定的精确度来换取大数据里蕴藏的丰富资源,因为大数据中的精确性不再是人们最关心的事物了,因为在大量的数据面前,精确是几乎不可能做到的,那么大数据所具备的性质便由精确性转变为了混杂性,所有数据都集中在一块,而且种类繁多,甚是惊人。而对于大数据的处理也有着各种各样的困难,而针对不同种类的困难,算法设计师们也设计出了相应的算法来解决对应的困难。具体的困难分为如下四种:

    1)  访问全部数据的时间过长。

    解决方法:那么我们则可以应用读取部分数据的方法来实现对于庞大数据的快速处理的功能。而对应的算法则是---时间亚性算法。该算法的实现过程如下

    输入:m个顶点的平面图,任意两点之间的距离存储在矩阵D中,即点i到点j的距离为Dij

        -输入大小是n=m2

        -最大的Dij是图的直径

        -点之间的距离对称且满足三角不等式

    输出:该图的直径和距离最大的Dij

    要求: 运行时间为o(n)

    2)  数据难以放入内存计算

    解决方法一:将数据存储在磁盘上----外存算法

     

    解决方法二:仅基于少量数据进行计算----空间亚线性算法

    过程如下:

    输入:一组数据,其大小未知

    输出:这组数据的k个均匀抽样

    要求:

        --仅扫描数据一次

        --空间复杂性为O(k)

        --扫描到数据的前n个数字时(n>k),保存当前已扫描数据的k个均匀抽样

    3)  单个计算机难以保存全部数据,计算需要整体数据

    解决方案:并行处理----------并行算法

    介绍如下:

    MapReduce 是由Google公司的Jeffrey Dean 和 Sanjay Ghemawat 开发的分布式编程模型。

    •MapReduce实现了两个主要功能

    –Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集。

    –Reduce是把从两个或更多个Map中,通过多个线程,进程或者独立系统并行执行处理的结果集进行分类和归纳。

    –Map() 和 Reduce() 两个函数可能会并行运行,即使不是在同一的系统的同一时刻。

    *MapReduce模型

    用户定义的MapReduce函数(无状态)

    •输入: 一个key/value对元组的列表 (k1/v1)

        –用户的map函数被应用于每个key/value对

        –产生中间key/value对列表

    •输出: 一个key/value对元组的列表 (k2/v2)

        –中间值基于key值分组

        –用户的reduce函数被应用于每个组

    •每个元组都是独立的

        –可以用分布式大规模并行的方式进行处理

        –总输入能远大于工人的内存

    4)  计算能力不足或知识不足

    解决方法:众包算法

    众包:

        •协调一个群体(互联网上的一大群人)做 “微工作” (每人做一点贡献) 来解决软件或者单个人难以解决的问题

        •通过一系列的机制和方法来指导和协调群体的行为,从而达到目的

    例如:Wikipedia,amazon。

       算法多种多样,但对于大数据算法而言并没有高低之分,就如同厨房里的油盐酱醋一般,并没有地位高低,它们互相发挥着自身的特点,使得厨房能够为我们呈上一道又一道的美食,算法亦如此,各有所长各有所短,取长补短,相互配合才能让大数据最大化的为人们所利用,促使互联网时代更加蓬勃发展,生机盎然。

    三、   大数据的商业应用

    如今大数据的商业应用主要集中在行为标签、智能推荐、管理系统、数据整理与展示以及广告检测智能系统等,国内外大量企业都已经开始或准备开始利用大数据创造新的利润增长点。由此将大数据应用发展到社会的各行各业,小到个人生活,大到企业国家的发展,大数据也逐渐变成了一种极为宝贵的商业资源。

    大数据的商业应用分为八类,城市生活、金融行业、零售行业、农牧业、房地产行业、广告业、医疗行业、互联网技术。其中最引人关注的便是金融行业。大数据在金融行业应用范围较广,典型的案例有花旗银行利用IBM沃森电脑为财富管理客户推荐产品,美国银行利用客户点击数据集为客户提供特色服务。中国金融行业大数据应用开展的较早,但都是以解决大数据效率问题为主,很多金融行业建立了大数据平台,对金融行业的交易数据进行采集和处理。

    金融行业过去的大数据应用以分析自身财务数据为主,以提供动态财务报表为主,以风险管理为主。在大数据价值变现方面,开展的不够深入,这同金融行业每年上万亿的净利润相比是不匹配的。现在已经有一些银行和证券开始和移动互联网公司合作,一起进行大数据价值变现,其中招商银行、平安集团、兴业银行、国信证券、海通证券和TalkingData在移动大数据精准营销、获客、用户体验等方面进行了不少的尝试,大数据价值变现效果还不错,大数据正在帮助金融行业进行价值变现。大数据在金融行业的应用可以总结为以下五个方面:

      (1)精准营销:依据客户消费习惯、地理位置、消费时间进行推荐

      (2)风险管控:依据客户消费和现金流提供信用评级或融资支持,利用客户社交行为记录实施信用卡反欺诈

      (3)决策支持:利用抉策树技术进抵押贷款管理,利用数据分析报告实施产业信贷风险控制

      (4)效率提升:利用金融行业全局数据了解业务运营薄弱点,利用大数据技术加快内部数据处理速度

      (5)产品设计:利用大数据计算技术为财富客户推荐产品,利用客户行为数据设计满足客户需求的金融产品

        大数据已然深入到我们生活的方方面面,互联网时代每天也在发生着翻天覆地的变化,一次又一次的互联网产业的变革都将会主导着整个社会的变革。大数据向我们展示了一个又一个神奇而美好的预测与结果,但是数据的根源依然是人类本身,如果自己能够很好的把握住自己的生活与行为,在加以大数据的分析的参考答案,我们将不断改进和创新,向全世界释放无限的价值,促使人类世界更加美好与便捷。人类自身的命运应由我们自己来掌控,而非麻木的为冰冷机器所主宰。20世纪末,我们迎来了PC互联网时代,5年前我们迎来了移动互联网时代,几年后全新的互联网时代又将向我们走来,未来是科技的,未来是神秘的,每个人都憧憬着更加美好的未来,而当下的人们正在让自己的未来逐渐流失与手心,信息社会是繁华的、廉价的、共享的、同时也是危险的。但凡人们无法控制人性的阴暗面,那么互联网与大数据将会成为一个任人操纵的掠夺工具,正如一年前的电信诈骗案—“徐玉玉案”,犯罪嫌疑人通过非法手段获取了她的所有身份信息以及她的家人的详细信息,之后便骗取了她的大学报名费,导致了受害人伤心欲绝,最终不幸离开人世。社会是多元的,数据是无罪的,但是当我们无法正确的使用这一切时,危险也将越来越近。而网络世界的无尽繁华也同样使得众多青少年丧失自我,例子更是举不甚举。大数据与互联网让我们明白了信息时代的美丽,也同样让我们感到了危机,因为时代飞速发展,思想和知识若是跟不上时代的步伐,日后的生活必定是举步维艰,倘若有心成为人上人,那么就应当务实基础,脚踏实地的学习与做人,在正确的时间做正确的事,未来就在眼前,让我们一起拥抱这个伟大的时代吧!

                                                                                                                     ------------yuhaow【数据库课程小论文】

     
     
     
    好文要顶 关注我 
  • 相关阅读:
    Java实现Labeling Balls(拓扑排序的应用)
    Java实现Labeling Balls(拓扑排序的应用)
    Java实现Labeling Balls(拓扑排序的应用)
    Java实现Labeling Balls(拓扑排序的应用)
    string与QString转换(string既可以是utf8,也可以是gbk)
    Qt4.8.6详细安装步骤(使用了i686-4.8.2-release-posix-dwarf-rt_v3-rev3,手动设置gcc和gdb)非常清楚 good
    qt.network.ssl: QSslSocket: cannot call unresolved function SSLv23_client_method
    小试X64 inline HOOK,hook explorer.exe--->CreateProcessInternalW监视进程创建
    RtlAdjustPrivilege进程提权,权限ID对照表
    jQuery AJAX 网页无刷新上传示例
  • 原文地址:https://www.cnblogs.com/Sunrises/p/7589508.html
Copyright © 2011-2022 走看看