zoukankan      html  css  js  c++  java
  • 大数据技术原理与应用——大数据概述

    这篇博文里的好多内容之前在读《大数据时代》时读到过,所以就算是补上的读书笔记?


    信息科技为大数据时代提供技术支撑

      1.存储设备容量不断增加

      2.CPU处理能力大幅提升

      3.网络带宽不断增加


     数据产生方式的变革促成大数据时代的来临

      1.运营式系统阶段

      2.用户原创内容阶段

      3.感知式系统阶段


     大数据的概念

      关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的四个特点,包含四个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)


    大数据对科学研究的影响

      1.第一种范式:实验科学:最初的科学研究阶段,人类采用实验来解决一些科学问题。

      2.第二种范式:理论科学:随着科学的进步,人类开始采用数学、几何、物理等理论,构建问题模型和解决方案。

      3.第三种范式:计算科学:计算科学主要用于对各个科学问题进行计算机模拟和其他形式的计算。

      4.第四种范式:数据密集型科学:在大数据环境下,一切将以数据为中心,从数据中发现问题、解决问题,真正体现数据的价值。


     大数据对思维方式的影响

      1.全样而非抽样

      2.效率而非精确

      3.相关而非因果


     大数据关键技术

      当人们谈到大数据的时候,往往并非仅指数据本身,而是数据和大数据技术这二者的结合。所谓大数据技术,是指伴随着大数据的采集、存储、分析和应用的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的一系列数据处理和分析技术。

      讨论大数据技术时,首先需要了解大数据的基本处理流程,主要包括数据采集、存储、分析和结果呈现等环节。数据无处不在,互联网网站、政务系统、零售系统、办公系统、自动化生产系统、监控摄像头、传感器等,每时每刻都在不断产生数据。这些分散在各处的数据,需要采用相应的设备或软件进行采集。采集到的数据通常无法直接用于后续的数据分析,因为对于来源众多、类型多样的数据而言,数据缺失和语义模糊等问题是不可避免的,因而必须采取相应的措施有效解决这些问题,这就需要一个被称为“数据预处理”的过程,把数据变成一个可用的状态。数据预处理以后,会被存放到文件系统或数据库系统中进行存储与管理,然后采用数据挖掘工具对数据进行处理分析,最后采用可视化工具为用户呈现结果。在整个数据处理过程中,还必须注意隐私保护和数据安全等问题。

      因此,从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。


     大数据计算模式

      大数据处理的问题复杂多样,单一的计算模式是无法满足不同类型的计算需求的,MapReduce只是大数据计算模式中的一种,它代表了针对大规模数据的批量处理技术,除此之外,还有查询分析计算、图计算、流计算等多种大数据计算模式。

      1.批处理计算:批处理计算主要解决针对大规模数据的批量处理,也就是我们日常数据分析工作中非常常见的一类数据处理需求。

      2.流计算:流数据是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。

      3.图计算:在大数据时代,许多大数据都是以大规模图或网络的形式呈现的,如社交网络、传染病传播途径、交通事故对路网的影响等,此外,许多非图结构的大数据也常常会被转换为图模型后再进行处理分析。

      4.查询分析:针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能更好地满足企业经营管理需求。


    大数据与云计算、物联网

      1.云计算

        云计算的概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核心、以低成本为目标、动态可扩展的网络应用设施,是近几年最有代表性的网络计算技术与模式。

        云计算的关键技术:

        (1)虚拟化:虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提升计算机的工作效率。

        (2)分布式存储:面对“数据爆炸”的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储应运而生。

        (3)分布式计算:面对海量数据,传统的单指令单数据流顺序执行的方式已经无法满足快速数据处理的要求,同时,我们也不能寄希望于通过硬件性能的不断提升来满足这种需求,因为晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律已经开始慢慢失效。

        (4)多租户:多租户技术目的在于使大量用户能够共享同一堆栈软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。

      2.物联网

        物联网的概念:物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

        物联网关键技术:

        (1)识别和感知技术:二维码、RFID、传感器等。

        (2)网络与通信技术:蓝牙、WiFi、互联网、2G/3G/4G移动网路等。

        (3)数据挖掘与融合技术:物联网中存在大量数据来源、各种异构网络和不同类型系统,如此大量的不同类型数据,如何有效整合、处理和挖掘,是物联网处理层需要解决的关键技术问题。今天云计算和大数据技术的出现,为物联网数据存储、处理和分析提供了强大的技术支撑,海量物联网数据可以借助庞大的云计算基础设施实现廉价存储,利用大数据技术实现快速处理和分析,满足各种实际应用需求。

      3.大数据与云计算、物联网的关系

        云计算为大数据提供了技术基础,大数据为云计算提供用武之地。

        物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑。

        云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间。


  • 相关阅读:
    Golang之字符串格式化
    BZOJ 4513: [Sdoi2016]储能表 [数位DP !]
    BZOJ 3329: Xorequ [数位DP 矩阵乘法]
    BZOJ 1833: [ZJOI2010]count 数字计数 [数位DP]
    HDU2089 不要62 BZOJ1026: [SCOI2009]windy数 [数位DP]
    未完
    [Miller-Rabin & Pollard-rho]【学习笔记】
    BZOJ 3551: [ONTAK2010]Peaks加强版 [Kruskal重构树 dfs序 主席树]
    BZOJ 3123: [Sdoi2013]森林 [主席树启发式合并]
    BZOJ 3545: [ONTAK2010]Peaks [Splay启发式合并]
  • 原文地址:https://www.cnblogs.com/baojianxin/p/9291355.html
Copyright © 2011-2022 走看看