zoukankan      html  css  js  c++  java
  • 大数据技术学习笔记

    大数据的特点

    Volume、Variety、Velocity、Value

    Variety指数据的多样性。包括异构数据,如存在关系型数据库中的数据;以及非异构数据,如邮件、音/视频、图片、文本等。

    大数据计算模式及代表产品

    大数据计算模式 | 解决的问题 | 代表产品
    批处理计算 | 针对大规模数据的批量处理 | MapReduce、Spark
    流计算 | 针对流数据的实时计算 | Storm、S4、Streams
    图计算 | 针对大规模图结构数据的处理 | Pregel
    查询分析计算 | 大规模数据的存储管理和查询分析 | Hive

    云计算、大数据、物联网的区别与联系

    云计算是指基于互联网将规模化资源池的计算、存储、开发平台和软件能力提供给用户,实现自动化、低成本、快速提供和灵活伸缩的IT服务。云计算是对IT基础设施的整合优化和以服务形式提供IT资源的商业模式(Iaas、Paas、Saas)。AWS、Azure都是一整套完整的云服务产品,其中又细分计算、存储等专门产品。
    大数据是对海量数据的存储、处理、分析,从数据中提取有用信息。
    物联网是万物互联。
    物联网为大数据提供了数据来源,大数据为云计算提供了用武之地。

    Hadoop与Spark

    1. Hadoop 是一种分布式计算平台,用Java编写,可运行在Linux、Windows以及类Unix系统上。包括两个核心技术,HDFS和Mapreduce。HDFS实现数据的分布式存储,MapReduce实现数据的分布式计算(通过Map和reduce两个函数实现)。

    2. Spark 比 MapReduce 快,前者使用内存存储中间结果,后者使用HDFS。

    思考:分布式和集群的区别?集群中每个节点都跑相同的代码,能够处理相同的任务,可以一台作为相应,其他作为处理用,提高单位时间内处理任务的个数。分布式中的所有节点共同处理一个任务,缩短单个任务的处理时间,从而提高效率。

    数据库类型

    1. 关系型数据库是根据表间的索引建立关系,因此叫关系型数据库。代表产品有Oracle、MySQL、DB2。
    2. NoSQL非关系型数据库,四种存储类型:1键值;2文档(JSON格式);3列存储;4图数据库。代表产品有:Redis;CouchDB、Mongodb;HBase;Neo4J。
  • 相关阅读:
    JS基础类型和引用类型
    ul的margin撑不开想要的距离的办法
    html中的列表
    BEM的命名规则
    意义模糊的函数签名……文档注释
    最基础,新手入门第一段代码
    Cookie的使用
    用servlet校验密码2
    用servlet进行用户名和密码校验
    登录页面
  • 原文地址:https://www.cnblogs.com/fortunel/p/10971629.html
Copyright © 2011-2022 走看看