zoukankan      html  css  js  c++  java
  • 数据基础(笔记一)

    一、大数据两大核心技术

    1. 分布式存储:解决海量数据的存储问题。
    2. 分布式处理:解决海量数据的处理问题。
    • 分布式数据库:BigTable
    • 分布式文件系统:GFS
    • 分布式并行处理技术:MapReduce

    二、大数据计算模式

    1. 批处理
    2. 实时计算
    3. 交互式计算
    • 批处理计算:MapReduce是批处理计算模式的典型代表,但MapReduce无法进行高效的迭代计算,spark可以。
    • 流计算:storm/S4/Flume/Streams/Puma/DStream/SuperMario/银河流处理平台等。
    • 图计算:Google Pregel/Giraph/PowerGraph/Hama/GoldenOrb等。
    • 查询分布计算:Google Dremel/Hive/Cassandra/Impala等。

    三、云计算典型特征

    1. 虚拟化
    2. 多租户

    四、云计算服务

    1. IaaS(面向网络架构师):基础设施即服务。
    2. PaaS(面向应用开发者):平台即服务。
    3. SaaS(面向用户):软件即服务。

    五、物联网关键技术

    1. 识别技术
    2. 感知技术

    六、Hadoop项目两大核心

    1. 分布式核心系统→HDFS
    2. MapReduce:分布式并行编程框架

    七、Hadoop版本

    1. 1.0版本:0.20x,0.21x,0.22x
    2. 2.0版本:0.23x,2.x

    备注:2.0版本对MapReduce进行分解,将资源调度框架单独抽出来整合成YARN框架,MapReduce只负责进行数据处理。

  • 相关阅读:
    Oracle2MySQL数据校验
    MySQL物理删除大表文件的方式
    MySQL恢复误删除的ibd文件
    如何下载MySQL企业版数据库
    C++篇之成员函数注册为回调函数
    Java入门篇
    日常收藏之Linux篇
    实现简单网页rtmp直播:nginx+ckplayer+linux
    网络通信之accept函数简述
    网络通信之bind、listen函数简述
  • 原文地址:https://www.cnblogs.com/libinhyq/p/15246146.html
Copyright © 2011-2022 走看看