一、大数据两大核心技术
- 分布式存储:解决海量数据的存储问题。
- 分布式处理:解决海量数据的处理问题。
- 分布式数据库:BigTable
- 分布式文件系统:GFS
- 分布式并行处理技术:MapReduce
二、大数据计算模式
- 批处理
- 实时计算
- 交互式计算
- 批处理计算:MapReduce是批处理计算模式的典型代表,但MapReduce无法进行高效的迭代计算,spark可以。
- 流计算:storm/S4/Flume/Streams/Puma/DStream/SuperMario/银河流处理平台等。
- 图计算:Google Pregel/Giraph/PowerGraph/Hama/GoldenOrb等。
- 查询分布计算:Google Dremel/Hive/Cassandra/Impala等。
三、云计算典型特征
- 虚拟化
- 多租户
四、云计算服务
- IaaS(面向网络架构师):基础设施即服务。
- PaaS(面向应用开发者):平台即服务。
- SaaS(面向用户):软件即服务。
五、物联网关键技术
- 识别技术
- 感知技术
六、Hadoop项目两大核心
- 分布式核心系统→HDFS
- MapReduce:分布式并行编程框架
七、Hadoop版本
- 1.0版本:0.20x,0.21x,0.22x
- 2.0版本:0.23x,2.x
备注:2.0版本对MapReduce进行分解,将资源调度框架单独抽出来整合成YARN框架,MapReduce只负责进行数据处理。