大数据hadoop之最简单理解

zoukankan html css js c++ java

大数据hadoop之最简单理解

干什么？ Hadoop就是存储海量数据和分析海量数据的工具
是什么?Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce（更高性能用的spark,区别类似多进程和多线程）
用什么？重点就是分析海量数据这块，Hadoop-MapReduce 主力语言是 Java ，而 Spark 平等兼容 Java / Scala / Python，性能更高。
为什么？Spark不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark快。

怎么用？Spark 对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称 RDD）。RDD 其实就是分布式的元素集合。在 Spark 中，对数据的所有操作不外乎创建 RDD、转化已有 RDD 以及调用 RDD 操作进行求值。

Hive是一种基于HDFS的数据仓库，它是运行在Hadoop上的SQL接口，降低了MapReduce框架的复杂性。可以初略理解Hive的查询引擎将sql转为MapReduce再去操作HDFS
SparkSQL是Spark的组件，它替代的是Hive的查询引擎（前面说过spark比MR快），不可能替代Hive作为数据仓库的这个功能。

总结需要学什么？SQL语句的使用，以及操作RDD的编程python-RDD（spark支持用Java / Scala / Python等，本人比较熟悉python）。

作者：陈耿聪 —— 夕狱

出处：https://www.cnblogs.com/CGCong/

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

查看全文

相关阅读:
Spring有用功能--Profile、WebService、缓存、消息、ORM
opencv标定程序（改动）
Install Docker Mac OS X
Android eclipse 提示java代码快捷键
 Mac使用Docker-machine訪问docker publish port
决策树之C4.5算法学习
 为ImageView设置背景图片（代码中）
BZOJ 3675 APIO2014 序列切割斜率优化DP
思科模拟器之路由器-RIP-DNS解析server
POJ 3177 Redundant Paths

原文地址：https://www.cnblogs.com/CGCong/p/12330279.html