Hadoop基础入门 - 走看看

zoukankan html css js c++ java

Hadoop基础入门
一、hadoop是什么？
　　(1)Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。
　　(2)Hadoop就是一个分布式计算的解决方案。

二、hadoop的应用场景有哪些？　
三、Hadoop各版本特性

　　

四、Hadoop存储模型

　　Hadoop采用hbase做数据库,但由于hbase没有类sql查询方式,所以操作和计算数据非常不方便,于是整合hive,让hive支撑在hbase数据库层面的 hql查询.hive也即做数据仓库。

五、Hadoop的优缺点

　　Hadoop 在处理非结构数据和半结构数据上具备优势，尤其适合海量数据批处理等应用需求。
查看全文

相关阅读:
java容器01--初遇
 java虚拟机（1）--运行时数据区
 java虚拟机（2）--垃圾收集
 java虚拟机（3）--内存分配与回收策略
 java虚拟机（4）--类加载机制
 bash编程的信号捕获：
awk纯干货
 shell中各种括号的作用()、(())、[]、[[]]、{}
find
awk

原文地址：https://www.cnblogs.com/vikezhu/p/6703091.html

Copyright © 2011-2022 走看看