Hadoop发展简史
Hadoop 是Apache Lucene 创始人Doug Cutting 创建的, Lucene 是一个广泛使用的
文本搜索系统库。Hadoop 起源于Apache Nutch ,一个开源的网络搜索引擎, 它本
身也是Lucene 项目的一部分。
hadoop项目如下:
Common
一组分布式文件系统和通用I10 的组件与接口(序列化、Java RPC 和持久化数据结构)。
Avro
一种支持高效、跨语言的RPC 以及永久存储数据的序列化系统。
MapReduce
分布式数据处理模型和执行环境,运行于大型商用机集群。
HDFS
分布式文件系统,运行于大型商用机集群。
Pig
一种数据流语言和运行环境,用以检索非常大的数据集。Pig 运行在 MapReduce 和HDFS 的集群上。
Hive
一个分布式、按列存储的数据仓库。Hive 管理HDFS 中存储的数据,并提供基于SQL 的查询语言(由运行时引擎翻译成MapReduce 作业)用以查询数据。
HBase
一个分布式、按列存储数据库。HBase 使用HDFS 作为底层存储,同时支持MapReduce 的批量式计算和点查询(随机读取)。
ZooKeeper
一个分布式、可用性高的协调服务。ZooKeeper 提供分布式锁之类的基本服务用于构建分布式应用。
Sqoop
在数据库和HDFS 之间高效传输数据的工具。
mapreduce
Hadoop可以运行由各种语言(如:Java,C++,Ruby,Python等)编写的MapReduce程序。
MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段。每个阶段都以键/值对作为输入和输出,并由程序员选择它们的类型。需要定义两个函数:map函数和reduce函数。
map函数的输出经由MapReuce框架处理后,最后被发送到reduce函数,这一处理过程中需要根据键对键/值对进行排序和分组。