zoukankan      html  css  js  c++  java
  • 初识Hadoop

    1.概念

    Hadoop 是一个能够对大量数据进行分布式处理的软件框架。

    Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

    Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。

    Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

    Hadoop是Apache软件基金会所研发的开放源码并行运算编程工具和分散式档案系统,根据Google公司发表的MapReduce和Google档案系统的论文,自行实作而成。

    • Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common
    • HDFS: Hadoop 分布式文件系统 (Distributed File System) - HDFS (Hadoop Distributed File System)
    • MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API
  • 相关阅读:
    Word批量转PDF或者图片
    sqlite3数据c/c++接口编程<linux,window>
    静态库和动态库
    QT信号和槽
    C程序编译过程
    Volatile关键字
    端口复用setsockopt
    深入理解epoll(转载)
    临时变量
    json学习随笔
  • 原文地址:https://www.cnblogs.com/yhlx125/p/3619387.html
Copyright © 2011-2022 走看看