zoukankan      html  css  js  c++  java
  • Hadoop01

    Bigdata:

        结构化数据:有严格约束

        半结构化数据:

        非结构化数据:没有元数据

    搜索引擎:搜索组件+索引组件(存放数据 由蜘蛛程序爬取而来)

    2003年 Google发表第一篇论文 The Google File System 解决大量数据存储

    GFS文件系统 系统阐述了采取商业计算机集群就是普通x86系类的服务器的主机集群来完成定型的或分布式的方式高效的存储海量数据 它的设计支持大规模数据密集型的分布程序运行 可以扩展到成千上万个节点 这个平台为流式数据的应用进行了优化因此特别适用存储之后读取数据并完成处理操作 不支持随机访问

    2004年 Google发表了另一篇论文 MapReduce:Simplified Data Processing On Large Cluster 系统阐述了 MapReduce编程模型及其运行机制

    MapReduce是一个能够将某个处理任务给分割成任务单元而后并行运行于集群中的各节点上,并且收集各节点的运行结果做二次处理 二次并行运行直至得到最终结果为止的一个TB 甚至PB集数据并行处理分析框架。程序=代码+数据

    2006年:BigTable: A Distributed storage System for structure Data 用于存储结构化数据的分布式存储系统叫BigTable

    Hadoop就是三个论文的山寨版,用Java语言开发

        The Google File System <==> HDFS

        MapReduce <==> MapReduce

        A Distributed storage System for structure Data <==> HBase

        Hadoop=HDFS+ MapReduce

        HBase

        Nutch 网络爬虫程序 开源搜索引擎的实现

    Hadoop有一个缺陷 :MapReduce是批处理程序(主要受限于它的存储和工作机制,所以使得他的工作速度和处理性能非常差)

  • 相关阅读:
    POJ1741 Tree
    BZOJ3674 可持久化并查集加强版
    BZOJ3673 可持久化并查集 by zky
    BZOJ3174 [Tjoi2013]拯救小矮人
    BZOJ2733 永无乡【splay启发式合并】
    AtCoder Grand Contest 007 E:Shik and Travel
    BZOJ2599:[IOI2011]Race
    AtCoder Regular Contest 063 E:Integers on a Tree
    SPOJ1825:Free Tour II
    AtCoder Grand Contest 012 C:Tautonym Puzzle
  • 原文地址:https://www.cnblogs.com/azuressy/p/11369854.html
Copyright © 2011-2022 走看看