zoukankan      html  css  js  c++  java
  • Hadoop学习笔记(1)

    Doug Cutting

    Lucene(索引引擎)---Nutch(搜索Data抓取)---Hadoop

    1997:Lucene

    2003:GFS

    2004:NDFSMapReduceNutch

    2006: (Yahoo! Facebook NewYorkTimes) Hadoop

    2008: HBase Zookeeper  Mahout

    2009: Pig Hive

    Hadoop生态系统:

    Common、HDFS、MapReduce

    Avro:序列化;

    Zookeeper:统一一致性;

    Hive:数据仓库;

    HBase:BigTable 结构化数据

    Mahout:数据挖掘

    X-Rtime:社会网络

    Sqoop(SQL to Hadoop)

    OOzie:工作流引擎(有向无环)

    Pig、Crosslow、Ivory、Chukwa+Flume

    Java语言关键字:代码同步synchronized,见:http://www.cnblogs.com/dorothychai/p/4172040.html

    JAXP(Java API for XML Processing)

    SAX:解析大文件

    DOM:一次性读入内存

    静态方法,如何访问非静态方法或元素:通过静态媒介

    Hadoop源码关于配置文件的类中,包含两类resource和defaultResourses分别用来加载资源和默认资源(资源代表配置文件),加载后并非立刻将配置文件中的资源加载到properties和finalParameters中,而是通过调用loadResource。

    addDefaultResource通过静态成员REGISTRY(记录了系统内的所有Configuration对象,每个Configuration对象在创建初就把自己添加到REGISTRY中)来加载。

    Hadoop的配置文件支持XInclude机制:配置文档中包含其他的配置文档。

    Hadoop序列化框架(Hadoop Avro),Apache Thrift,Google Protocol Buffer等。

    Hadoop支持的压缩格式包括:gzip zip bzip LZO

    Hadoop通过抽象工厂方法提供可扩展的框架

  • 相关阅读:
    Editor REST Client
    log配置
    spring-boot-configuration-processor
    http请求
    做项目用到的一些正则表达式,贴出来共享
    批量插入的实现
    sql执行顺序对比
    Java常用的并发工具类:CountDownLatch、CyclicBarrier、Semaphore、Exchanger
    spring中bean的生命周期
    多属性的对象列表的两种排序方法
  • 原文地址:https://www.cnblogs.com/dorothychai/p/4173944.html
Copyright © 2011-2022 走看看