大数据协作框架
第一个问题:hdfs存放的海量数据,数据来源是什么?
现实数据来源两个方面
* RDBMS(Oracle、Mysql,DB2...) > sqoop(SQL to HADOOP)
* 文件(apache、nginx日志数据...) > Flume(实时抽取数据)
第二个问题:分析任务JOB,数量很多,如何调度任务?
* 企业使用oozie
第三个问题:hadoop 2.x生态系统中的有很多重要框架,如何监控?
* Hue(统一WEB UI界面,管理框架、监控框架)