一、概述
what is apache hadoop?
The apache Hadoop project develops open-source software for reliable, scalable, distributed computing.
解决问题:
1、海量数据的存储(HDFS)
2、海洋数据的分析(MapReduce)
hadoop具体能干什么?
1、日志分析;facebook用Hive进行日志分析,yahoo使用hadoop的pig进行垃圾邮件识别和过滤,以及用户特征建模;