课程目标
1、能独立熟练完成Hadoop的安装及熟悉Hadoop的配置与管理.
2、熟练地在Hadoop和操作系统以及关系型数据库之间传递数据.
3、能独立指定数据集成方案
4、
Google的低成本之道
- 不使用超级计算机,不使用存储(淘宝的去i,去e,去o之路)
- 大量使用普通的PC服务器(去掉机箱、外设、硬盘),提供冗余的集群服务
- 全世界多个数据中心,有些附带发电厂
- 运营商向Google倒付费
Google面对的数据和计算难题
- 大量的网页怎么存储
- 搜索算法
- Page-Rank计算问题
Google带给我们的关键技术和思想
- GFS
- Map-Reduce
- Bigtable
Hadoop体系下的分析手段
- 主流:Java程序
- 轻量级的脚本语言:Pig
- SQL技巧平稳过度:Hive
- NoSQL:HBase
推荐书籍
Hadoop分布式实战