Hadoop在业界的使用情况

zoukankan html css js c++ java

Hadoop在业界的使用情况

淘宝

总容量9.3PB, 利用率77.09%

• 总共1100台机器

• Master：8CPU(HT)，48G内存，SAS Raid

• Slave节点异构

– 8CPU/8CPU(HT)

– 16G/24G内存

– 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD

– 12/20 slots

• 约18000道作业/天, 扫描数据：约500TB/天

• 用户数474人, 用户组38个

基于0.19.1

• 大量Patch

– 主要来自官方社区0.19.2, 0.20, 0.21等, 少部分自己开发

• Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容

以上数据是淘宝数据平台的周敏在2009年9月发布的。

但是最近关注阿里的2012年技术分享，已经看到一些数据的更新：

规模：2000 台

总数据量30PB

数据每天增长100T

每天的集成/挖掘任务数100K

每天提交的分析任务数10K

百度

百度从07年开始使用Hadoop做离线处理，目前有80%的Hadoop集群用作日志处理，目前百度的Hadoop服务器规模是1万多台，已经超过了Yahoo和Facebook.

百度的服务器大部分是价格在两到三万元左右的，标配12个1TB硬盘，32GB内存，没有RAID卡，没有采用高端的服务器。

百度的目标是10万节点，而且需要充分考虑跨机房部署的问题”

参考: http://www.cxybase.com/201105/hadoop-%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88/

Facebook

Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。

2010年Facebook的Hive-Hadoop 集群拥有超过2250台机器和23000个核心，数据容量超过36PB，大部分任务通过Hive完成，每天有超过25000个Hive Jobs在运行。

目前Facebook Hadoop集群内的HDFS物理磁盘空间承载超过100PB的数据（分布在不同数据中心的100多个集群,一个集群是100个节点）。

以上资料是本人于2012年7月收集。

查看全文

相关阅读:
再提一个建议，不过就要辛苦dudu了
 项目中的小项目实现在望
 Visual Studio.Net 技术Tip
IQueryable与foreach的困惑？
[转贴]浅析大型网站的架构
 [原创]WCF入门级使用教程(转载请注明出处)
[原创]在msmq3.0中使用http协议发送消息
 [转贴][WCF Security] 4. 用户名/密码身份验证
 [转贴][WCF Security] 1. 基本概念
 [转]在SQL Server2005中进行错误捕捉

原文地址：https://www.cnblogs.com/ggjucheng/p/2608773.html

Hadoop在业界的使用情况

淘宝

百度

Facebook