zoukankan      html  css  js  c++  java
  • Hadoop在业界的使用情况

    淘宝

    总容量9.3PB, 利用率77.09%

    •  总共1100台机器

    •  Master:8CPU(HT),48G内存,SAS Raid

    •  Slave节点异构

    – 8CPU/8CPU(HT)

    – 16G/24G内存

    – 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD

    – 12/20 slots

    •  约18000道作业/天, 扫描数据:约500TB/天

    •  用户数474人, 用户组38个

    基于0.19.1

    •  大量Patch

    – 主要来自官方社区0.19.2, 0.20, 0.21等, 少部分自己开发

    •  Hadoop客户端和服务端代码开发分离, 云梯管理员只负责服务端升级, 并保持版本向下兼容

    以上数据是淘宝数据平台的周敏在2009年9月发布的。

    但是最近关注阿里的2012年技术分享,已经看到一些数据的更新:

    规模:2000 台

    总数据量30PB

    数据每天增长100T

    每天的集成/挖掘任务数100K

    每天提交的分析任务数10K

    百度

    百度从07年开始使用Hadoop做离线处理,目前有80%的Hadoop集群用作日志处理,目前百度的Hadoop服务器规模是1万多台,已经超过了Yahoo和Facebook.

    百度的服务器大部分是价格在两到三万元左右的,标配12个1TB硬盘,32GB内存,没有RAID卡,没有采用高端的服务器。

    百度的目标是10万节点,而且需要充分考虑跨机房部署的问题”

    参考: http://www.cxybase.com/201105/hadoop-%E8%A7%A3%E5%86%B3%E6%96%B9%E6%A1%88/

     

    Facebook

    Facebook主要将Hadoop平台用于日志处理、推荐系统和数据仓库等方面。

    2010年Facebook的Hive-Hadoop 集群拥有超过2250台机器和23000个核心,数据容量超过36PB,大部分任务通过Hive完成,每天有超过25000个Hive Jobs在运行。

    目前Facebook Hadoop集群内的HDFS物理磁盘空间承载超过100PB的数据(分布在不同数据中心的100多个集群,一个集群是100个节点)。

     

    以上资料是本人于2012年7月收集。

  • 相关阅读:
    RestTemplate的异常:Not enough variables available to expand
    WebApplicationContext类的作用
    select动态绑定vue.js
    spring的 @Scheduled的cron表达式
    Spring使用webjar
    ThreadLocal基本原理及运用
    mybatis choose标签的使用
    @RequestBody和@RequestParam区别
    js遍历 for-of
    MySql 模糊查询
  • 原文地址:https://www.cnblogs.com/ggjucheng/p/2608773.html
Copyright © 2011-2022 走看看