Google 每天处理约 20000TB 的数据

zoukankan html css js c++ java

Google 每天处理约 20000TB 的数据

Google 热衷于处理全球的信息，每天，他们花费大量时间探索更好的信息整理技术，他们目前使用的技术为 MapReduce，这是一种可以对数据进行并发处理的软件架构。鉴于其简单性与处理大规模数据的能力，MapReduce 是 Google 日常数据处理的完美技术方案。

Google 的数据整理实验一直以每 TB 数据表现为基准。这些标准话实验帮助 Google 理解和对比不同技术的优秀劣，并获得经验和教训，以改进下一代数据处理技术。

目前，Google 的每 TB 数据处理能力为，在1000台计算机中处理 1TB 数据的时间为68秒（使用 Google File System 将 1TB 数据保存在100亿个 100 字节的非压缩文本文件中），以前的表现为 910 台电脑 209秒。

但 Google 要处理的数据远超过 TB 级，因此，Google 做了 PB 级数据处理实验。1PB 数据是 1TB 的1000倍，或者，形象一点说，1PB 数据相当于 2008 年5月，美国国会图书馆存档的 Web 数据的 12 倍。2008年1月的统计结果显示，Google 每天处理的数据为平均为 20PB,相当于 20000TB。在 4000 台计算机中处理 1PB 数据花费6小时领2分钟。

有一个有趣的问题，就是，如何保存这么多数据。Google 将这些数据保存在 48000 个硬盘中（每个只利用了部分空间），每次进行数据整理，至少有一个硬盘坏掉（鉴于处理的时长，硬盘的数目和硬盘本身的寿命，这并不奇怪），因此，为了保证数据安全，Google 将每份数据都在不同的硬盘上写三份。

感谢：jude_liu

查看全文

相关阅读:
JavaScript简单的日历
 CSS动画实现滚动播放
 视频弹窗自动播放关闭停止
 简单通过js实现轮播图
 switch case的应用
 显示、隐藏
 .container的应用
 用CSS对HTML进行初始化设置
 CSS Id 和 Class选择器
 给文字添加阴影效果

原文地址：https://www.cnblogs.com/xred/p/2249684.html