zoukankan      html  css  js  c++  java
  • 【技术与商业案例解读笔记】095:Google大数据三驾马车笔记

     1.谷歌三驾马车地位

    【关键词】开启时代,指明方向

    聊起大数据,我们通常言必称谷歌,谷歌有“三驾马车”:谷歌文件系统(GFS)、MapReduce和BigTable。谷歌的“三驾马车”开启了大数据时代,并为我们指明了大数据的发展方向。

    2.谷歌三驾马车诞生
    (1)诞生时间

    【关键词】2010、2003、2004、2006
    大数据在2010年开始有火起来的苗头,谷歌三驾马车诞生更早。谷歌文件系统第一次公开发表的论文是在2003年,MapReduce公开发表的时间是2004年,而BigTable则公开发表于2006年。
    (2)诞生背景

    【关键词】海量存储、倒排索引、增量更新

    三驾马车”,主要是为谷歌的核心搜索业务服务的。谷歌搜索业务,需要存储整个互联网的内容,并且要在这个内容的基础上构建倒排索引。

    谷歌文件系统:基于大量的廉价个人计算机的海量存储系统,它可以轻松地存储整个互联网的内容。

    MapReduce:海量数据计算引擎,是Google第一代倒排索引基础,它可以大规模并行地处理整个互联网上的所有文档。有天然缺陷,每次更新索引需全量更新所有索引,耗时几天,新的信息更新不及时。

    BigTable:一个键值存储系统,可存储一个主键的不同时期的多个版本的值。使用互联网地址作为某个BigTable的主键,只更新那些值已经发生变化的互联网地址,可实现增量更新索引。


    Tips:倒排索引是对互联网内容的一种索引方法,是指从搜索词到对应的互联网文档的索引方法。用户可以通过搜索词去搜索互联网,返回的则是和搜索词相关的文档。之所以称为倒排索引,是因为文档到文档里面的词是顺序的,而从文档里面的词到文档是逆序的。

    3.个性化广告推荐服务

    【关键词】互联网模式,用户隐私数据分析

    三驾马车其它应用,最著名的是个性化广告推荐业务。首创了流行互联网模式“羊毛出在狗身上,猪来买单”。
    具体来说,谷歌通过提供免费的互联网服务,比如搜索、邮箱、地图等(狗),然后记录并分析用户的使用习惯,有针对性地为用户提供个性化的广告推荐服务(羊毛),企业广告主来买单。
    个性化推荐实现,主要是利用谷歌对用户隐私数据的分析。谷歌文件系统和BigTable用来存储和记录用户的隐私信息和产品使用情况,MapReduce用来分析海量数据。

    4.技术封闭

    【关键词】技术封闭, hadoop崛起,一无所获

    个性化广告推荐业务这种互联网模式非常赚钱,但只有Google具备这样的强大数据存储、分析和处理能力,而且它也没有打算开放这些独家技术。雅虎和Facebook,觉得凭借一己之力很难做到,于是开始抱团取暖,与众多互联网公司联合打造了后来闻名于世的Hadoop生态圈,并让Hadoop成为事实上的标准。谷歌自此彻底丧失了在大数据时代的先发优势,后来谷歌对外提供的云服务也不得不和这个Hadoop生态圈兼容。

    谷歌在大数据上,可谓“起个大早,赶个晚集”。它给大家指明了方向,最后确一无所获。

    参考文档

    谷歌的大数据路:从“三驾马车”到一无所有

  • 相关阅读:
    【Element UI】el-tooltip组件(提示消息) 换行
    复合文件CFB的存储结构及格式解析
    luogu P3801 红色的幻想乡 |容斥+树状数组
    luogu P3602 Koishi Loves Segments |堆+离散化贪心
    luogu P2048 [NOI2010] 超级钢琴 |堆+RMQ
    钉钉机器人使用注意事项
    k8s-部署
    docker 总结
    Navicat15最新版本破解 亲测可用!!!(Navicat Premium 注册出现 No All Pattern Found! File Already Patched)
    继续开始web的学习
  • 原文地址:https://www.cnblogs.com/badboy200800/p/9834528.html
Copyright © 2011-2022 走看看