zoukankan      html  css  js  c++  java
  • 《大数据时代》摘录

    本文内容摘自《大数据时代》,浙江人民出版社,2013年1月第1版。

    引言

    大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。这导致了新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop(最初源于雅虎)。P008

    就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和处理海量数据的新技术将帮助我们更好的理解世界。P009

    真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。P010

    大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考,相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。P016

    在不久的将来,世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。P016

    我们大部分的习俗和惯例都建立在一个预设好的立场上,那就是我们用来进行决策的信息必须是少量、精确并且至关重要的。但是,当数据量变大、数据处理速度加快,而且数据变得不那么精确时,之前的那些预设立场就不复存在了。此外,因为数据量极为庞大,最后做出决策的将是机器而不是人类自己。P021

    第一部分 大数据时代的思维变革

    在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力。我们假定自己只能收集到少量信息,结果就真的如此了。这是一个自我实现的过程。P029

    统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。
    认为样本选择的随机性比样本数量更重要,这种观点是非常有见地的。
    当收集和分析数据都不容易时,随机采样就成为应对信息过量的办法。P033

    在宏观领域起作用的方法在微观领域失去了作用。随机采样就像是模拟照片打印,远看很不错,但是一旦聚焦某个点,就会变得模糊不清。P035

    只研究样本而不是整体,有利有弊:能更快更容易地发行问题,但不能回答事先未考虑到的问题。P036

    苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采样了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。这种获得所有数据而不仅是样本的方法将他的生命延长了好几年。P036

    生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节。谷歌流感趋势预测并不是依赖于对随机样本的分析,而是分析了整个美国几十亿互联网检索记录。P037

    大数据中的“大”不是绝对意义上的大,虽然在大多数情况下是这个意思。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。谷歌流感趋势和乔布斯的医生们采取的就是大数据的方法。P039

    据估计,只有5%的数字数据时结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,比如网页和视频资源。通过接受不精确性,我们打开了一个从未踏足的世界的窗户。P064

    如今,据说亚马逊销售额的三分之一都是来自于它个性化的推荐系统。有了它,亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自己风格的书商也难免受转型之风的影响。P070

    相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,其他数据值很有可能也会随之增加。相反,相关关系弱就意味着当一个数据值增加时,其他数据值几乎不会发生变化。P071

    通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了就可以预测A也发生了。P072

    建立在相关关系分析法基础上的预测是大数据的核心。P075

    杜西格《习惯的力量》(The Power of Habit) P078


    第二部分 大数据时代的商业变革

    只要一点想象,万千事物就能转化为数据形式,并一直给我们惊喜。P123

    技术环境的限制使古典经济学家在经济构成的认识上像是戴了一副墨镜,而他们却几乎没有意识到这一点,就像鱼不知道自己是湿的一样。P131

    不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。P132

    数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。P134

    微软只看到了拼写检查作为文字处理这一个目的的价值,而谷歌却理解了其更深层次的价值。不仅利用错别字开发了世界上最好、最新式的拼写检查器来提高搜索质量,而且将其应用于许多其他服务中,如搜索的“自动完成”功能,Gmail、谷歌文档甚至翻译系统。P146

    Udacity、Coursera和EDX等在线教育课程通过跟踪学生的Web交互来寻找最佳的教学方法。班级人数成千上万,产生的数据也十分惊人。P148

    如今,我们很可能认为谷歌和亚马逊等网站是大数据的先驱者,但事实上,政府才是大规模信息的原始采集者,并且还在与私营企业竞争他们所控制的大量数据。P149

    大数据对于公共部门的适用性同对商业实体是一样的:大部分的数据价值都是潜在的,需要通过创新性的分析来释放。P149

    最近有一个想法得到了公认,即提取政府数据价值最好的办法是允许私营部分和社会大众访问。这其实是基于一个原则:国家收集数据时代表的是公民,因此它也理应提供一个让公民查看的入口,但少数可能会危害到国家安全或他人隐私权的情况除外。P149

    公司账面价值和市场价值之间的差额被记为“无形资产”。20世纪80年代中期,无形资产在美国上市公司市值中约占40%,而在2002年,这一数字已经增长为75%。无形资产早期尽包含品牌、人才和战略这些应计入正规金融会计制度的非有形资产部分。但渐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴。P153

    投资者也开始注意到数据的选择价值。拥有数据或能够轻松收集数据的公司,其股价会上涨;而其他不太幸运的公司,就只能眼看着自己的市值缩水。P154

    在大数据时代,数据持有人倾向于从被提取的数据价值中抽取一定比例作为报酬支付,而不是敲定一个固定的数额。这有点类似于出版商从书籍、音乐或电影的获利中抽取一定比例,作为支付给作者和表演者的特许权使用费。P154

    "如果你想成功,你不应该成为一个普通的、可被随意替换的人,你应该成为稀缺的、不可替代的人。" ——谷歌首席经济学家哈尔·范里安(Hal Varian)P161

    所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。P167

    现今,我们正处在大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身来挖掘。只有金子才是真正值钱的。P172

    微软掌握着技术的核心专利,但是它却认为一个独立的小公司可能更容易被接受、更有利于汇聚行业内各方的数据和从知识产权中获利更大。P177

    认为数据自身而不是技术和思维更值钱的想法,在大数据时代的多笔商业交易中都有所体现。2006年,微软以1.1亿美元购买了埃齐奥尼的大数据公司 Farecast。而两年后,谷歌以7亿美元的价格购买了为Farecast提供数据的ITA Softwart公司。P178

    当然,行业专家是不会真正消亡的,只是他们的主导地位会发生变化。未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样。P181

    数学和统计学知识,甚至是有少许编程和网络科学的知识将会成为现代工厂的基础,一如百年前的计算能力或者更早之前的文学。P182

    大部分人往往都通过经验、回忆以及连蒙带猜地做决定。但是,随着管理决策越来越受预测性分析和大数据分析的影响和控制,由直觉做决定的情况将会被彻底改变。P183

    虽然像亚马逊和谷歌一样的行业领头羊会一直保持领先地位,但是和工业时代不一样,它们的企业竞争力并不是体现在庞大的生产规模上。
    公司可以根据实际需要调整它们的计算机技术力量,这样就把固定投入变成了可变投入,同时也削弱了大公司的技术配备规模的优势。P185

    聪明而灵活的小公司能享受到非固有资产规模带来的好处。数据可以授权但是不能被占有,数据分析能在云处理平台上快速而且低成本地运行,而授权费用则应从数据带来的利益中抽取一部分。P187

    第三部分 大数据时代的管理变革

    伴随着从核技术到生物工程学其他领域的发展,人类总是先创造出可能危害自身的工具,然后才着手建立保护自己、防范危险的安全机制。在这方面,大数据也和其他领域的新技术一样,带来了无法彻底解决的挑战。P232

    拥有知识曾意味着掌握过去,现在则更意味着能够预测未来。P239

    我们寻找原因的想法可能被高估了,很多情况下,弄清楚是什么比找寻为什么更加重要,因为前者表明事实才是我们生活和思维的基础。它们可能没有答案;相反,它们是关于人在宇宙中的位置以及在喧嚣混乱、不可理喻的世界中寻找意义这一永恒争论的一部分。P239

    ……我们之所以能做所有这些事,新工具只是个很小的因素,无论是更快的处理器、更多的存储器,还是更智能的软件和算法。这些固然重要,但是更为根本的原因是我们拥有了更多的数据,继而世界上更多的食物被数据化了。P241

    没有什么是上天注定的,因为我们总能就手中的信息制定出相应的对策。大数据预测结果也并非铁定,而只是提供了一种可能性,也就是说,只要我们愿意,结局可以改写。我们可以判断出迎接未来的最佳方式,摇身变做未来的主人。P245

    大数据提供的不是最终答案,只是参考答案,为我们提供暂时的帮助,以便等待更好的方法和答案出现。这也提醒我们在使用这个工具的时候,应当怀有谦恭之心,铭记人性之本。P247(完)

  • 相关阅读:
    shell进行mysql统计
    java I/O总结
    Hbase源码分析:Hbase UI中Requests Per Second的具体含义
    ASP.NET Session State Overview
    What is an ISAPI Extension?
    innerxml and outerxml
    postman
    FileZilla文件下载的目录
    how to use webpart container in kentico
    Consider using EXISTS instead of IN
  • 原文地址:https://www.cnblogs.com/geekham/p/2923192.html
Copyright © 2011-2022 走看看