zoukankan      html  css  js  c++  java
  • 第一章 为什么我们对机器学习感兴趣?(六)

    注:本书属作者免费翻译,如有版权问题,请联系我删除。如有转载,请注明出处。

    六、所有这些数据:数据地震

    所有电脑化机器和服务所产生的数据曾经都是数字化技术的副产品,计算机科学家已经对数据库进行了大量研究以有效的存储和处理海量数据。因为我们不得不存储数据。过去二十年的某个时候,这些数据变成了一种资源,现在,更多的数据是一件幸事。

    例如,想想一家连锁超市,每天通过全国各地的实体店或是网上虚拟商店,向数以百万计的顾客销售成千上万的商品。数字化的销售终端记录了每笔交易的细节:数据,客户ID(通过一些忠诚度计划),购买的商品和价格,花费的总金额等等。商店联网之后,所有商店的终端数据都可以即时收集到中央数据库中。这样每天可以积累大量(并且非常新的)数据。

    特别是过去二十年左右,人们开始越来越多的思考如何使用这些数据。关注如何使用数据的话,计算机应用的整个方向就颠倒过来了。以前是程序处理数据、产生数据—数据是被动的。而考虑如何使用数据时,数据就开始驱动操作,下一步该做什么,已经不是由程序员而是由数据本身来定义了。

    连锁超市最想了解哪个顾客有可能购买哪种商品。这样,超市就可以更高效的存货,增加销售额并提高利润水平。这也将提升客户满意度,因为客户可以更快地找到最符合他们要求的更便宜的商品。

    不过这项任务并不是显而易见的。我们并不十分确切的了解,哪些人可能会购买这种口味的冰淇淋或是这个作者的下一本书,会看这部新电影,会来这座城市旅游。顾客的行为会随时间发生变化,也会取决于其所处的地理位置。

    但是也并不是没有希望,因为我们发现顾客的行为并不是完全随机的。人们并不是随机去超市购物。他们购买啤酒时也会买薯条;夏天他们购买冰淇淋,冬天购买添加到Gluhwein(德国圣诞节传统的饮料,是一种混合红酒,即在红酒中加入丁香、肉桂等香料和糖)中的香料。客户行为存在一定的模式,这就是数据发挥作用的地方。

    虽然我们不了解客户行为模式,但我们希望可以从收集来的数据中发现它。如果我们可以从过去的数据中发现这些行为模式,那么在未来,至少不远的将来,客户的行为模式不会有太大的变化。我们可以预期这些行为模式将继续保持下去,并且可以基于这些模式进行一些预测。

    我们可能无法完全识别这个过程,但是我们可以构建一个良好、有用的近似值。这种近似值也许无法解释所有的数据,但仍可能解释部分数据。我们认为尽管不太可能识别完整的过程,但仍然可以检测到一些模式。我们可以使用这些模式进行预测,这些模式也可能帮助我们理解这个过程。

    这种建立近似值的过程被称作数据挖掘。打个比方,大量的泥土和原材料从矿山中挖掘出来,经过处理后,会产生少量非常珍贵的材料。同样在数据挖掘中,通过处理大量数据,构建一个有使用价值的简单模型,例如具有高度的预测准确性。

    数据挖掘也是机器学习的一种。我们不知道(客户行为的)规则,所以无法编写程序,但是机器-也就是计算机-通过从(客户交易)数据中提取客户的行为规则来进行学习。

    拥有大量数据而不知数据中的规则,这样的情况随处可见。企业中使用计算机和数字技术就意味着各个领域都有大量的数据生成。在日常社交生活中,我们也使用电脑或智能机器,所以也会生成大量数据。

    学习模型用于模式识别,例如用于识别摄像机捕获的图像或识别麦克风捕获的语音。如今,从识别人的行为(使用智能手机)到汽车驾驶辅助系统,不同类型的应用场景使用不同的感应器。

    科学是数据的另一个来源。随着我们研发更好的传感器,我们会检测更多-就是在天文学、生物学、物理学和其他方面获得更多的数据,我们使用学习算法来理解越发庞大的数据。互联网本身就是一个巨大的数据存储库,我们需要智能算法帮助我们寻找想要的东西。

    今天我们所拥有的数据的一个重要特征就是其形态不同 – 来自多媒体。我们有文本、图像或视频、声音片段等,它们都与我们感兴趣的同一对象或事件有关。今天机器学习一个主要挑战就是合并这些不同来源的信息。例如,分析消费者数据时,除了过去交易外,我们还有Web日志-即一个用户最近访问的网页-这些日志可能会提供很多信息。

    智能机器的数量增多,对我们的日常生活帮助很大。

  • 相关阅读:
    CCF NOI1121 逆波兰表达式
    Vijos P1217 乒乓球【模拟+输入输出】
    Vijos P1304 回文数【回文+进制】
    NUC1041 数字三角形【DP】
    CCF NOI1070 汉诺塔游戏
    CCF NOI1069 分解因数
    CCF NOI1149 N皇后问题
    CCF NOI1153 素数环
    CCF NOI1170 质因数分解
    POJ NOI MATH-7832 最接近的分数
  • 原文地址:https://www.cnblogs.com/superjulia/p/9680689.html
Copyright © 2011-2022 走看看