zoukankan      html  css  js  c++  java
  • 什么是机器学习

    啤酒尿布

    沃尔玛根据它每天记录的大量的客户消费数据进行分析,发现了,购买了啤酒的顾客更可能同时购买尿布。所以他们把尿布和啤酒放到一块,结果大幅度的提高了这两者的销售额。

    购买尿布和购买啤酒看上去毫无关系,但是通过用户购物数据作为样本发现了其中的关联和规律,对于沃尔玛而言无需知道规律背后的本质,只需要发现这个规律就可以大幅度的提升销售额,这就足够了。

    其实机器学习的核心思想也大概如此,就是让计算机程序随着数据样本的积累,可以自动获取精确的判断和归纳能力。

    可以把我们要进行分析的数据叫做训练集,把现象归纳的过程叫训练

    在啤酒尿布的故事中,沃尔玛使用的是一种叫Apriori的算法,可以用来挖掘关联数据中的频繁项集,也就是找寻数据集合的内在联系

    另外我们还知道瑞雪兆丰年的故事,也就是劳动人民通过大量的现象进行分析,如果下了雪,很大程度上明年就是一个丰年。

    瑞雪兆丰年和啤酒尿布有本质的区别

    • 瑞雪兆丰年是对一个新现象进行结果预测

    • 啤酒尿布是对相关性的挖掘。

    下图是对两个故事的流程进行归纳。

    对于瑞雪兆丰年来说,可以根据多年的降雪与来年的丰收情况进行分析,通过某种算法进行训练,然后得到规律也即假设模型

    根据降雪情况推断出下一年的收成情况,这就是回归

    image.png

    对于啤酒尿布属于完全不一样的机器学习类型,只需要找出关联关系,并不需要回归。

    image.png

    所以这两种其实是完全不同的机器学习方法。

    我们可以按照方式不同分为三类:

    • 有监督学习(supervised learning)
      也就是已经有了一部分输入数据和数据数据之间的对应关系,可以生成一个函数,可以通过输入获得输出。
      比如瑞雪兆丰年,头年的降雪量就是输入,来年产量就是输出。
    • 无监督学习:直接对输入进行建模,寻找关联。
      比如啤酒尿布只需要寻找相关性,不需要目标输出。
    • 半监督学习:
      就是上面两种方法综合起来。我们可以对有输入输出的数据+只有输入的数据进行综合分析

    image.png

    参考

    本文为什么是机器学习的笔记

    也可以参见简书主页:https://www.jianshu.com/u/482f183ec380
  • 相关阅读:
    学习笔记8:《大型网站技术架构 核心原理与案例分析》之 固若金汤:网站的安全架构
    学习笔记8:《大型网站技术架构 核心原理与案例分析》之 随需应变:网站的可扩展架构
    13 集合
    12 泛型程序设计
    11 异常, 日志, 断言和调试
    10 部署应用程序和applet
    08 事件处理
    06 接口与内部类
    05 继承
    04 对象与类
  • 原文地址:https://www.cnblogs.com/dy2903/p/8425888.html
Copyright © 2011-2022 走看看