zoukankan      html  css  js  c++  java
  • 机器学习-周志华-第一章

    绪论

    1.1 引言

    什么是机器学习?

    它是一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的一门学科。所研究的主要内容是计算机如何通过数据产生模型,即学习算法。有了学习算法后,当我们给它提供经验数据时就能基于这些数据产生模型。在面对新数据时学习算法会给我们相应的判断。经验通常以数据的形式存在

    名词理解

    模型:一类问题的解题步骤

    算法:一个问题的解题步骤

    学习算法:由数据产生的一类问题的解题步骤。通过学习算法从数据中获得模型

    ps:阿尔法狗零自学三天以100:0战胜阿尔法狗。这里阿尔法狗零利用人类经验提升自身能力,这就是机器学习

    1.2 基本术语

    数据集

    示例

    属性、特征

    属性空间、样本空间、输入空间:数据的维度空间

    特征向量:

    学习、训练:从数据中学得模型的过程

    训练数据:训练过程中使用的数据

    训练样本:

    训练集:多个训练样本的集合

    假设:学到的模型

    真相:数据某种潜在的规律

    标记:示例的结果信息

    样例:有标记信息的示例

    标记空间、输出空间:(x,y),y:所有标记的集合

     分类:预测值是离散的学习任务

    二分类:只涉及两个类别的分类

    多分类:

    回归:预测值是连续的学习任务

    聚类:将训练集中的示例分组

    监督学习:训练数据中拥有标记信息的学习任务 。如分类和回归

    无监督学习:训练数据中不包含标记信息的雪人任务;如聚类 

    泛化能力:学得模型适用于新样本的能力

    1.3  假设空间

    科学推理两大基本手段:归纳和演绎

    归纳:从特殊到一般的泛化过程,即从具体事实归纳出一般性规律。从样例中学习,显然是一个归纳过程,也称归纳学习

    演绎:从一般到特殊的特化过程,即从基础原理推演出具体状况。例如在数学中,由一组公理推到出定理,这就是演绎

    归纳学习有广义和狭义之分

    广义归纳学习基本是从样例(带有标记信息的训练数据)中学习

    狭义归纳学习要求从训练数据中学得概念,称为概念学习。概念学习技术目前研究和应用都比较少

    由概念学习学得概念,由概念得知假设空间。图1.1 西瓜问题的假设空间

    整个学习过程:概念学习学得好瓜概念,可以得出好瓜可能的组合,再根据样例数据排除非好瓜的组合,最好得出好瓜的假设

    版本空间:一组与训练集一致的假设 如何求取版本空间

    求取版本空间:版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。

    1.4 归纳偏好

    当学得模型(多个)面临新样本时,产生不同的输出,这样的学习结果是没有意义的。在产生不同输出时必须选择一个更信赖的模型,这就是归纳偏好。一个有效的学习算法,必须有归纳偏好。大多数时候归纳偏好直接决定了学习算法能否取得好的性能

     归纳偏好原则:

    奥卡姆剃刀(occam's razor):若有多个假设与与观察一致,选择最简单的

     没有免费午餐定理(no freee lunch theorem 简称NFL定理 ):若A算法在某些问题上比B算法要好,那必然存在在某些问题上B算法比A算法要好。即没有一个算法试用于任何情况。NFL最重要的寓意是让我们清楚的认识到,脱离具体问题空谈什么学习算法更好是没有意义的。因为若考虑所有潜在问题NFL已经证明了所有算法一样好。

    问题:

    为什么概念学习中使用样例数据?按照狭义归纳学习应该使用训练数据

    课后习题:完整答案 

    1.1

    先看看版本空间定义,文章写得不错

    版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。

    解:

    假设空间指的是问题所有假设组成的空间,我们可以把学习过程看作是在假设空间中搜索的过程,搜索目标是寻找与训练集“匹配”的假设。

    假设数据集有n种属性,第i个属性可能的取值有titi种,加上该属性的泛化取值(*),所以可能的假设有∏i(ti+1)∏i(ti+1)。再用空集表示没有正例,假设空间中一共∏i(ti+1)+1∏i(ti+1)+1种假设。
    现实问题中常面临很大的假设空间,我们可以寻找一个与训练集一致的假设集合,称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。


    编号 色泽 根蒂 敲声 好瓜
    1 青绿 蜷缩 浊响 是
    2 乌黑 稍蜷 沉闷 否
    数据集有3个属性,每个属性2种取值,一共 3∗3∗3+1=283∗3∗3+1=28种假设,分别为

    1.色泽=青绿 根蒂=蜷缩 敲声=浊响
    2.色泽=青绿 根蒂=蜷缩 敲声=沉闷
    3.色泽=青绿 根蒂=稍蜷 敲声=浊响
    4.色泽=青绿 根蒂=稍蜷 敲声=沉闷
    5.色泽=乌黑 根蒂=蜷缩 敲声=浊响
    6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷
    7.色泽=乌黑 根蒂=稍蜷 敲声=浊响
    8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷
    9.色泽=青绿 根蒂=蜷缩 敲声=*
    10.色泽=青绿 根蒂=稍蜷 敲声=*
    11.色泽=乌黑 根蒂=蜷缩 敲声=*
    12.色泽=乌黑 根蒂=稍蜷 敲声=*
    13.色泽=青绿 根蒂=* 敲声=浊响
    14.色泽=青绿 根蒂=* 敲声=沉闷
    15.色泽=乌黑 根蒂=* 敲声=浊响
    16.色泽=乌黑 根蒂=* 敲声=沉闷
    17.色泽=* 根蒂=蜷缩 敲声=浊响
    18.色泽=* 根蒂=蜷缩 敲声=沉闷
    19.色泽=* 根蒂=稍蜷 敲声=浊响
    20.色泽=* 根蒂=稍蜷 敲声=沉闷
    21.色泽=青绿 根蒂=* 敲声=*
    22.色泽=乌黑 根蒂=* 敲声=*
    23.色泽=* 根蒂=蜷缩 敲声=*
    24.色泽=* 根蒂=稍蜷 敲声=*
    25.色泽=* 根蒂=* 敲声=浊响
    26.色泽=* 根蒂=* 敲声=沉闷
    27.色泽=* 根蒂=* 敲声=*
    28.空集Ø
    编号1的数据可以删除 2−8,10−12,14−16,18−20,22,24,26,282−8,10−12,14−16,18−20,22,24,26,28(不包含数据1)
    编号1的数据可以删除 2727(包含了数据2)
    所以版本空间为:
    1.色泽=青绿 根蒂=蜷缩 敲声=浊响
    9.色泽=青绿 根蒂=蜷缩 敲声=*
    13.色泽=青绿 根蒂=* 敲声=浊响
    17.色泽=* 根蒂=蜷缩 敲声=浊响
    21.色泽=青绿 根蒂=* 敲声=*
    23.色泽=* 根蒂=蜷缩 敲声=*
    25.色泽=* 根蒂=* 敲声=浊响
    一般情况下版本空间是正例的泛化,但由于数据集中只有1个正例,所以在版本空间中依然包含了这个样本的假设(假设1)。
    ---------------------
    作者:四去六进一
    来源:CSDN
    原文:https://blog.csdn.net/icefire_tyh/article/details/52065224
    版权声明:本文为博主原创文章,转载请附上博文链接!

    1.2

    析取范式 合取范式的概念  https://baike.baidu.com/item/%E6%9E%90%E5%8F%96/2841171?fr=aladdin

    析取:逻辑或运算,并集;符号:∨

    合取:逻辑与运算,交集;符号:∧

    范式:范式为各种千变万化的命题公式提供了一个统一(规范)的表达形式

    简单析取式:有限个文字构成的析取式

    简单合取式:有限个文字构成的合取式

    析取范式:有限个简单合取式构成的析取式

    合取范式:有限个简单析取式构成的合取式

  • 相关阅读:
    Linux设备模型 学习总结
    平衡二叉树
    数字在排序数组中出现的次数
    两个链表的第一个公共节点
    第一个只出现一次的字符
    丑数
    把数组排成最小的数
    剑指offer 连续子数组的最大和
    查找描述信息中包括robot的电影对应的分类名称以及电影数目,而且还需要该分类对应电影数量>=5部
    for each
  • 原文地址:https://www.cnblogs.com/lfxiao/p/9900160.html
Copyright © 2011-2022 走看看