zoukankan      html  css  js  c++  java
  • 周志华《机器学习》版本空间

    初步理解:
    1,数据输入模型后会形成一个假设空间(包含所有可能输入的样本)。
    2,然后通过 训练数据,抽取 那些和训练数据 特征相匹配的假设,就得到了版本空间。版本空间就是训练后的模型。
     
    3,如果预测的 数据A 是版本空间里没有匹配到,那么就会返回false。
    4,如果数据A是true,但是模型预测错了呢? 那么就把数据A 打上true的标签 放到模型里进行训练,更新版本空间。
     
    转自:https://www.zhihu.com/question/40237283/answer/92414386
     
    版本空间定义:
    版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合。
    对于二维空间中的“矩形”假设(上图),绿色加号代表正类样本,红色小圈代表负类样本。 GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary), SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary). GB与SB所围成的区域中的矩形即为版本空间中的假设,也即GB与SB围成的区域就是版本空间。
    在一些需要对假设的泛化能力排序的情形下,就可以通过GB与SB这两个上下界来表示版本空间。在学习的过程中,学习算法就可以只在GB、SB这两个代表集合上操作。


    表1.1的训练数据集对应的假设空间应该如下:
    1 色泽=*,根蒂=*,敲声=*
    2 色泽=青绿,根蒂=*,敲声=*
    3 色泽=乌黑,根蒂=*,敲声=*
    4 色泽=*,根蒂=蜷缩,敲声=*
    5 色泽=*,根蒂=硬挺,敲声=*
    6 色泽=*,根蒂=稍蜷,敲声=*
    7 色泽=*,根蒂=*,敲声=浊响
    8 色泽=*,根蒂=*,敲声=清脆
    9 色泽=*,根蒂=*,敲声=沉闷
    10 色泽=青绿,根蒂=蜷缩,敲声=*
    11 色泽=青绿,根蒂=硬挺,敲声=*
    12 色泽=青绿,根蒂=稍蜷,敲声=*
    13 色泽=乌黑,根蒂=蜷缩,敲声=*
    14 色泽=乌黑,根蒂=硬挺,敲声=*
    15 色泽=乌黑,根蒂=稍蜷,敲声=*
    16 色泽=青绿,根蒂=*,敲声=浊响
    17 色泽=青绿,根蒂=*,敲声=清脆
    18 色泽=青绿,根蒂=*,敲声=沉闷
    19 色泽=乌黑,根蒂=*,敲声=浊响
    20 色泽=乌黑,根蒂=*,敲声=清脆
    21 色泽=乌黑,根蒂=*,敲声=沉闷
    22 色泽=*,根蒂=蜷缩,敲声=浊响
    23 色泽=*,根蒂=蜷缩,敲声=清脆
    24 色泽=*,根蒂=蜷缩,敲声=沉闷
    25 色泽=*,根蒂=硬挺,敲声=浊响
    26 色泽=*,根蒂=硬挺,敲声=清脆
    27 色泽=*,根蒂=硬挺,敲声=沉闷
    28 色泽=*,根蒂=稍蜷,敲声=浊响
    29 色泽=*,根蒂=稍蜷,敲声=清脆
    30 色泽=*,根蒂=稍蜷,敲声=沉闷
    31 色泽=青绿,根蒂=蜷缩,敲声=浊响
    32 色泽=青绿,根蒂=蜷缩,敲声=清脆
    33 色泽=青绿,根蒂=蜷缩,敲声=沉闷
    34 色泽=青绿,根蒂=硬挺,敲声=浊响
    35 色泽=青绿,根蒂=硬挺,敲声=清脆
    36 色泽=青绿,根蒂=硬挺,敲声=沉闷
    37 色泽=青绿,根蒂=稍蜷,敲声=浊响
    38 色泽=青绿,根蒂=稍蜷,敲声=清脆
    39 色泽=青绿,根蒂=稍蜷,敲声=沉闷
    40 色泽=乌黑,根蒂=蜷缩,敲声=浊响
    41 色泽=乌黑,根蒂=蜷缩,敲声=清脆
    42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷
    43 色泽=乌黑,根蒂=硬挺,敲声=浊响
    44 色泽=乌黑,根蒂=硬挺,敲声=清脆
    45 色泽=乌黑,根蒂=硬挺,敲声=沉闷
    46 色泽=乌黑,根蒂=稍蜷,敲声=浊响
    47 色泽=乌黑,根蒂=稍蜷,敲声=清脆
    48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷
    49 Ø

    图1.1下面的那段话描述了学习的过程:
    搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。

    按照上述过程进行学习:
    (1,(色泽=青绿、根蒂=蜷缩、敲声=浊响),好瓜)
    可以删除假设空间中的3、5、6、8、9、11-15、17-21、23-30、32-49
    (2,(色泽=乌黑、根蒂=蜷缩、敲声=浊响),好瓜)
    可以删除剩余假设空间中的2、10、16、31
    (3,(色泽=青绿、根蒂=硬挺、敲声=清脆),坏瓜)
    可以删除剩余假设空间中的1
    (4,(色泽=乌黑、根蒂=稍蜷、敲声=沉闷),坏瓜)
    剩余假设空间中无可删除的假设

    学习过后剩余的假设为
    4 色泽=*,根蒂=蜷缩,敲声=*
    7 色泽=*,根蒂=*,敲声=浊响
    22 色泽=*,根蒂=蜷缩,敲声=浊响
    这就是最后的“假设集合”,也就是“版本空间”。
  • 相关阅读:
    POJ-2528 Mayor's posters 线段树 离散化
    POJ 3468 A Simple Problem with Integers 线段树区间修改
    CodeForces
    POJ3208 Apocalypse Someday 数位DP经典绝世好题
    CodeForces114 Double Happiness 数论 二次筛法 bitset的应用
    P3146 [USACO16OPEN]248 G 区间DP 暴力DP
    【Python学习】requests短连接
    【Windows学习】免登录和自动登录
    【Linux学习】expect远程下载和上传样例
    【Linux学习】软件包管理-wget,rpm,yum,apt-get
  • 原文地址:https://www.cnblogs.com/HL-blog/p/9405048.html
Copyright © 2011-2022 走看看