zoukankan      html  css  js  c++  java
  • 概述

    机器学习致力于如何通过计算手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”的形式出现。

    基本术语

    • 样本:在数据集合中的每条数据就称为一个样本。
    • 属性/特征:反应样本在某方面的表现或者性质
    • 属性空间/样本空间/输入空间:指的是某一特征下取值的范围。
    • 输出空间:表示样例的分类的种类等。
    • 学习/训练:通常指从数据中学到模型的过程。
    • 任务的分类
      • 分类任务:输出空间为离散值。比如,好坏瓜用0,1表示。
      • 回归任务:输出空间为连续值。比如,好瓜用概率表示。
    • 学习任务
      • 监督学习:训练数据拥有标记信息,比如训练任务有标记好瓜和坏瓜。
      • 无监督学习:训练数据没有标记信息。
    • 泛化能力:模型能够正确处理没有在训练样本中样本的能力。

    假设空间

    • 归纳:从特殊到一般的“泛化”过程,从具体的事实归结出一般性规律。
    • 从一般到特殊的“特化”过程,既从基础原理推演出具体情况。
    • 归纳学习:
      • 广义归纳学习:从样本中学习
      • 狭义归纳学习:从训练集中学习。

    学习过程看做一个所有假设组成的空间中进行搜索的过程,搜索的目标是找到与训练集”匹配“的假设。如果假设的表示一旦确定了,则假设空间的大小和规模就确定了。
    比如判断一个瓜是否是好瓜的假设,其中瓜的属性为(色泽, 根蒂,敲声)如果,色泽,根蒂,敲声分别有3,2,2种取值的可能。则假设空间的规模大小为(3+1)(2+1)(2+1)+1=37。下面可以直观的表示假设空间:

    可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊, 或是自底向上、从特殊到一般,搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果.

    • 版本空间:有很多个假设与训练集一致,既存在着一个与训练集一致的”假设集合“。则称之为“版本空间”。

    归纳偏好

    机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称“偏好”。
    注意:任何一个有效的机器学习算法读必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。如果没有偏好,本质上在进行预测试时随机抽选训练集上的等效假设。这样的话,如果是预测数据,那么学到的模型的几次调用会出现不同的结果。
    奥卡剃刀:如果有多个假设与观察一致,则选择最简单那个。
    结论:样本空间X和假设空间H都是离散的。令(P(h|X,M_{a}))代表算法(M_{a})基于训练数据产生假设h的概率,令f代表希望学习的真实目标函数。则算法(M_{a})算法的误差为:

    [E_{ote}(M_{a}|X,f)=sum_{h}{sum_{x属于预测集}{P(x)I((h(x)!=f(x))P(h|X,M_a)}} ]

  • 相关阅读:
    VMware Workstation 卸载时卡在“正在卸载网络驱动程序(Virtual Network Editor夯死)”
    Windows 开启 winrm
    【Git】error: RPC failed; HTTP 413 curl 22 The requested URL returned error:413 Request Entity Too Large
    tricks
    MySQL 5.7原生通用二进制格式安装包安装过程
    WebSnapshotsHelper(HTML转换为图片)
    使用两个zTree,调用一个onCheck函数,分别展开不同的节点
    修改Sql Server字段类型
    添加一条公告并标记为已读
    优化部门人员加载缓慢
  • 原文地址:https://www.cnblogs.com/ALINGMAOMAO/p/15022453.html
Copyright © 2011-2022 走看看