zoukankan      html  css  js  c++  java
  • 机器学习总结之第一章绪论

    1.2基本术语

    特征向量:即示例,反映事件或对象在某方面的性质。例如,西瓜的色泽,敲声。

    属性:例如 青绿 乌黑 清脆。

    数据集:例如(色泽=青绿,根蒂=蜷缩,敲声=浊响),(色泽=浅白,根蒂=硬挺,敲声=清脆),(色泽=乌黑,根蒂=稍蜷,敲声=沉闷)……

    例如,D = {X1X2,……,Xm}表示包含m个示例的数据集。

    Xi = (xi1xi2;……;xid)每个示例有d个属性表述。

    标记:预测结果信息,例如((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜)。好瓜则为标记。

    标记的集合,亦称:标记空间,输出空间。

    样例:拥有标记信息的示例。用(xi,yi)表示样例。

    分类:预测是离散值。例如:好瓜,坏瓜。

    回归:预测的是连续值。例如:西瓜的成熟度0.89,0.37。输出空间y=R(实数集)

    二分类:分正类,反类。样本空间--->输出空间 输出空间 = {+1-1} {0,1}

    多分类:|输出空间y|>2

    聚类:分成若干组

    监督学习:回归,分类。

    无监督学习:聚类。

    独立同分布:样本服从一个未知的分布,获得的每个样本呢都是独立的从这个分布上采样获得的。

    1.3假设空间

    归纳学习:广义--->从样例中学习

              狭义:从训练数据中学得概念。

    概念学习:(色泽=)^(根蒂=)^(敲声=)

    假设空间:若色泽,根蒂,敲声,各有3种可能取值。

    假设空间大小规模:4*4*4+1=653+1=4 的两个加1都是是通配符的情况。

     

    对假设空间自顶向下搜索,即训练。

    版本空间:多个假设与训练集一致,即存在着一个与训练集一致的假设集合。

     

    1.4归纳偏好

    我的理解:当在现有的模型中,出现新的样本,既可以归为正类,也可以归为反类。我们设定一个优先级,根据这个偏好去归纳。

    奥卡姆剃刀:若有多个假设与观察一致,选最简单的那个。例如曲线A的描述方程要比B简单的多。自然偏好A

     

    此时剃刀不适用。

     

    假设样本空间和假设空间都是离散的.代表算法基于训练数据X产生假设h的概率,再令f代表我们学习的真实目标函数。的”训练集外误差”,即在训练集外的所有样本上的误差为

     

    上面式中所有可能性之和自然是为1。

    在问题出现的机会相同,所有问题同等重要,对于任意两个学习算法,其总误差相等,期望性能相同。

    脱离具体问题谈算法的好坏无意义。

  • 相关阅读:
    百万级数据库优化方案
    MySQL架构及优化原理
    性能优化建议
    索引
    sql语句优化(持续更新)
    sql语句优化原理
    常用命令
    常见问题
    三、范围和生命周期
    【UVa】[11582]Colossal Fibonacci Numbers!
  • 原文地址:https://www.cnblogs.com/kuotian/p/6141728.html
Copyright © 2011-2022 走看看