zoukankan      html  css  js  c++  java
  • 机器学习基本概念1

      • 1.1引言
        • 机器学习所研究的主要内容
          • 关于在计算机上从数据中产生“模型”(学习器)的算法,即“学习算法”
        • 机器学习是研究关于“学习算法”的学问
      • 1.2基本术语
        • 学得模型前
          • 数据集(data set)
            • 一组记录的集合
          • 示例(instance)/样本(sample)
            • 数据集中每条关于一个事件或对象的描述的记录
          • 属性(attribute)/特征(feature)
            • 反映事件或对象在某方面的表现和性质的事项。例如:西瓜的色泽
          • 属性值(attribute value)
            • 属性的取值称为属性值。例如:西瓜的色泽=‘乌黑’
          • 属性空间(attribute space)/样本空间(sample space)/输入空间
            • 属性张成的空间。例如:西瓜的色泽、根蒂、敲声张成的三维空间,每个西瓜都可以在该三维空间找到自己的位置
          • 坐标向量/特征向量(feature vector)
            • 在属性空间里面,每个点对应一个坐标向量,因此每一个示例都称为一个坐标向量
          • 维数
            • 每个示例可以由多个属性描述这个示例,属性的数目一般用d表示,则d称为样本的“维数”
        • 学得模型中
          • 学习(learning)/训练(training)
            • 从数据中学得模型的过程
          • 训练数据(training date)
            • 训练过程中使用的数据
          • 训练样本(training sample)
            • 训练数据中的每个样本
          • 训练集(training set)
            • 训练样本的集合
          • 标记(label)
            • 关于示例结果的信息
          • 样例(example)
            • 拥有标记信息的示例
          • 标记空间(label space)/输出空间
            • 所有标记的集合,不是样例的集合
          • "二分类"任务,通常其中一个类为正类(positive class),另一个类为反类(negative class);
          • 涉及多个类别时,则称为多分类任务
        • 学得模型后
          • 测试(testing)
            • 学得模型后,使用其进行预测的过程。注意和学习/训练分开,被测试的样本称为“测试样本”
          • 回归
            • 预测的值是连续值。例如:西瓜的成熟度,0.95、0.37等等
          • 分类
            • 预测的值是离散值。例如:只有好瓜坏瓜(不是连续的值)
          • 聚类(clustering)
            • 将训练集中的西瓜分为若干组,每组称为一个簇
          • 学习任务
            • 我们可以根据训练数据是否拥有标记信息来分为监督学习(supervised learning)和无监督学习(unsupervised learning)
            • 分类和回归常用于监督学习,聚类常用于无监督学习
          • 泛化
            • 学得模型适用于新样本的能力
      • 1.3假设空间
        • 归纳
          • 从特殊到一般的泛化过程,即从具体的事实归结除一般性规律
        • 演绎
          • 从一般到特殊的特化过程,即从基础原理推演出具体状况
      • 1.4归纳偏好
        • 尽可能特殊
          • 意义就是适用的情形尽可能少
        • 尽可能一般
          • 意义就是适用的情形尽可能多
        • 归纳偏好/偏好
          • 机器学习算法在学习过程中国对某种类型假设的偏好
          • 任何一个有效的机器学习算法必有归纳偏好
        • 奥卡姆剃刀
          • 是一般性的原则,用来引导算法确立“正确的”偏好
          • 一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观测一样,则选最简单的那个”
        • 在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否取得较好的性能
         
  • 相关阅读:
    Openstack 通过 SQLAlchemy-ORM 访问数据库
    ulimit -c unlimited
    ajax 调用后台接口示例
    读书有什么用——北漂18年(番外篇三)
    zTree点击文字勾选复选框
    深度剖析 | 基于大数据架构的BI应用
    深度剖析 | 基于大数据架构的BI应用
    AngularJS之对话框
    AngularJS之依赖注入(实例一)
    AngularJS之$watch方法(监控动作)
  • 原文地址:https://www.cnblogs.com/xiaoqing-ing/p/15070730.html
Copyright © 2011-2022 走看看