zoukankan      html  css  js  c++  java
  • 机器学习笔记-----01绪论

    1.1 引言

    生活中,我们经常会运用经验做出一些预判,比如小时候看见蚂蚁搬家就会推测即将下雨,晚上星空璀璨的话第二天一般都会阳光普照......这些都是我们人类利用自己的经验来完成的,那么这份工作计算机可以做吗?

    机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,且在计算机系统中,“经验”通常是以“数据”的形式存在的。

    机器学习的主要内容,是关于在计算机上从数据中产生“模型(model)”的算法,即学习算法(learning algorithm)。

    PS:如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究“关于算法”的学问。

    学习算法的作用:1.基于提供的经验数据产生模型

    2.面对新情况时,模型可提供相应的判断。

    模型:泛指从数据中学得的结果。

    学习器:学习算法在给定数据和参数空间上的实例化。

    1997年,Mitchell给出了一个更形象化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

    1.2 基本术语

    数据集(data set):数据记录的集合

    示例(instance)/样本(sample):数据集中的每条记录,即关于一个事件或对象的描述(有时整个数据集也称为一个“样本”)

    特征向量(feature vector):将属性作为坐标轴,通过属性值可以在N维空间中找到自己的坐标位置,由于空间中的每个点对应了一个坐标向量,故也将一个示例称为一个特征向量。

    属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项

    属性值(attribute value):属性上的取值

    属性空间(attribute space)/样本空间(sample space)/输入空间:属性张成的空间

    学习(learning)/训练(training):从数据中心学得模型的过程

    训练数据(training data):训练过程中使用的数据

    训练样本(training sample):训练过程中的每个样本

    训练集(training set):训练样本组成的集合

    假设(hypothesis):学得模型对应了关于数据的某种潜在的规律

    真相/真实(ground-truth):潜在规律自身

    分类(classification):预测的是离散值

    回归(regression):预测的是连续值

    “二分类”(binary classification):只涉及两个类别的任务(正类(positive class)+反类(negative class))

    “多分类”(multi-class classification):涉及多个类别的任务

    测试(testing):学得模型后,使用其进行预测的过程

    测试样本/测试示例/测试例

    根据训练数据是否拥有标记信息,学习任务大致可以划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类则是后者的代表。

    泛化(generalization)能力:学得模型适用于新样本的能力

    1.3 假设空间

    归纳(induction)与演绎(deduction)是科学推理的两大基本手段

    归纳是从特殊到一般的“泛化”(generalization)过程,即从具体的事实归结出一般性规律;演绎是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。

     学习过程看作一个在所有假设组成的空间中进行搜素的过程,搜索目标是找到与训练集“匹配”的假设。

    假设空间:机器学习中可能的函数构成的空间称为“假设空间”

    版本空间:一个与训练集一致的“假设集合”

    1.4 归纳偏好

    归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好

    任何一个有效的机器学习算法必有其归纳偏好

    “奥克姆剃刀”原则:“若有多个假设和观察一致,则选最简单的那个”

    注意:奥克姆剃刀并非唯一可行的原则;奥克姆剃刀本身存在不同的诠释

    “没有免费的午餐”定理(NFL定理):总误差与学习算法无关

    注意:脱离具体问题,空泛的谈论“什么学习算法更好”,毫无意义。

    *难点分析

    假设空间的规模问题

    1. 某一属性值无论取什么都合适,我们用通配符“*”来表示。

    2. 世界上没有,我们用“”来表示。

    书中例子为西瓜,为判断西瓜的好坏,其属性有三种,即:色泽、根蒂、敲声。

    这三种属性分别有3、3、3种可能取值,但假设空间的规模却是4×4×4+1=65。

    这是因为,在假设空间中,属性的“无论取什么属性值都合适”也是一种属性值,而不是作为单一属性的3种可能取值的集合存在。

    因为假设空间是机器学习中可能的函数构成的空间,“无论取什么属性值都合适”意味着这个函数与这一属性无关。

    例如,如果西瓜的三个属性取值都是“无论取什么属性值都合适”,那么无论什么瓜,都是好瓜。而不是3×3×3=27个种类的瓜的集合,并不需要依次判断,需要的判断仅仅是——它是瓜。

    所以其假设空间为:

    {青绿,乌黑,浅白,*}×{蜷缩,稍蜷,硬挺,*}×{浊响,清脆,沉闷,*}+1(没有“好瓜”的定义)=65

  • 相关阅读:
    六种常见排序算法的自我研究(冒泡排序,选择排序,快速排序,归并排序,插入排序,堆排序)
    设计模式学习总结(二)工厂模式
    SQL Server Reporting Service(SSRS) 第七篇 常见错误汇总
    SQL Server Reporting Service(SSRS) 第六篇 SSRS 部署总结
    设计模式学习总结(一)简单工厂模式
    设计模式学习总结(三)抽象工厂模式
    设计模式学习总结(四)单例模式
    SQL Server覆盖索引--有无包含列对数据库查询性能的影响分析
    Dev Express Report 学习总结(八)Dev Express Reports 常见问题总结
    docker命令笔记
  • 原文地址:https://www.cnblogs.com/zhuoning/p/11490665.html
Copyright © 2011-2022 走看看