zoukankan      html  css  js  c++  java
  • 机器学习基本概念

    1. 机器学习的定义

    [Mitchell, 1997]对机器学习给出了一个形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

    2. 机器学习的基本概念

    1. 特征向量(feature vector):特征向量是样本的特征属性的集合。
    2. 标记(label):标记是一个模型要输出的目标。
    3. 维数(dimensionality):维数代表数据特征向量的维度。
    4. 样本空间(sample space):样本空间代表某个问题的所有可能性的集合。
    5. 训练样本(training sample):训练样本是一条用来训练的数据,包括一些用来输入的特征向量和一个输出的标记
    6. 训练集(training set):训练集是一个包含多条训练样本的集合。
    7. 测试样本(testing sample):测试样本和训练样本类似,不过测试样本是用来测试用的。
    8. 测试集(testing set):测试集是一个包含多条测试样本的集合。
    9. 训练(training):训练是通过训练数据,模型进行学习的过程。
    10. 测试(testing):测试是用来评判模型好坏的过程。
    11. 预测(prediction):预测是用来使用模型对未见过的数据进行分类或回归的过程。
    12. 监督学习(supervised learning):监督学习是带有标记的问题。
    13. 无监督学习(unsupervised learning):无监督学习是不带有标记的问题。
    14. 分类(classification):标签值只有有限个类别的问题。
    15. 回归(regression):标签值有无限个值的问题。
    16. 分布(distribution):所有的样本都是服从自己的一种未知分布,我们的任务是采样的时候尽量让训练样本分布和未知分布相同,这样训练出来的模型才会有比较好的泛化能力。
    17. 独立同分布(iid,independent and identically distributed):指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布

    3. 基本原则

    • 奥卡姆剃刀(Occam’s Razor):若有多个假设与观察一致,则选择最简单的一个。
    • 没有免费的午餐(No Free Lunch Theorem, NFL):没有一种算法比随机胡猜的效果好。
    • NFL定理意义在于, 脱离具体问题,空范的谈论什么算法更好,没有意义!必须针对具体的学习问题,探讨算法的相对优劣。
      学习算法的归纳偏好是否和问题相匹配,往往起到决定性的作用。
  • 相关阅读:
    一个神奇的类库,可以执行字符串表达式
    Common lang一些边界方法总结(好记性不如烂笔头,需要慢慢积累).一定要利用好现有的轮子,例如Apache common与Google Guava
    借助强大的IDEA开发ide高效实现equals,hashcode以及toString方法
    数字签名是什么?
    字符串组合
    空格替换
    字符串替换 (replace)
    为什么要区分稳定和非稳定排序
    算法稳定性
    华为2018校招技术岗笔试
  • 原文地址:https://www.cnblogs.com/huangyc/p/9686071.html
Copyright © 2011-2022 走看看