机器学习基础基本术语

zoukankan html css js c++ java

机器学习基础基本术语
机器学习绪论

基本术语

基础
- 模型：泛指从数据中学得的结果
- 数据集 data set：一组记录的集合
- 示例 instance/样本 sample：关于一个事件或对象的描述
- 属性 attribute/特征 feature：反映事件或对象在某方面的表现或性质的事项
- 属性值 attribute value：属性上的取值
- 属性空间 attribute space/样本空间 sample space：属性张成的空间即 $n$ 个特征描述出的 $n$ 维空间
- 特征向量 feature vector：每个示例在空间中的坐标向量
- $D={\{\vec{x_1},\vec{x_2},\cdots,\vec{x_m}\}}$：包含 m 个样本的数据集
- $\vec{x_i}=(x_{i1};x_{i2};\cdots;x_{id})$：$d$ 维样本空间 ${\chi}$ 中的一个向量，${\vec{x_i}}{\in}{\chi}$
- 输入空间：一个样本所有特征的集合
- $x_{ij}$：$\vec{x_i}$在第 $j$ 个属性上的取值，后期可能会用 $\vec{X}$ 展示
- $d$：${\vec{x_i}}$ 的“维数 dimensionlity”
- 学习 learning/训练 training：从数据中学得模型的过程
- 训练数据 training data：训练过程中使用的数据
- 训练样本 training sample：训练中的每个样本
- 假设 hypothesis：学习模型对应了关于数据某种潜在的规律
- 真相/真实 ground-truth：潜在规律自身
- 学习器 learner：模型
- 预测 prediction：获得训练样本的“结果”信息
- 标记 label：样本结果的信息
- 样例 example：拥有标记信息的样本
- $(x_i,y_i)$：第 $i$ 个样例，$y_i\in{\vec{Y}}$ 是示例 $x_i$ 的标记，$\vec{Y}$ 是所有标记的集合
- 标记空间 label space/输出空间：所有标记的集合
监督学习 supervised learning
- 分类 classification：预测结果是离散值的学习任务
- 回归 regression：预测结果是连续值的学习任务
- 二分类 binary calssification：涉及两个类别
- 正类 positive class 和反类 negative class：“二分类”中的两个类别
- 多分类 multi-class classification：涉及多个类别
- 预测任务：对训练集 $\{(\vec{x_1},y1),(\vec{x_2},y_2),\cdots,(\vec{x_m},y_m)\}$ 进行学习，建立一个从输入空间 $\vec{X}$ 到输出空间 $\vec{Y}$ 的映射 $f:\vec{X}\rightarrow\vec{Y}$，通常令 $\vec{Y}=\{-1,+1\}$ 或 $\{0,1\}$；对于多分类任务，$|\vec{Y}|\gt2$；对回归任务，$|\vec{Y}|=R$，$R$ 为实数集
- 测试 testing：对学得模型进行预测的过程
- 测试样本 testing sample：被预测的样本，例如学得 $f$ 后，对测试例 $\vec{x}$ ，可得到其预测标记 $y=f(x)$
无监督学习 unsupervised learning
- 聚类 clustering：将训练集中的西瓜分成若干组
- 簇 cluster：“聚类”中的每一组。每一簇都可能对应一些潜在的概念划分并且这些概念我们事先是不知道的
进阶
- 泛化 generalization：学得模型适用于新样本的能力
- 分布 distribution ${{D}}$ ：通常假设样本空间中全体服从一个未知“分布”
- 独立同分布 independent and identically distributed $i.i.d.$：每个样本都是独立地从这个分布上采样获得的
假设空间
- 科学推理的两大基本手段：归纳 induction 与演绎 deduction
- 归纳：从特殊到一般的“泛化 generalization”过程，即从具体的事实归结出一般性规律
- 演绎：从一般到特殊的“特化 specialization”过程，即从基础原理推演出具体状况
- 归纳学习 inductive learning：从样例中学习
- 广义归纳学习：相当于从样例中学习
- 狭义归纳学习：从训练数据中学得概念，因此也称为“概念学习”或“概念形成”
- 布尔概念学习：对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习
- 学习过程：在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配 fit”的假设，
- 假设空间：能将训练集中的样本判断为正确的假设的集合
- 版本空间 version space：一个与训练集一致的“假设集合”
归纳偏好

“版本空间”中可能有多个假设对应训练集中的某个样本，但是多个假设可能有不同的输出，那么应该采用哪一个模型(或假设)呢？
- 归纳偏好 inductive bias：算法在学习过程中对某种类型假设的偏好
- 如果没有归纳偏好：学得模型预测时时而告诉我们它是好的，时而告诉我们它是不好的
- 奥卡姆剃刀 Ocam’s razor：若有多个假设与观察一致，则选最简单的那个
- “没有免费的午餐”定理 No Free Lunch Theorem：无论学习算法 $a$ 多聪明、学习算法 $b$ 多笨拙，它们的期望性能都会相同。
- NFL 定理前提：所有“问题”出现的机会相同、或所有问题同等重要
- NFL 定理最重要的寓意：空泛的谈“什么学习算法更好毫无意义”，因为若考虑所有潜在的问题，则学习算法都一样好
- 噪声：出现不应该出现的数据，例如相同的属性得出不一样的分类
机器学习研究的主要内容：在计算机中从数据中产生“模型 model”的算法，即“学习算法 learning algorithm”。

计算机科学研究“算法”；机器学习研究“学习算法”。

大多数时候算法的归纳偏好是否与问题本身匹配，直接决定了算法能否取得好的性能。
查看全文

相关阅读:
Atitit 图片验证码功能设计文档总结目录1.1. 使用图片验证码img src标签设置图片。。验证码图片有png，jpg，svg等格式。。 11.2. Php png图像 11.3. P
Atitt php script lan debug bp 最佳实践调试php目录1.1. Error_log 11.2. Echo vs log法 11.3. 输出与debug信息昏药问题
 Atitit 项目分析与统计目录1. 静态分析+动态分析。其中， 12. 模块分析，与模块位置idx 13. 编程语言类型与版本 13.1. 类库统记表类型与版本 23.2. 中间
 Atitit 增强代码健壮性出错继续执行恢复模式，就像vbs那样我以为我可以使用Try/Catch，但是我找不到异常后是否可以继续执行代码，并且找不到如何在最后显示错误消息。目录PHP
Atitit bootsAtitit bootstrap布局栅格.docx目录1. 简述container与container-fluid的区别 11.1.1. 在bootstrap中的布局
 Atitit php读取数据库记录集合并循环修改展示//------------------------ini db sys$dbstr = “mysql:host=“ . $mysql_con
Atitit 验证码功能修复总结文档原有的tp5里面的验证码不知怎么有问题了，试图在tp5框架内修复无果。。使用了新的验证码组件 “lifei6671/php-captcha“: “0.
Atitt 支付业务银行国际代码(SWIFT Code银行国际代码(SWIFT Code)是由SWIFT协会提出并被ISO通过的银行识别代码，凡该协会的成员银行都有自己特定的SWIFT代码
 Atitit img hot click link 图像背景拉伸100%Map area trouble..So body backgrd img mode...is easy...No
Atitit doc mng 文档管理总结目录1. 主要几大内容 12. 存储管理 22.1. 一般来说，文档存储在IM网盘note邮箱blog wiki等地 22.2. 文档格式与体

原文地址：https://www.cnblogs.com/nickchen121/p/10261977.html

机器学习基础 基本术语

机器学习绪论

基本术语

基础

监督学习 supervised learning

无监督学习 unsupervised learning

进阶

假设空间

归纳偏好

机器学习基础基本术语