（笔记）斯坦福机器学习第九讲--经验风险最小化

zoukankan html css js c++ java

（笔记）斯坦福机器学习第九讲--经验风险最小化

本讲内容

1. Bias/Variance trade-off （偏差-方差权衡）

2. Empirical risk minimization(ERM) （经验风险最小化）

3. Union Bound/ Hoeffding inequality （联合界/霍夫丁不等式）

4. Uniform convergence （一致收敛）

1. 偏差方差权衡

对于上图左的情况，我们称之为欠拟合(under-fitting)，或者说，我们认为算法的偏差很高。高偏差意味着一个事实：即使你有无穷多的训练数据，算法依然不能拟合出数据的内在结构（比如二次结构）

对于上图右的情况，我们称之为过拟合(over-fitting)，或者说，我们认为算法的方差很高。高方差意味着一个事实：算法拟合出了数据中的一些奇怪的规律，或者说一些怪异的属性。

2. 经验风险最小化 ERM

定义一个线性分类器

其中  （note ）

假设有m个训练样本，样本之间是独立同分布的。

定义训练误差：

训练误差也被称为风险。

经验风险最小化：选择分类器函数的参数，使得分类器的训练误差（training error）最小。

让我们换一种考虑方式：我们不是在选择最优分类器函数的参数，而是在选择最优的分类器函数。

定义假设类

假设类的每一个成员都是参数n+1个的线性分类器函数。

重新定义ERM：从假设类H中选取一个函数，使得分类器的训练误差最小。

实际上，我们并不关心训练误差的大小，我们关心的是分类器对于未知样本的预测能力，也就是一般误差（generation error）：

先引入两条引理：

1.联合界引理（Union Bound）：

令  表示k个事件，这些事件不一定是独立的，

2.Hoeffding 不等式：

假设Z1,…,Zm为m个独立同分布（iid,independent and identically distributed）的随机变量,服从于伯努利分布，即

并且



为这些随机变量的均值，给定，那么有

表达的是对真实分布的估计值与真实分布之间的差值大于  的概率的上界，这个上界随着m的增加而指数下降。

考虑具有有限假设类的情形：

猜想类H具有k个假设

ERM会从H中选出具有最小训练误差的假设

需要证明

1. 训练误差是一个对一般误差的很好的近似

2. ERM选择的假设的一般误差存在上界

首先证明第一项，从猜想类H中任意选取一个假设 ,定义

服从伯努利分布，因此

其均值是假设的一般误差。

训练误差为

由Hoeffding不等式可知

假设m很大，即训练样本很多，那么训练误差将会以很大概率近似于一般误差。

定义事件为   发生

有

那么对于整个猜想类来说

=

两边同时用1减去

也就是说，在不小于  的概率下，对于猜想类H中的所有假设h，其训练误差和一般误差之间的差距将会在  以内。

这被称为 一致收敛。

定义

那么给定  和  解出

意思是，只要你的训练集合包含至少上述m这么多的样本，那么概率至少在  下，有对H中的所有假设成立。

样本复杂度：为了达到一个特定的错误的界，你需要多大的训练集合。

误差界：

同样的，我们可以固定m和，得到

定义为H中具有最小一般误差的假设，为H中具有最小训练误差的假设，那么至少在  的概率下，有



也就是说，我们选择的（具有最小训练误差的）假设的一般误差，和具有最小一般误差的假设的一般误差之间的差值存在  的上界。

直观上，我们可以把第一项  看成是选择假设的偏差，第二项  看成选择假设的方差。

当我们将H替换为更复杂的猜想类H'，即H是H'的子集时，第一项只会变的更小，即偏差变小；而由于k的增大，第二项会变的更大，即方差变大。

将一切总结为两个定理如下：

第九讲完。

查看全文

相关阅读:
DALSA线阵相机调焦、平场校正、行频微调
 千兆网卡、万兆网卡设置
 【转载】.h头文件 .lib库文件 .dll动态库文件之间的关系，静态编译、动态编译
 【转载】工控机插槽
 镜头的选择
 相机SDK流程
 光栅尺触发DALSA线阵相机
 Go语言备忘录（3）：net/http包的使用模式和源码解析
 Go语言备忘录（2）：反射的原理与使用详解
 Go语言备忘录（1）：基本数据结构

原文地址：https://www.cnblogs.com/madrabbit/p/7095575.html