损失函数

zoukankan html css js c++ java

损失函数

损失函数的定义

我们以分类问题为例来讨论，假如分类器f，那么对于输入X，输出为f(X）那么，如何衡量这个分类器的好坏，我们用f(X)和真正的Y值进行比较，来衡量分类器f的好坏，这种衡量的标准就是损失函数，损失函数越小，代表分类器的性能越好。损失函数的输入为f(x)和Y，输出是一个非负实数，记做L(f(x),Y)。

期望风险、经验风险和结构风险

在学习损失函数时候，经常冒出来几个概念：经验风险、期望风险、结构风险。这些是什么意思？

期望风险：

当损失函数越小，表示我们的模型越好。但是我们不能用一个样本来进行预测，然后说这个模型的性能比较好。正确的做法是比较所有的样本，这里的所有包括我们已有的训练数据还有未知的所有数据。这里有一个前提，那即是我们假设我们的样本x和y服从某种概率的分布P(x,y)。我们用所有样本的损失函数的均值，也就是期望风险（expected risk）来进行度量。

$ R_{exp}(f) = E_P[L(Y,F(X))] =int_{x imes y} L(y,f(x)) P(x,y) dxdy$

但是这里的问题是这样的，x和y的联合概率分布式不能够得知的，所以我们想要使用期望风险来度量模型的性能是不可以的。

经验风险：

虽然，我们不知道x和y的分布情况，但是我们手里有一些训练数据，我们直接在这训练数据上面的风险最小，于是，就引入了经验风险（empirical risk）的概念：

$R_{emp}(f) = frac{1}{N} sum limits_{i=1}^N L(y_i, f(x_i))$

结构风险：

根据大数定理，当样本N的数量无限多的时候，经验风险就等于期望风险，但是实际当中我们的数据是有限的，在有限的数据下面让经验风险最小容易产生“过拟合”的现象。于是我们加入正则化项，让模型不要太拟合，加上正则化项以后的经验风险叫做结构风险（structural risk）：

$R_{srm}(f) = frac{1}{N} sum limits_{i=1}^N L(y_i, f(x_i)) + lambda J(f)$

所以，最终我们用结构风险来对我们的模型进行度量和优化，让我们的模型使得结构风险最小化。

上面的结构风险为一个通用的目标优化函数，很多优化模型都具有这样的函数形式。

注：以上内容参考李航《统计学习》的1.3节。周志华《机器学习》6.4节将上式中的后面项$lambda J(f)$称为结构风险，前面项称为经验风险，和本文介绍的稍有出入。

让我们再看看一下周志华《机器学习》当中对于这两项的描述，它说的也很有道理。结构风险反应的是模型当中固有的性质，经验风险反应的是数据和模型的契合程度（只有在引入数据的情况下才有经验这个概念），那么上面的式子当中哪个是固有性质的表述，当然是 $J(f)$了，哪个是关于经验的表述，当然是$ frac{1}{N} sum limits_{i=1}^N L(y_i, f(x_i))$。所以它把经验风险和结构风险分别定义为上面两项。

损失函数的作用

有了上面的知识，我们再来看一句话，也就是大多数文章当中出现的，“损失函数是经验风险函数的核心部分，也是结构风险函数的重要组成部分。模型的结构风险函数包括了经验风险项和正则项，” 通常表达式如下：

$ heta^* = arg min limits_{ heta} frac{1}{N} sum limits_{i=1}^{N}    L(y_i,f(x_i ; heta)) + lambda Phi ( heta) $

式子的前面一项为经验风险函数，后面的$Phi$为正则化项或者惩罚项，整个式子表示找到使得函数最小的$ heta$的值。从上面的式子可以看出来，模型的经验风险基本上由损失函数来决定，不同的损失函数，模型的形式是不一样的。经验风险+正则项构成了最终的结构风险

在了解了损失函数在结构风险函数的重要性之后，下面我们以分类问题介绍一下几种损失函数。我们令z = Yf(x)表示的是我们预测的值和实际的值的乘积。

各种损失函数介绍：

0-1损失

0-1损失是一种最理想的损失函数，当Y和f(x)的值不一样的时候，也就是预测错误的时候，那么损失的值为1，当Y的值和f(x)的值一样的时候，损失的值为0。所以0-1损失的表达式如下：

$L(Y, F(mathbf{x})) = left{ egin{aligned} 1, & Y eq f(x) \      0, & Y = f(x) \   end{aligned}   ight. $

在分类问题当中，预测的值f(x)和Y的值的乘积z小于0的时候，则惩罚1，大于0则不惩罚，所以0-1损失的另一种形式如下：

$L_{0/1}= left{ egin{aligned} 1, &quad   if z < 0; \      0, & quad otherwise \   end{aligned}   ight. $

svm和Hinge损失

在svm当中，硬间隔当中所有的样本满足$y_i(mathbf{w}^T mathbf{x}_i+b) geq 1$ 也就是所有的样本都被分类正确。

这在实际当中这很难做到，于是采用软间隔，也就是允许部分样本不满足上述的条件。当然，我们还是希望不满足上述条件的样本尽量的少，哪些样本不满足上述条件？如下图所示，一种是下图中的棕色圆圈类的样本，虽然分类正确，但是在虚线和红线的内部，它满足 $1> y_i(mathbf{w}^T mathbf{x}_i+b) > 0$ 。另外一类是分类错误的。也就是下图中的蓝色圆圈内的样本，它们满足$y_i(mathbf{w}^T mathbf{x}_i+b) < 0$

所以，在svm当中，带有软间隔的优化函数可以写作下面的式子：$min limits_{mathbf{w}, b} frac{1}{2}   {Vert mathbf{w} Vert}^2 + C sum limits_{i=0}^{N} {[ 1-y_i({mathbf{w}}^Tx_i+b)]}_+$   其中C是惩罚系数。

注意到上式中的${[ 1-y_i({mathbf{w}}^Tx_i+b)]}_+$，它的含义是这样的，只取那些使得$1-y_i({mathbf{w}}^Tx_i+b) geq 0$的值，也就是我们上面分析的那两类样本。当满足$y_i(mathbf{w}^T mathbf{x}_i+b) geq 1$的时候，它的值为0，不进行惩罚。

我们令${[ 1-y_i({mathbf{w}}^Tx_i+b)]}_+ = xi_i$   并且为了书写的方便，我们令$y_i({mathbf{w}}^Tx_i+b)$=$z_i$。于是${[ 1-y_i({mathbf{w}}^Tx_i+b)]}_+ = xi_i$ 就变成了${[ 1-z_i]}_+ = xi _i$ 结合我们上面分析的右下角的加号的含义，我们可以得知

当$z$的值小于1的时候，$xi = 1-z$

当$z$的值大于1的时候，$xi = 0$

即$z和xi$满足这样的关系：   $xi= left{ egin{aligned} 1-z, & z<1 \      0, & z>1 \   end{aligned}   ight. $

上面的式子就是hinge损失，它可以写作一般的形式 $ell_{hinge}(z) = max(0, 1-z)$

于是上式中的svm优化算法用hinge损失函数表示为：    $min limits_{mathbf{w}, b} frac{1}{2}   {Vert mathbf{w} Vert}^2 + C sum limits_{i=0}^{N} ell_{hinge}{( y_i({mathbf{w}}^Tx_i+b))}$

如果将svm的优化函数看作是一种结构风险函数的，它为经验风险和正则项的和。其中结构风险采用的是hinge损失函数,正则项采用了L2正则化。即svm=hinge损失+L2正则化。

AdaBoost和指数损失

指数损失：$L_{exp}(z) = exp(-z)$

AdaBoost是采用加法模型，损失函数为指数函数，学习算法为前向分步算法的二分类学习算法。[来自李航《统计学习方法》8.3节]

并且在这一节当中证明AdaBoost损失函数为指数函数。

逻辑回归和对数损失以及交叉熵损失

当有人问逻辑回归的损失函数是什么的时候，有的说是交叉熵损失，有的说是对数损失，其实这两者都对。

在逻辑回归，二分类的情况下推导如下：

$$J( heta) = –ln(L( heta) = -sum limits_{i=1}^{m} (y_i ln(h_{ heta}) +(1-y_i) ln(1-h_{ heta}) )$$

这个公式和交叉熵的定义是一样的，所以逻辑回归的损失函数是交叉熵损失。

对于逻辑回归，它的通用的损失函数是这样定义的：$L(Y,P(Y|X)) = -log P(Y|X)$

而取$P(Y|X) = frac{1}{1+e^{-z}}$的时候，对数损失变为了：$L_{log}(z) =log(1+e^{-z})$

对数损失是在逻辑回归建模的时候推导出来的，推导过程如下：

我们令$p(Y=y|x) = frac{1}{1+e^{ -y( mathbf{w}^T mathbf{x}+ b}) }$

在求解最优的参数的时候，我们使用了最大似然函数的方法来进行求解，对似然函数取对数，变为对数似然函数。

对数似然函数为：$ln(L(mathbf{w},b) = sum limits_{i=1}^{m} ln (frac{1}{ 1 + e^{-y_i ({mathbf{w}}^T mathbf{x}_i+ b)}  })$。（对数似然函数的求解很简单，只需要将各个概率相乘，然后取对数就可以了）

求最大的对数似然函数，也就是求最小的负对数似然函数。于是优化目标变为$J(mathbf{w},b) = -ln(L(mathbf{w},b) = sum limits_{i=1}^{m} ln( 1 + e^{-y_i ({mathbf{w}}^T mathbf{x}_i+ b)} ) = sum limits_{i=1}^{m} ln( 1 + e^{-z} )$ 。

用上面的式子和经验风险函数的式子相比，可以看出来在逻辑回归当中使用的对数损失函数为：$L(z) = ln( 1 + e^{-z} )$

总结：

对于算法和损失函数来说，可以从正面来说，一种损失函数是由一种算法推导出来的，比如SVM推导出hinge损失，LR推导出对数损失。另外，你也可以说损失函数+正则化项确定了一个算法，比如hinge损失+l2正则化就是SVM算法。

参考：

机器学习优化问题-经验风险、期望风险、结构风险

机器学习-损失函数

SVM等于Hinge损失 + L2正则化

查看全文

相关阅读:
单细胞分析实录(8): 展示marker基因的4种图形（一）
单细胞分析实录(7): 差异表达分析/细胞类型注释
 单细胞分析实录(6): 去除批次效应/整合数据
 单细胞分析实录(5): Seurat标准流程
 R绘图(2): 离散/分类变量如何画热图/方块图
 R绘图(1): 在散点图边缘加上直方图/密度图/箱型图
 单细胞分析实录(4): doublet检测
 单细胞分析实录(3): Cell Hashing数据拆分
 单细胞分析实录(2): 使用Cell Ranger得到表达矩阵
 单细胞分析实录(1): 认识Cell Hashing

原文地址：https://www.cnblogs.com/jiaxin359/p/8651490.html

热门文章
微信小程序
 微信小程序
 微信小程序
 微信小程序
 微信小程序
 微信小程序
 微信小程序
 微信小程序
 微信小程序7
微信小程序6

损失函数的定义

期望风险、经验风险和结构风险

期望风险：

经验风险：

结构风险：

损失函数的作用

各种损失函数介绍：

0-1损失

svm和Hinge损失

AdaBoost和指数损失

逻辑回归和对数损失以及交叉熵损失

总结：

机器学习优化问题-经验风险、期望风险、结构风险

机器学习-损失函数

SVM等于Hinge损失 + L2正则化