浅谈linear regression和logistic regression的概率理解

zoukankan html css js c++ java

浅谈linear regression和logistic regression的概率理解

最近在学习斯坦福的机器学习课程，发现这类人工智能的东西都跟概率统计意义结合紧密，这里就阐述一下自己的理解。

1.linear regression

在线性回归中我们是用线性模型Θ^TX来拟合feature和target的线性关系的，其中Θ是确定的。但是我们拟合的线性模型并不能完全准确的拟合数据，所以当我们将真实的观测数据带入到模型中会产生误差，我们用y⁽ⁱ⁾=Θ^Tx⁽ⁱ⁾+ε(i) 来表示，误差由于是由多种因素产生，根据中心极限定理以及我们平时对误差的一般假设，都可以将其看做服从期望为0的正态分布，将误差看做随机变量的话，y⁽ⁱ⁾也可以看做随机变量，其服从期望为Θ^Tx⁽ⁱ⁾的正态分布。

由于线性回归大多情况下是用来做预测，例如根据房子的大小，设备的齐全性等对其价格做预测（当然这里选择的feature如大小、齐全性在常识下是和价格是呈线性关系的），把线性回归看做系统的话，输入为一个或者多个feature，输出为一个值。我们拥有的是一组已经观测好的样本（x⁽ⁱ⁾，y⁽ⁱ⁾），我们的目标是通过样本的训练得到一个Θ。那么训练的依据是什么呢？很直观的想法是我们得到的Θ要使Θ^Tx⁽ⁱ⁾和y⁽ⁱ⁾尽量接近，当然就产生了残差的平方和最小作为代价函数。但如果我们从概率去思考，让Θ^Tx⁽ⁱ⁾和y⁽ⁱ⁾尽量接近，也就是让P(y⁽ⁱ⁾|x⁽ⁱ⁾;Θ)最大，这就是最大似然方法（其实似然和概率在表达式上是一回事，只是关注的变量不同）。至于具体的推导，课程的note上有详细的过程。

2.logistic regression

这个逻辑回归才是我比较想谈的问题，相比线性回归它的概率意义要稍微难理解一点，但是核心思想差不多。参考别人写的东西：该回归用于分类，只是在线性回归的结果上使用了一个logistic function对线性的结果进行了映射，使结果在[0,1]内变化。个人认为，按照前面的分析方法，将其看做一个系统，输入也是一个或者多个feature，而输出就两个值(假设只分为两类)，0和1，大多数都这样假设，其他任何两个值在理论上都是可以的吧，也就是两个值代表两个类别吧。至于怎样根据给定的样本进行训练，我对note上的写法，一来就搞出来一个伯努利分布，感觉比较突兀，个人能力不够，理解不通。但是我沿袭前面的思考方法，就是调整Θ使得h_Θ(x⁽ⁱ⁾)和y⁽ⁱ⁾接近，有一点不同就是我们的y只有两个值0和1。下面假设我们有两组样本(x⁽¹⁾,1)和(x⁽²⁾,0)，对第一个样本我们就希望h_Θ(x⁽¹⁾)尽量大从而接近1，对第二个样本我们希望h_Θ(x⁽²⁾)尽量小接近0(换句话说我们就希望1-h_Θ(x⁽²⁾)尽量大)。写成一个更精练的式子就是，不论对x⁽¹⁾还是x⁽²⁾，我们都希望h_Θ(x⁽ⁱ⁾)^y(i)(1-h_Θ(x⁽ⁱ⁾))^1-y(i)尽量大，将我举的两个样本带入就可以化简为能理解的式子，恰好这个式子就是参数为h_Θ(x⁽ⁱ⁾)的伯努利分布的概率密度，随机变量为y⁽ⁱ⁾。接下来同样是使用最大似然来求取theta即可。

这两种回归都是generalized linear model的特例，东西的理解对我这类小白还是有难度的，在学习过后也争取谈谈自己的理解吧。

查看全文

相关阅读:
链表栈
 双链表
 Linux sar命令查看系统资源使用情况
 Linux 命令（w/who/whoami/who am i）
shell脚本引用expect
expect 免交互配置互信
 expect 远程传输文件
 expect 远程执行命令-02
expect 远程执行命令-01
expect 脚本自定义变量和位置变量

原文地址：https://www.cnblogs.com/ideawu1001/p/2759425.html