吴恩达“机器学习”——学习笔记三

zoukankan html css js c++ java

吴恩达“机器学习”——学习笔记三

牛顿方法（此方法为续学习笔记二）

如果我们想找到一个x，使得f(x)=0。那么先随机找一个x_0，在该点处做切线，这条切线与x轴交点为x_1，在x_1处做f的切线，以此类推。

记x_0与x_1之间的距离为Delta。那么，

（将自变量改为theta）,。因为Delta是两个相邻自变量的距离，那么，

，此式可以推广为。

记f为ln‘L，即f为似然韩式的导数，那么，。

一般化的牛顿方法中theta是一个向量，可以写成

。其中，H是海森矩阵（Hession matrix）。该矩阵满足下列式子，

。牛顿方法比梯度上升算法能更快的求出theta，更快的对logistics回归模型进行拟合。

指数分布族

满足该式的，成为指数分布族。eta成为自然参数，T(y)为充分统计量，通常T(y)=y。固定函数a,b,T，那么这就是以eta为参数的概率分布集。

伯努利和高斯分布都属于指数分布族

伯努利

，那么对应关系为

。通过变形，可以得到，

。

高斯分布

在高斯分布进行最大似然估计的时候，sigma对于最后所要求的结果没有影响，所以假设sigma为1，即高斯分布的方差为1。

，对应关系为

所以伯努利分布和高斯分布都是指数分布族。

广义线性模型

使用最小二乘法（y属于实数）和logistics回归方法（y取0，1）进行建模，都属于广义线性模型。

假设

1.

2.给定一个x,我们的目标是求出E[T(y)｜x]，即h(x)=E[T(y)｜x]

3.

由以上得知，伯努利分布满足第一点。根据第二点，对于固定的theta和x，我们的目标是求出h(x)=E[T(y)｜x]，即

==，根据第三个条件，即为。

此处跳过高斯分布，进行一个更加复杂例子的讲解。

多项式分布(Multinomial)

，参数为，，，可以把最后一个参数写成1减去前k-1个参数得到的，所以，实际上，参数数量只有k-1个。

接下来把多项式分布写成指数分布族的形式。

定义k个k-1维的列向量

引入指示函数(indicator function notation)

1{true}=1,1{false}=0

规定T(y)i=1{y=i},i:T(y)的第i个元素。那么，可以得到

其中，那么，

（i=1，2，...，k-1）

那么此时的学习算法为，

这类算法成为softmax regression，它是logistics回归的推广，因为后者处理的y只有两个结果，前者处理的y有k个结果。

查看全文

相关阅读:
记一份电网信息化建设企业信息分析平台规划
 2018年个人心灵历程记录
 OGG For Bigdata To Kafka同步问题处理
 Vue.js有赞商城（思路以及总结整理）
汉诺塔-递归算法
 git合并分支
 js实现页面消息滚动效果
 chrome实现网页高清截屏(F12、shift+ctrl+p、capture)
JS计算时间差
 Socket.io详解

原文地址：https://www.cnblogs.com/xxp17457741/p/8344045.html