Machine learning week3
一、 Classification and Representation
1、binary classification problem
2、Hypothesis Representation
Sigmoid Function = Logistic Function,公式如下:
(h_ heta (x))will give us the probability that our output is 1.
3、Decision Boundary
决策边界:(z = heta^Tx=0)
二、Logistic Regression Model
1、Cost Function
data:image/s3,"s3://crabby-images/2a048/2a048f5e7a5122beb9faa8911ac1e67875794563" alt="图片名称"
线性回归问题变成了logistic回归问题后,怎么去选择参数theta呢?
下图中,如果在logistic regression中还是用linear regression的cost function,会出现左图的cost function曲线,无法保证收敛到全局最优解。希望的是右边的convex型曲线。
data:image/s3,"s3://crabby-images/7afae/7afae5fbc068cdeff7f3950d0c3cccc78e1198ea" alt="图片名称"
因此,logistic regression需要新的损失函数:
data:image/s3,"s3://crabby-images/fefc8/fefc85bc72a9f639fe8ac035b49207758a0dee02" alt="图片名称"
根据(h_ heta (x))的定义,(h_ heta (x))在[0,1]的范围内,根据log函数的曲线,就可以画出上图y=1时的损失函数(-log(h_ heta (x)))曲线,当y=1,(h_ heta (x)=1)时,证明预测值和真实值相同,Cost是等于0的。但是当(h_ heta (x))-->0时,y=1时,预测错误,Cost就会很大。
下图是当y=0是的损失函数曲线:
data:image/s3,"s3://crabby-images/c5649/c5649559a56f0ca45ce4f7eeb6d29ca924f5a608" alt="图片名称"
原理同y=1时,所以这个损失函数很适合于二分类的logistic regression。
2、Simplified Cost Function and Gradient Descent
logistic regression的损失函数可以合并到一个公式里面,其梯度下降如下,Repeat部分的内容和Linear regression差不多,但损失函数(h_ heta(x))是不同的。
data:image/s3,"s3://crabby-images/d37cc/d37cca2f873c5854a5730a99aece8bf82a057ed3" alt="图片名称"
此外,和linear regression的vectorized implementation一样,logistic regression也有vectorized implementation。公式如下:
3、 Advanced Optimization
除了梯度下降,还有许多别的优化方法:
data:image/s3,"s3://crabby-images/80f2f/80f2f243b46ccf2608b8790880b04e7e1d92eae9" alt="图片名称"
下图是调用方法:
data:image/s3,"s3://crabby-images/b64b3/b64b34d89fcaf0f11fc79aba0a3625c76f3dcb8a" alt="图片名称"
三、Multiclass Classification
1、Multiclass Classification: One-vs-all
data:image/s3,"s3://crabby-images/14d5e/14d5e5ce040c78ced77662ba69b0147dea0844d6" alt="图片名称"
如上图,是一个一对多的分类。实际上是训练多个分类器,分别计算属于某一类的概率,再取概率最大的那个,如下图。
data:image/s3,"s3://crabby-images/40dae/40daeac280e27b41f7e2485658f4510251afcd80" alt="图片名称"
四、Solving the Problem of Overfitting
1、The Problem of Overfitting
There are two main options to address the issue of overfitting:
- Reduce the number of features:
- Manually select which features to keep.
- Use a model selection algorithm (studied later in the course).
- Regularization
- Keep all the features, but reduce the magnitude of parameters ( heta_j).
- Regularization works well when we have a lot of slightly useful features.
2、Cost Function
data:image/s3,"s3://crabby-images/6a614/6a614affd6a2096568114dd3d6df34c0447584ab" alt="图片名称"
如上图所示,右图中的蓝色曲线过拟合了,因为( heta_3 x^3)和( heta_4 x^4)的贡献太大了,所以就想了一个办法,在最小化损失函数中加上$1000* heta_3^2 $和(1000* heta_4^2),这样的话损失函数要想最小,那必须降低( heta_3)和( heta_4)的值,这样就降低了( heta_3 x^3)和( heta_4 x^4)的贡献,实现避免过拟合的情况。
但是在实际中,当未知参数数量很多时,我们不知道惩罚哪个参数,所以,就加入一个正则项,缩小所有参数(正则项一般不包括( heta_0),包不包括差别不大,只是一种习惯),如下:
data:image/s3,"s3://crabby-images/ec5e6/ec5e65fbcf2e6dd1c2366457bed85caa6520bb38" alt="图片名称"
If lambda is chosen to be too large, it may smooth out the function too much and cause underfitting. 如下图:
data:image/s3,"s3://crabby-images/cbbe6/cbbe6e6b632043c44e3e094be1de39cb44d09d3c" alt="图片名称"
使得参数全都等于零了,所以(h_ heta(x)= heta_0),导致得到的曲线就是一条直线,出现了欠拟合(underfitting)的情况。
3、Regularized Linear Regression
data:image/s3,"s3://crabby-images/65cd6/65cd69320b567b2a3f8cdc41dbb440f60ff358b5" alt="图片名称"
正则化后的梯度下降如上图,化简过后得到最后一排公式,直观上看比较有意思,没有正则化的线性回归的区别在于(1-frac{lambda}{m})会是一个小于1的数,所以( heta_j)会不断的去乘以一个小于一的数,后面的那一项倒是和线性回归一样。
- 正则化的正规方程(Normal Equation):
加入正则化后的正规方程求解会变成下图所示:
data:image/s3,"s3://crabby-images/e5f83/e5f83964263b9328f592909ac33dcddafaceeb05" alt="图片名称"
(X^T X)可能没有逆,虽然MATLAB/octave的pinv函数可以给出伪逆矩阵,但是求出的theta可能不太对,但是可以证明,(X^T X+lambda*[])后,(X^T X+lambda*[])就是可逆的(invertible)。
4、Regularized Logistic Regression
cost function for logistic regression was:
正则化后变成:
所以,梯度下降变为:
data:image/s3,"s3://crabby-images/bf40f/bf40f9849af40509aab46171a1284f81c61eb5c7" alt="图片名称"
之前讲到了高级优化函数及其损失函数计算方法,在加入正则化后,变成了:
data:image/s3,"s3://crabby-images/6d2e3/6d2e38561710123209f789100bbe1e214954edc0" alt="图片名称"
data:image/s3,"s3://crabby-images/c4915/c4915a287ef0c44d9e26185d97a6d53d781d950d" alt="图片名称"
最后的作业也全部完成,效果还行。