李宏毅机器学习课程---2、Regression

zoukankan html css js c++ java

李宏毅机器学习课程---2、Regression

李宏毅机器学习课程---2、Regression - Case Study

一、总结

一句话总结：

分类讨论可能是比较好的找最佳函数的方法：如果有这样的因素存在的话

模型不够好，可能是因素没有找全

因素以及函数的复杂度，并不是越高越好，适合的才是最好的

1、AI训练师的工作是什么？

为机器挑选【合适的model 和 loss function】，不同的model和loss function，来适合解决不同的问题

loss
英 [lɒs] 美 [lɔs]
n. 减少；亏损；失败；遗失
n. (Loss)人名；(匈)洛什；(法、德、意)洛斯
[ 复数 losses ]

2、如何理解“要训练出厉害的AI，AI训练师功不可没”？

AI训练师为机器挑选【合适的model 和 loss function】，不同的model和loss function，来适合解决不同的问题

3、机器学习要做的就是找一个function，那Regression要做的是什么？

找一个scalar（output a scalar）：就是输出一个数值，比如自动驾驶汽车：f（无人车上的各个传感器）= 方向盘的角度，比如90度

4、Regression的实际例子有哪些？

Stock Market Forecast（股票市场预测）：f（过去股票市场的变动）= Dow Jones Industrial Average at tomorrow

Self-driving car（自动驾驶汽车）：f（无人车上的各个传感器）= 方向盘的角度

Recommendation（推荐）：f（使用者A的种种特性 + 商品B的种种特性）= 购买可能性

Estimating the Combat Power(CP) of a pokemon after evolution（评估宝可梦的进化之后的战斗能力）：f（进化前的宝可梦的各种属性）= CP after evolution

5、Regression函数是怎么建模的（变量命名规则）？

|||-begin

Estimating the Combat Power(CP) of a pokemon after evolution（评估宝可梦的进化之后的战斗能力）：f（进化前的宝可梦的各种属性）= CP after evolution

|||-end

x加下标表示各种输入：进化前的宝可梦的各种属性：用x加下标表示，比如Xw表示重量，Xh表示高度，Xcp表示战斗力等等

y表示输出

6、机器学习中的模型是什么意思？

就是一组函数：a set of function；比如【线性模型】 y=b+w*Xcp中，不同的b和w就代表了不同的函数

比如精灵宝可梦进化后战斗力变化： y=b+w*Xcp

7、机器学习中的线性模型长什么样？

y=b+求和符号WiXi

b：bias（偏移），Wi：weight（权重）

Xi：各个属性，比如宝可梦的身高，宝可梦的体重，宝可梦进化前的战斗力

bias
英 ['baɪəs] 美 ['baɪəs]
n. 偏见；偏爱；斜纹；乖离率
vt. 使存偏见
adj. 偏斜的
adv. 偏斜地
n. (Bias)人名；(法、德、葡、喀)比亚斯；(英)拜厄斯

8、机器学习的第二步是衡量第一步Regression中的function好不好、有多好，那么如何衡量？

用loss function：相对于就是求函数结果和实际结构的方差

9、机器学习的第二步中的Goodness of Function中的Loss functon(简称L)是什么？

评判函数好坏：Loss function是用来评判函数集中函数的好坏的

input：a function；output：how bad it is（这个function的好坏）

举例：可以是求实际结果与函数结果的方差来判断函数的好坏

L(f)是可以看做L(w，b)的：因为不同的函数其实就是不同的w和b在变化

10、判断函数集中函数好坏的时候，可以用穷举法来判断么？

一般是不行的：我们需要更有效率的方法：因为Xi可能有很多个，而且w和b的变化范围也几乎是无限的

11、在求函数集中最好的函数的时候用了Gradient Descent（梯度下降法）方法，那么Gradient Descent方法是什么，【原理】又是什么，注意点是什么？

最简单实例分析 + 画图：最简单实例分析，假设只有一个因变量w，那么L(w)可以画出来（纵轴L(w)，横轴w）

判断w是加还是减：随机找一个初始的位置，找这个点切线的斜率(微分)，如果切线斜率是负数，那么久增加w，反之正数

learning rate：增加w的幅度为η*斜率，那么这个η就是learning rate，η越大，相当于每次跨一大步，学习的越快，不过也没那么精确

不同起始点不一定可以找到global minimal：因为有些点出发，会走到local minima，这个时候斜率为0，w就走不动了，没法判断是向左还是向右

gradient
英 ['greɪdɪənt] 美 ['ɡredɪənt]
n. [数][物] 梯度；坡度；倾斜度
adj. 倾斜的；步行的

descent
英 [dɪ'sent] 美 [dɪ'sɛnt]
n. 下降；血统；袭击
vt. 除去…的气味；使…失去香味

12、在求函数集中最好的函数的时候用了Gradient Descent（梯度下降法）方法，如果变化的参数是两个，那么计算步骤是怎样？

1、选初始值：（Randomly）Pick an initial value w0，b0

2、计算斜率：计算L对w和b的偏微分，这就相当于一个参数时候的斜率，这里是往等高线的法线方向走

13、在求函数集中最好的函数的时候用了Gradient Descent（梯度下降法）方法中，是否斜率（微分）是0的点就是所求？

不是：一条线中可以有很多斜率为0的点，但是他们不一定是极值点

14、在求最好函数的过程中，我们发现最好一次函数的误差测试出来不满意，我们应该怎么做？

增加模型次数，或者分类讨论：可以换二次，三次等的模型，找到最适合的

15、机器学习在求最好函数的过程中，overfitting是什么？

函数模型太复杂了

增加函数次数，training data的误差变小，但是Test data的误差变大：虽然当我们增加函数次数时，可以使training data的Average Error越来越小，但是Test data的表现缺不尽如人意，甚至在五次方程时，大大超出了我们的预估。那么这种现象就叫做’overfitting。

16、机器学习选模型的时候，是选training data的误差最小的，还是选Test data的误差最小的？

选Test data的误差最小的：肯定是选Test data的误差最小的

17、机器学习选模型的时候，函数的次数越高越好么？

最合适的才是最好的：方程不是次数越复杂越好，所以我们要选择一个最合适的：选Test data的误差最小的

18、怎么解决overfitting的问题？

收集更多数据：用来测试：collect more data

19、在机器学习测试最好函数的过程中，我们发现同一个x对应多个y，可能的原因是什么？

遗漏因素：我们少考虑了因素，比如宝可梦的种族

分类讨论：或者可以分类讨论，不同的种族的宝可梦对应不同的线性模型，这里分类讨论比增加函数次数得到的test data的误差更小（也不一定，或者有其它更好的模型）

20、在机器学习测试最好函数的过程中，如何对Loss Function来 Regularization（为什么要对Loss Function来Regularization）？

平滑化：Regularization就是Loss function 平滑化

正确函数一般是平滑的：因为一般平滑smoother的曲线才是我们需要的，那些抖动特别大的一看起来就不对

regularization
[,rɛɡjʊlərɪ'zeʃən]
n. 规则化；调整；合法化

21、为什么在对Loss Function 来 Regularization（使平滑化）的过程中，增加的参数没有bias（偏移）？

一般没有帮助：因为线性函数的bias对函数平滑没有帮助

二、内容在总结中

查看全文

相关阅读:
Android签名详解（debug和release）
Java反射机制的学习
 Android应用开发中如何使用隐藏API（转）
asp.net购物车，订单以及模拟支付宝支付（二）---订单表
 asp.net购物车，订单以及模拟支付宝支付（一）---购物车表及添加购物车流程
 asp.net权限控制的方式
 .Net使用程序发送邮件时的问题
 Word2016“此功能看似已中断并需要修复”问题解决办法
 C#字符串来袭——因为爱，所以爱
 C#时间的味道——任时光匆匆我只在乎你

原文地址：https://www.cnblogs.com/Renyi-Fan/p/10965524.html

李宏毅机器学习课程---2、Regression

李宏毅机器学习课程---2、Regression - Case Study

一、总结

一句话总结：

分类讨论可能是比较好的找最佳函数的方法：如果 有这样的因素存在的话

模型不够好，可能是因素没有找全

因素以及函数的复杂度，并不是越高越好，适合的才是最好的

1、AI训练师的工作是什么？

为机器挑选【合适的model 和 loss function】，不同的model和loss function，来适合解决不同的问题

2、如何理解“要训练出厉害的AI，AI训练师功不可没”？

AI训练师为机器挑选【合适的model 和 loss function】，不同的model和loss function，来适合解决不同的问题

3、机器学习要做的就是找一个function，那Regression要做的是什么？

找一个scalar（output a scalar）：就是输出一个数值，比如自动驾驶汽车：f（无人车上的各个传感器）= 方向盘的角度，比如90度

4、Regression的实际例子有哪些？

Stock Market Forecast（股票市场预测）：f（过去股票市场的变动）= Dow Jones Industrial Average at tomorrow

Self-driving car（自动驾驶汽车）：f（无人车上的各个传感器）= 方向盘的角度

Recommendation（推荐）：f（使用者A的种种特性 + 商品B的种种特性）= 购买可能性

Estimating the Combat Power(CP) of a pokemon after evolution（评估宝可梦的进化之后的战斗能力）：f（进化前的宝可梦的各种属性）= CP after evolution

5、Regression函数是怎么建模的（变量命名规则）？

x加下标表示各种输入：进化前的宝可梦的各种属性：用x加下标表示，比如Xw表示重量，Xh表示高度，Xcp表示战斗力等等

y表示输出

6、机器学习中的模型是什么意思？

就是一组函数：a set of function； 比如 【线性模型】 y=b+w*Xcp中，不同的b和w就代表了不同的函数

比如精灵宝可梦进化后战斗力变化： y=b+w*Xcp

7、机器学习中的线性模型长什么样？

y=b+求和符号WiXi

b：bias（偏移），Wi：weight（权重）

Xi：各个属性，比如宝可梦的身高，宝可梦的体重，宝可梦进化前的战斗力

8、机器学习的第二步是衡量第一步Regression中的function好不好、有多好，那么如何衡量？

用loss function：相对于就是求 函数结果和实际结构的方差

9、机器学习的第二步中的Goodness of Function中的Loss functon(简称L)是什么？

评判函数好坏：Loss function是用来评判函数集中函数的好坏的

input：a function；output：how bad it is（这个function的好坏）

举例：可以是求 实际结果与函数结果的方差 来判断函数的好坏

L(f)是可以看做L(w，b)的：因为不同的函数其实就是不同的w和b在变化

10、判断函数集中函数好坏的时候，可以用穷举法来判断么？

一般是不行的：我们需要更有效率的方法：因为Xi可能有很多个，而且w和b的变化范围也几乎是无限的

11、在求函数集中最好的函数的时候用了Gradient Descent（梯度下降法）方法，那么Gradient Descent方法是什么，【原理】又是什么，注意点是什么？

最简单实例分析 + 画图：最简单实例分析，假设只有一个因变量w，那么L(w)可以画出来（纵轴L(w)，横轴w）

判断w是加还是减：随机找一个初始的位置，找这个点切线的斜率(微分)，如果切线斜率是负数，那么久增加w，反之正数

learning rate：增加w的幅度为η*斜率，那么这个η就是learning rate，η越大，相当于每次跨一大步，学习的越快，不过也没那么精确

不同起始点不一定可以找到global minimal：因为有些点出发，会走到local minima，这个时候斜率为0，w就走不动了，没法判断是向左还是向右

12、在求函数集中最好的函数的时候用了Gradient Descent（梯度下降法）方法，如果变化的参数是两个，那么计算步骤是怎样？

1、选初始值：（Randomly）Pick an initial value w0，b0

2、计算斜率：计算L对w和b的偏微分，这就相当于一个参数时候的斜率，这里是往等高线的法线方向走

13、在求函数集中最好的函数的时候用了Gradient Descent（梯度下降法）方法中，是否斜率（微分）是0的点就是所求？

不是：一条线中可以有很多斜率为0的点，但是他们不一定是极值点

14、在求最好函数的过程中，我们发现最好一次函数的误差测试出来不满意，我们应该怎么做？

增加模型次数，或者分类讨论：可以换二次，三次等的模型，找到最适合的

15、机器学习在求最好函数的过程中，overfitting是什么？

函数模型太复杂了

16、机器学习选模型的时候，是选training data的误差最小的，还是选Test data的误差最小的？

选Test data的误差最小的：肯定是选Test data的误差最小的

17、机器学习选模型的时候，函数的次数越高越好么？

最合适的才是最好的：方程不是次数越复杂越好，所以我们要选择一个最合适的：选Test data的误差最小的

18、怎么解决overfitting的问题？

收集更多数据：用来测试：collect more data

19、在机器学习测试最好函数的过程中，我们发现同一个x对应多个y，可能的原因是什么？

遗漏因素：我们少考虑了因素，比如宝可梦的种族

分类讨论：或者可以分类讨论，不同的种族的宝可梦对应不同的 线性模型 ，这里分类讨论比增加函数次数得到的test data的误差更小（也不一定，或者有其它更好的模型）

20、在机器学习测试最好函数的过程中，如何对Loss Function来 Regularization（为什么要对Loss Function来Regularization）？

平滑化：Regularization就是Loss function 平滑化

正确函数一般是平滑的：因为一般平滑smoother的曲线才是我们需要的，那些抖动特别大的一看起来就不对

21、为什么在对Loss Function 来 Regularization（使平滑化） 的过程中，增加的参数没有bias（偏移）？

一般没有帮助：因为线性函数的bias对函数平滑没有帮助

二、内容在总结中

分类讨论可能是比较好的找最佳函数的方法：如果有这样的因素存在的话

就是一组函数：a set of function；比如【线性模型】 y=b+w*Xcp中，不同的b和w就代表了不同的函数

用loss function：相对于就是求函数结果和实际结构的方差

举例：可以是求实际结果与函数结果的方差来判断函数的好坏

分类讨论：或者可以分类讨论，不同的种族的宝可梦对应不同的线性模型，这里分类讨论比增加函数次数得到的test data的误差更小（也不一定，或者有其它更好的模型）

21、为什么在对Loss Function 来 Regularization（使平滑化）的过程中，增加的参数没有bias（偏移）？