zoukankan html css js c++ java

机器学习中的数学基础_七月算法4月机器学习班第4次课程笔记

	desc
优化问题的分类	无约束优化梯度下降法深度梯度下降牛顿法有约束的优化： KKT条件（拉格朗日的扩充）转换为凸优化，使用内点法求解，matlab cov 命令
认识两个符号	这个符号表示半正定和正定对于 scalar 来说，本身具有正负性，而对于矩阵来说与正负性对应的就是其正定性而不是其对应的行列式的正负性正定矩阵的地位在于高维度上的数字的正负性
哪里出现了二次型	在高维度的泰勒展开式当中
对泰勒展开式的分析	如果 f(xk) 的地方是极值，比如极小值那么对 δ >0，有 f(δ +x) > f(x) and f( x-δ) > f(x) 因为 x 加减 δ 都要比 f(x) 大，所以 f'(x) 的地方一定是0，这样才能消除 f'(xk)·δ 的影响而全部的因素考虑的是后面的即 f''(x)·δ^2 部分首先 δ^2 >=0，所以如果 f''(x) >0 那么 f(x) 一定是极小值，如果 f''(x) <0，那么一定是极大值
鞍点	又名：拐点，驻点而二维空间，如 x^3 处叫做拐点，驻点在高维空间，如图，叫做鞍点
仿射函数	可以理解线性变换函数所以对于 NN 来说，除了仿射函数，还要有非线性变换
凸集的定义	凸集概念的操作对象是集合，即对于集合C 如果对于 0<=Θ<= 1，有 x, y ∈C，那么一定有 Θx + (1-Θ)y ∈ C
凸函数的定义	定义域是凸集，且对于 0<=Θ<= 1，函数满足： f(Θx + (1-Θ)y ) <= Θf(x) + (1-Θ)f(y)
凸函数判定的充要条件	一阶充要条件：有x1, x2，一定有： f(x2) >= f(x1) + f'(x1)·(x2-x1) 二阶充要条件：函数f 二阶可导，且 f''(x) >0 或者 f''(x) 是正定矩阵
关于二阶充要条件	举例：那么f(x) 的二阶导就是P，如果 P正定，那么图像就是这个样子如果P 不是正定也不是负定，那么就是这个样子：方法是看二阶导数
凸优化问题的定义	目标函数是凸函数可行域是凸集
hessian 矩阵的产生	海森矩阵其实就是泰勒展开式的二阶项的系数尤其是泰勒展开式在 n 维向量上的系数即： x 变量是一个vector 而不是标量，其需求就是这个 f''(x) 变量成了一个向量了，才产生了海森矩阵
hessian 矩阵是什么	是一个对称矩阵表达式为：
哪里用到了hessian矩阵	牛顿法和判断极值点都用到了海森矩阵极值判断用海森矩阵看是极大值还是极小值牛顿法在一阶导数基础上引入了 hessian，提升了 SGD
为什么说凸函数的极小值就是全局最优解	思考这个问题的方法很简单 1. 什么是极值点，从文字转化为数学公式： f(x) < f(x+δ) 且 f(x) < f(x-δ) 2. 什么是凸函数，有 f(Θx + (1-Θ)y ) <= Θf(x) + (1-Θ)f(y) 那么有： x2 属于 dom(f(x)) 即 x2 是f(x) 定义域内任意一点，那么只要 (1-Θ) 的值取的适当，即 Θ 无线趋近于 1，那么 Θx + (1-Θ)x2 就能出现在邻域x 的内而只要在邻域内那么就有 f(x) <= f( Θx + (1-Θ)x2 ) #到目前为止应用的是极值点的定义现在使用凸函数的定义：即： f(x) <= f( Θx + (1-Θ)x2 ) <= Θf(x) + (1-Θ)f(x2) 即有 f(x) <= Θf(x) + (1-Θ)f(x2)，整理有可得： (1-Θ)f(x) <= (1-Θ)f(x2) f(x) <= f(x2) 注意：这个 x2 是任取的 summary：任取 x2，然后把 x2 放到 x 的邻域当中，然后使用凸函数的放缩技巧，得出 f(x) <= f(x2) 的结论式子 refer https://www.zhihu.com/question/38724253
如何看待二次型	二次型可以看做是一个函数，即： f(x) = xT·A·x，而 A 可以看做是二次型的参数 input of the function is x output 只关心其正负性对于二次型：定义法几乎没意义，不具有判断能力，需要使用其判别式即特征值全正建立定义式和判别式的概念
一个概念	softmax 是函数，只是因为应用了 argmax 使其成为分类器
如何看待这个约束图	虚线部分是目标函数，而抛物线和直线的相交区域是可行域，即点只能出在这里面而要的是目标值 min，所以等值线扩大，一旦相切，就是约束解
深度梯度下降	深度梯度下降每次也是取梯度的负方向，即 dk = -f'(x) 但是与 SGD 不同之处在于，对于这个步长进行了限制，即：每次的步长都是计算出来的，即： d(f(x+α·dk)) /dα = 0 取极值时候的 α 但是为什么有垂直这个概念，也还是不清楚。。。。。。。。。
牛顿法	牛顿法的基本思路就是 take the hessian into consideratio 即把二阶导数引入了进来。。。。但是为什么可以一步到位还不清楚。。。。。
KKT条件	属性：是拉格朗日法的扩展拉格朗日法只能用于约束条件是等式的情况下，而不是 KKT 条件可以用于非等式约束的情况具体的条件为：有约束条件的优化的一般式设 x* 为最优值，那么哟 1） ai(x) = 0 # 语义解释：满足约束中的等式约束 2） cj(x) >=0 # 语义解释：满足约束中的不等式约束 3） f'(x) = Σλi·ai'(x) + Σμj·cj(x) # 语义解释：这一步体现了与拉格朗日法的关系，即对于不等式约束不是直接添加系数加上去，而是在导数上存在这个约束关系。 4） μj·cj(x) =0 # 语义解释：即如果 μj !=0，那么 cj(x) =0，即 μj 与 cj(x) 当中至少有一个为0 5） μj >=0 # 语义解释：这个是在说明给 cj(x) 乘上的系数的正负性，都得是正的按照这个方法，找出满足这5个条件的 x 的集合，就是可行解再想办法从中找更准确的解吧

查看全文

相关阅读:
转 python 的几个内置函数（lambda ,zip, filter, map, reduce ）用法
 给明年依然年轻的我们
 青春易逝，留白抱憾
 ubuntu ××.10和××.04分别代表什么意思
 mysql创建用户的一些问题
 解藕的小例子
 《Getting Real》读书笔记
 宏中常用到的属性和方法
 宏生成图表
 Excel的一些常用操作，给自己记录一下，呵呵！

原文地址：https://www.cnblogs.com/jianzhitanqiao/p/5488653.html