达叔系列——神经网络编程基础

zoukankan html css js c++ java

达叔系列——神经网络编程基础
　　以下内容为听了达叔课程的笔记与疑惑之处，暂且都记下。如有不妥之处，尽情指出。

（1）二分类问题

　　目标：习得一个分类器，它以图片的特征向量作为输入，然后预测出结果 y 为 1 还是 0 。比如，我们需要预测一张图片是不是猫，输出 1 即预测是，0 则不是。

　　图片的特征向量：首先，计算机保存一张图片需要保存 3 个矩阵，分别对应 RGB 三个颜色通道。比如图片为 64 * 64 像素（下图故意为 5 * 4 规模），那就需要存储各个颜色通道上的像素强度。通过将 255，231...255,134...93,22... 等数字提取出来放到一个特征向量 x 中（即（n_x,1）n_x = 64 * 64 * 3 = 12288，常用 n 表示特征向量维度）。

　　相关符号：会在余下课程中涉及。
- x 表示一个 n_x维数据，为输入数据，（n_x , 1）
- y 表示输出结果，取值为 1 or 0
- (x⁽ⁱ⁾, y⁽ⁱ⁾) 表示第 i 组训练数据 or 测试数据，默认是前者
- X = [ x⁽¹⁾, x⁽²⁾ , x⁽³⁾, x⁽⁴⁾ ... x^(m)] 表示所有训练集的输入值，放在 n_x * m 的矩阵中（在 Python 中常用 X.shape 这条命令表示规模）
- Y = [ y⁽¹⁾, y⁽²⁾ , y⁽³⁾, y⁽⁴⁾ ... y^(m)] 表示输出值
（2）逻辑回归

　　逻辑回归是应用于二分类问题的算法。

（1）逻辑回归的 Hypothesis Function （假设函数）

　　对于二分类问题，当输入 X (即图片特征向量) ，我们想要一个算法预测是不是输入了一只猫，即期望输出一个预测结果 y hat ，换句话说我们想要 y hat 表示 y = 1 的可能性。

　　已知 logistic 回归的参数有 w （n_x维向量，w 实际上是特征权重，维度与特征向量相同），b （实数，表偏差）。所以给出输入 x，参数 w，b 之后，我们尝试通过 y hat = w^T * x + b，一个关于 x 的线性函数（适合用于做线性回归问题，不适合做二分类。因为 y hat 需要表示预测 y=1 的概率，所以取值属于 0~1 ，而线性回归函数取值不一定在此之内。），我们将线性回归式子作为 sigmoid 函数的自变量，将线性函数转化为非线性函数。

sigmoid 函数图像（为什么么选 sigmoid 函数作为逻辑回归函数，插眼）

　　我们可以看到，当 z->∞，б->1，当 z->-∞，б->0。所以 z (即 y hat) 用来预测等于 1 的概率，怎么预测呢，就是不断调整训练 w，b 两个参数，控制 z ，再控制 б 的输出。

（2）逻辑回归的代价函数（logistic regression cost function）

　　为了训练 w,b 我们需要代价函数，通过代价函数来得到参数 w,b 。先看下逻辑回归函数：

（1）损失函数（误差函数）： Loss function : L(y hat, y)

　　根据此函数来衡量测试输出值 y hat 和 y 的差距大小。一般我们用两者平方差，但是在逻辑回归中我们不这样做，因为会发现优化目标不是凸忧化，只能找到多个局部最优值，梯度下降法很可能找不到全局最优值（插眼）。

　　所以定义了另一个损失函数：（为什么是这个函数呢，插眼---解释一：下文会提到 J(w,b) ，为保证 J(w, b) 函数是凸函数，即只有一个最小值）。

　　

　　我们在来看看这个 Loss function 是否能满足基本取值要求：

　　

　　在这门课中很多的函数效果和以上这个类似，如果 y = 1, 我们就尽可能让 y hat 变大，如果 y = 0, 我们就尽可能让 y hat 变小。（牢记 y hat 表示的是 y = 1 的概率）

（2）代价函数

　　损失函数是描述单个训练样本的，代价函数描述整个数据集的表现如何。代价函数是将所有数据集的损失函数求和再除 m (数据集大小)。

　　

　　所以，在实际中，其实我们需要关注整个训练集，而不单单关注其中一次训练。即我们最终目标是找到变量 w，b 使得整个 J(w, b) 变成最小。

　　

　　结果表明：逻辑回归函数可以看成一个非常小的神经网络。

（3）梯度下降法

　　我们已经有了上文提到的代价函数，那么怎么使得代价函数 J(w, b) 值最小呢？我们就通过梯度下降法实现。J(w, b) 函数可以表示成如下：其中红点处为最小值，此时的 w, b 就是我们所期盼的参数

（1）怎么找到最小值

　　可以用图中小红点初始化，对于逻辑回归函数所有的初始化几乎都有效，因为是凸函数，无论在哪里初始化，最终最小值应该找到大致相同的点。

　　所以可以从小红点开始，不断找该点梯度最大的，然后下降，不断迭代。最后找到全局或者部分最优解。

（2）进一步理解

　　其实将 J(w, b) 进行切面处理，在 w , b 轴都做切面，将三维转化成二维（投影），二维取到的最小值的点中必定包含着我们需要找的三位的最小值。

　　

　　即 J(w) ，J(b) 只有一个参数，不断迭代:

　　其中 “：=” 表示不断更新。a 表示学习率（后文会提及如何控制 a ），用来控制步长。a*d(J(w))/dw 用来表示具体 w 的每一次减少量，直至到 J(w) 的底部。最终回到 J(w,b) 改成求偏导：

（4）计算图与其求导

　　在神经网络的计算中，都是按照向前或反向传播过程中组织的，紧接着进行一个反向传输操作，用来计算对应的梯度与倒数。

　　那这个和计算图有什么关系呢？我们举一个比逻辑回归更简单的神经网络：（蓝色为前向传播，红色为后向传播---求导）

　　

　　　　

　　个人觉得，计算图最大的好处就是链式求导法则会更加清晰，

（5）逻辑回归中的梯度下降

　　本节讨论通过计算偏导数实现逻辑回归的梯度算法。

　　假设样本只有 x1,x2 ,为了计算 z ，我们需要输入 w1,w2,b 参数，即 z = w1*x1 + w2*x2 + b。

　　

（1）假设现在只考虑单个样本情况

　　单个样本呢代价函数为：

　　

　　其中 a 是逻辑回归的输出（y hat），y 是样本标签值。那么我们可以得到表示这个计算的计算图：

　　上图写的是前向传播计算 L(a,y) 。我们现在通过反向计算出导数（这样就能知道 L 关于 w1,w2, b 的变化率）

　　编程中我们用 da 表示 d(a, y)/da （习惯写法记牢，＞﹏＜）。开始一步一步反向积分：

　　

　　a = σ（z），所以我们可以求 dz :

　　再求 da/dz = a * (1 - a)，过程：

　　

　　再回到 dz = dL / dz :

　　

　　好了，想想我们最终的目的是谁，是参数 w1,w2,b 关于 L(w,b) 的变化率，所以别忘了找最终单个样本的代价函数 L -- w,b 之间的关系：

　　

　　注意：L(a,y) 中 a 是复合函数，最终是关于 w1,w2,b 的函数，所以分清谁是自变量（不是 x1,x2哦），如上图，我详细写了的求导过程，但是上述都是对单个测试样本的后向传播。

　　那么我们就可以根据公式调整 w1,w2,b 了：

　　其中的a就是学习率（步长），后文会讲解，暂按下不表。

（2）考虑 m 个样本的梯度下降

　　上文已经提到了单个样本怎么训练（即调整参数 w1,w2,b ），那多个样本呢？我们先回顾多个样本的代价函数 J(w, b) 的定义：　　

　　

　　我们已经求得了单个样本的损失函数，代价函数无非是求和取平均值：

　　

（3）m 个样本的梯度下降算法实现

　　算法大致流程：
1 J=0,dw_1=0,dw_2=0,db=0 # 我们初始化 2 3 J=0;dw1=0;dw2=0;db=0; # 代码流程 4 for i = 1 to m 5 z(i) = wx(i)+b; 6 a(i) = sigmoid(z(i)); 7 J += -[y(i)log(a(i))+(1-y(i)）log(1-a(i)); 8 dz(i) = a(i)-y(i); 9 dw1 += x1(i)dz(i); 10 dw2 += x2(i)dz(i); 11 db += dz(i); 12 J/= m; 13 dw1/= m; 14 dw2/= m; 15 db/= m; 16 w=w-alpha*dw # alpha 就是步长 17 b=b-alpha*db
　　算法缺点：主要是 for 效率不高。代码有两处 for : ① 就是第一行，此处因为我们只有3个变量 w1,w2,b，如果有多个呢 ② 就是第四行，需要求和 dw1,dw2,db。后续会讲解改进方法。

（6）向量化

　　向量化的目的就是处理 for 循环，当数据量较大的时候，通过 for 来处理会十分低效。那么肿么向量化呢？

　　在逻辑回归中计算 z = w^T * x + b ，w/b 都是列向量，所以我们不妨将 x1,x2,x3...也当成一个向量。

　　非向量化处理 w^T * x VS 向量化处理：
1 z=0 2 for i in range(n_x) 3 z+=w[i]*x[i] 4 z+=b
1 z=np.dot(w,x)+b # 通过numpy函数向量化，插眼numpy函数需要继续学习，先有个向量化概念
　　达叔说我们应该尽量避免 for ，除非迫不得已，能用向量化解决（内置函数）是最好的。

　　我们现在来处理梯度下降算法，也就是通过向量化来处理：

　　w1,w2...变成一个 w 向量，x1,x2...变成一个 x 向量，z1,z2....变成 z 向量。这些向量都是 n 维向量。

（7）向量化逻辑回归

　　本节实现通过向量化显著加快你的代码。其实我感觉就是将 for 循环的重复 x1,x2..z1z2..等等放到一个向量里取处理，理解上没啥。

　　

（8）向量化 logistic 回归的梯度输出

　　我们只需要比较原先写法和改用向量方式写法，就能更好理解了：（当然numpy 函数我还不怎么会搞）

（9）Python中的广播

　　我们知道矩阵的加减乘法，那么如果两个举证格式按照线性代数来看不符合运算规则，那再Python中呢？Python会通过广播来实显示，也就是通过扩展矩阵使得可以运算：

　　　　
查看全文

相关阅读:
8月工作杂记
 好用的MarkDown编辑器
 Windows下遍历某目录下的文件
 Visual Assist 试用期过期怎么办？
网易有道面试
 Windows操作系统C盘占用空间过多
 如果有一天我当了面试官
 matlab进行三维重建
 HBase , Doris
《Java程序设计》第6周学习总结