《python深度学习》笔记---5.1、卷积神经网络简介

zoukankan html css js c++ java

《python深度学习》笔记---5.1、卷积神经网络简介

《python深度学习》笔记---5.1、卷积神经网络简介

一、总结

一句话总结：

弄清楚为什么不同卷积核为什么得到的是不同的特征图

为什么下采样采用最大池化层（为什么不是渐进卷积层或平均池化）

1、dense层的名字？

密集连接层

2、密集连接层和卷积层的根本区别？

Dense层是全局模式：Dense 层从输入特征空间中学到的是全局模式（比如对于 MNIST 数字，全局模式就是涉及所有像素的模式）

卷积层是二维小窗口中发现的模式：而卷积层学到的是局部模式，对于图像来说，学到的就是在输入图像的二维小窗口中发现的模式。在上面的例子中，这些窗口的大小都是 3×3。

3、卷积层学到的是局部模式，对于图像来说，学到的就是在输入图像的二维小窗口中发现的模式。这个重要特性使卷积神经网络具有以下两个有趣的性质？

平移不变性：【右下角学到某个模式之后，它可以在任何地方识别这个模式】：卷积神经网络学到的模式具有平移不变性（translation invariant）。卷积神经网络在图像右下角学到某个模式之后，它可以在任何地方识别这个模式，比如左上角。对于密集连接网络来说，如果模式出现在新的位置，它只能重新学习这个模式。这使得卷积神经网络在处理图像时可以高效利用数据

模式的空间层次结构：【第一层识别边缘，第二层学习由第一层特征组成的更大的模式】：卷积神经网络可以学到模式的空间层次结构（spatial hierarchies of patterns），见图5-2。第一个卷积层将学习较小的局部模式（比如边缘），第二个卷积层将学习由第一层特征组成的更大的模式，以此类推。这使得卷积神经网络可以有效地学习越来越复杂、越来越抽象的视觉概念（因为视觉世界从根本上具有空间层次结构）。

4、什么是卷积神经网络的平移不变性？

【右下角学到某个模式之后，它可以在任何地方识别这个模式】：卷积神经网络在图像右下角学到某个模式之后，它可以在任何地方识别这个模式，比如左上角。对于密集连接网络来说，如果模式出现在新的位置，它只能重新学习这个模式。这使得卷积神经网络在处理图像时可以高效利用数据

5、什么是卷积神经网络的模式的空间层次结构？

【第一层识别边缘，第二层学习由第一层特征组成的更大的模式】：卷积神经网络可以学到模式的空间层次结构（spatial hierarchies of patterns），见图5-2。第一个卷积层将学习较小的局部模式（比如边缘），第二个卷积层将学习由第一层特征组成的更大的模式，以此类推。这使得卷积神经网络可以有效地学习越来越复杂、越来越抽象的视觉概念（因为视觉世界从根本上具有空间层次结构）。

6、特征图这一术语的含义？

深度轴上的2D图：深度轴的每个维度都是一个特征（或过滤器），而2D 张量 output[:, :, n] 是这个过滤器在输入上的响应的二维空间图（map）。

7、卷积两个关键参数？

从输入中提取的图块尺寸：这些图块的大小通常是3×3 或 5×5。本例中为3×3，这是很常见的选择。

输出特征图的深度：卷积所计算的过滤器的数量。本例第一层的深度为32，最后一层的深度是 64。

8、卷积核的长、宽都是人为指定的，长X宽也被称为卷积核的尺寸，常用的尺寸为3X3，5X5等；？

卷积核的深度与当前图像的深度（feather map的张数）相同：所以指定卷积核时，只需指定其长和宽两个参数。例如，在原始图像层（输入层），如果图像是灰度图像，其feather map数量为1，则卷积核的深度也就是1；如果图像是grb图像，其feather map数量为3，则卷积核的深度也就是3.

9、卷积核个数的理解？

feature map数：有多少个卷积核，经过卷积就会产生多少个feature map，也就是下图中 `豆腐皮儿`的层数、同时也是下图`豆腐块`的深度（宽度）！

10、不同卷积核为什么得到的是不同的特征图？

过滤器的权重不一样：过滤器的权重是随机初始化的

要减少损失函数，所以必学不一样的特征：只有卷积核学习到不同的特征，才会减少成本函数

随机初始化的权重可能会确保每个过滤器收敛到成本函数的不同的局部最小值。
每个过滤器开始模仿其他过滤器是不可能的，因为这几乎肯定会导致成本函数的增加，梯度下降算法不会让模型朝这个方向发展。

11、卷积层步幅为2表示什么？

2倍下采样：步幅为2 意味着特征图的宽度和高度都被做了2 倍下采样（除了边界效应引起的变化）。

12、步进卷积与最大池化的共同作用？

对特征图进行下采样：例如，在第一个 MaxPooling2D 层之前，特征图的尺寸是 26×26，但最大池化运算将其减半为 13×13。

13、最大池化与卷积的最大不同之处在于？

【最大池化2*2步长2,卷积3*3步长1】：最大池化通常使用2×2 的窗口和步幅2，其目的是将特征图下采样 2 倍。与此相对的是，卷积通常使用 3×3 窗口和步幅 1。

14、没有池化层，卷积神经网络这种架构会出现什么问题？

这种架构不利于学习特征的空间层级结构：第三层的3×3 窗口中只包含初始输入的 7×7窗口中所包含的信息。卷积神经网络学到的高级模式相对于初始输入来说仍然很小，这可能不足以学会对数字进行分类（你可以试试仅通过7 像素×7 像素的窗口观察图像来识别其中的数字）。我们需要让最后一个卷积层的特征包含输入的整体信息。

参数太多：最后一层的特征图对每个样本共有22×22×64=30 976 个元素。这太多了。如果你将其展平并在上面添加一个大小为512 的 Dense 层，那一层将会有1580 万个参数。这对于这样一个小模型来说太多了，会导致严重的过拟合

15、使用下采样（池化层）的原因？

减少元素个数：一是减少需要处理的特征图的元素个数，

观察窗口变大：二是通过让连续卷积层的观察窗口越来越大（即窗口覆盖原始输入的比例越来越大），从而引入空间过滤器的层级结构。

16、最大池化不是实现这种下采样的唯一方法？

渐进卷积层和平均池化：渐进卷积层和平均池化都没有最大池化做下采样好

观察最大值能够得到更多信息（相比平均值）：原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在（因此得名特征图），而观察不同特征的最大值而不是平均值能够给出更多的信息。

17、为什么下采样采用最大池化层（为什么不是渐进卷积层或平均池化）？

渐进卷积层和平均池化：渐进卷积层和平均池化都没有最大池化做下采样好

观察最大值能够得到更多信息（相比平均值）：原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在（因此得名特征图），而观察不同特征的最大值而不是平均值能够给出更多的信息。

18、最合理的子采样策略？

密集特征图：首先生成密集的特征图（通过无步进的卷积），

观察特征小图最大激活：然后观察特征每个小图块上的最大激活，而不是查看输入的稀疏窗口（通过步进卷积）或对输入图块取平均，

错过或淡化特征：因为后两种方法可能导致错过或淡化特征是否存在的信息。

二、内容在总结中

转自或参考：

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处
一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

博主25岁，前端后端算法大数据人工智能都有兴趣。

大家有啥都可以加博主联系方式（qq404006308，微信fan404006308）互相交流。工作、生活、心境，可以互相启迪。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

26岁，真心找女朋友，非诚勿扰，微信fan404006308，qq404006308

人工智能群：939687837

作者相关推荐

感悟总结

其它重要感悟总结

感悟总结200813 最近心境200830 最近心境201019 201218-210205

查看全文

相关阅读:
使用八爪鱼采集所需信息
 一些小疑问&解答
 第一页的简单爬取
 【不解决了】对Spark源码进行编译
 python学习中的序列函数
 关于python中的小知识总结
 python学习13之数据泄密
 python学习12之梯度推进
 python学习11之交叉验证
 python学习10之管道清理建模

原文地址：https://www.cnblogs.com/Renyi-Fan/p/13782879.html

《python深度学习》笔记---5.1、卷积神经网络简介

《python深度学习》笔记---5.1、卷积神经网络简介

一、总结

一句话总结：

弄清楚为什么不同卷积核为什么得到的是不同的特征图

为什么下采样采用最大池化层（为什么不是渐进卷积层或平均池化）

1、dense层的名字？

密集连接层

2、密集连接层和卷积层的根本区别？

Dense层是全局模式：Dense 层从输入特征空间中学到的是全局模式（比如对于 MNIST 数字，全局模式就是涉及所有像素的模式）

卷积层是二维小窗口中发现的模式：而卷积层学到的是局部模式，对于图像来说，学到的就是在输入图像的二维小窗口中发现的模式。在上面的例子中， 这些窗口的大小都是 3×3。

3、卷积层学到的是局部模式，对于图像来说，学到的就是在输入图像的二维小窗口中发现的模式。这个重要特性使卷积神经网络具有以下两个有趣的性质？

4、什么是卷积神经网络的 平移不变性？

5、什么是卷积神经网络的 模式的空间层次结构？

6、特征图这一术语的含义？

深度轴上的2D图：深度轴的每个维度都是一个特征（或过滤器），而2D 张量 output[:, :, n] 是这个过滤器在输入上的响应 的二维空间图（map）。

7、卷积两个关键参数？

从输入中提取的图块尺寸：这些图块的大小通常是3×3 或 5×5。本例中为3×3，这是 很常见的选择。

输出特征图的深度：卷积所计算的过滤器的数量。本例第一层的深度为32，最后一层的 深度是 64。

8、卷积核的长、宽都是人为指定的，长X宽也被称为卷积核的尺寸，常用的尺寸为3X3，5X5等；？

9、卷积核个数的理解？

feature map数：有多少个卷积核，经过卷积就会产生多少个feature map，也就是下图中 `豆腐皮儿`的层数、同时也是下图`豆腐块`的深度（宽度）！

10、不同卷积核为什么得到的是不同的特征图？

过滤器的权重不一样：过滤器的权重是随机初始化的

要减少损失函数，所以必学不一样的特征：只有卷积核学习到不同的特征，才会减少成本函数

11、卷积层步幅为2表示什么 ？

2倍下采样：步幅为2 意味着特征图的宽度和高度都被做了2 倍下采样（除了边界效应引起的变化）。

12、步进卷积与最大池化的共同作用？

对特征图进行下采样：例如，在第一个 MaxPooling2D 层之前，特征图的尺寸是 26×26，但最大池化运算将 其减半为 13×13。

13、最大池化与卷积的最大不同之处在于？

【最大池化2*2步长2,卷积3*3步长1】：最大池化通常使用2×2 的窗口和步幅2，其目 的是将特征图下采样 2 倍。与此相对的是，卷积通常使用 3×3 窗口和步幅 1。

14、没有池化层，卷积神经网络这种架构会出现什么问题？

参数太多：最后一层的特征图对每个样本共有22×22×64=30 976 个元素。这太多了。如果你将其 展平并在上面添加一个大小为512 的 Dense 层，那一层将会有1580 万个参数。这对于 这样一个小模型来说太多了，会导致严重的过拟合

15、使用下采样（池化层）的原因？

减少元素个数：一是减少需要处理的特征图的元素个数，

观察窗口变大：二是通过让连续 卷积层的观察窗口越来越大（即窗口覆盖原始输入的比例越来越大），从而引入空间过滤器的层 级结构。

16、最大池化不是实现这种下采样的唯一方法？

渐进卷积层和平均池化：渐进卷积层和平均池化都没有最大池化做下采样好

观察最大值能够得到更多信息（相比平均值）：原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在（因此得 名特征图），而观察不同特征的最大值而不是平均值能够给出更多的信息。

17、为什么下采样采用最大池化层（为什么不是渐进卷积层或平均池化）？

渐进卷积层和平均池化：渐进卷积层和平均池化都没有最大池化做下采样好

观察最大值能够得到更多信息（相比平均值）：原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在（因此得 名特征图），而观察不同特征的最大值而不是平均值能够给出更多的信息。

18、最合理的子采样策略？

密集特征图：首先生成密集的特征图（通过无步进的卷积），

观察特征小图最大激活：然后观察特征每个小图块上的最大激活， 而不是查看输入的稀疏窗口（通过步进卷积）或对输入图块取平均，

错过或淡化特征：因为后两种方法可能导致 错过或淡化特征是否存在的信息。

二、内容在总结中

作者相关推荐

卷积层是二维小窗口中发现的模式：而卷积层学到的是局部模式，对于图像来说，学到的就是在输入图像的二维小窗口中发现的模式。在上面的例子中，这些窗口的大小都是 3×3。

4、什么是卷积神经网络的平移不变性？

5、什么是卷积神经网络的模式的空间层次结构？

深度轴上的2D图：深度轴的每个维度都是一个特征（或过滤器），而2D 张量 output[:, :, n] 是这个过滤器在输入上的响应的二维空间图（map）。

从输入中提取的图块尺寸：这些图块的大小通常是3×3 或 5×5。本例中为3×3，这是很常见的选择。

输出特征图的深度：卷积所计算的过滤器的数量。本例第一层的深度为32，最后一层的深度是 64。

11、卷积层步幅为2表示什么？

对特征图进行下采样：例如，在第一个 MaxPooling2D 层之前，特征图的尺寸是 26×26，但最大池化运算将其减半为 13×13。

【最大池化22步长2,卷积33步长1】：最大池化通常使用2×2 的窗口和步幅2，其目的是将特征图下采样 2 倍。与此相对的是，卷积通常使用 3×3 窗口和步幅 1。

参数太多：最后一层的特征图对每个样本共有22×22×64=30 976 个元素。这太多了。如果你将其展平并在上面添加一个大小为512 的 Dense 层，那一层将会有1580 万个参数。这对于这样一个小模型来说太多了，会导致严重的过拟合

观察窗口变大：二是通过让连续卷积层的观察窗口越来越大（即窗口覆盖原始输入的比例越来越大），从而引入空间过滤器的层级结构。

观察最大值能够得到更多信息（相比平均值）：原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在（因此得名特征图），而观察不同特征的最大值而不是平均值能够给出更多的信息。

观察最大值能够得到更多信息（相比平均值）：原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在（因此得名特征图），而观察不同特征的最大值而不是平均值能够给出更多的信息。

观察特征小图最大激活：然后观察特征每个小图块上的最大激活，而不是查看输入的稀疏窗口（通过步进卷积）或对输入图块取平均，

错过或淡化特征：因为后两种方法可能导致错过或淡化特征是否存在的信息。