zoukankan      html  css  js  c++  java
  • 《python深度学习》笔记---5.1、卷积神经网络简介

    《python深度学习》笔记---5.1、卷积神经网络简介

    一、总结

    一句话总结:

    弄清楚为什么不同卷积核为什么得到的是不同的特征图
    为什么下采样采用最大池化层(为什么不是渐进卷积层或平均池化)

    1、dense层的名字?

    密集连接层

    2、密集连接层和卷积层的根本区别?

    Dense层是全局模式:Dense 层从输入特征空间中学到的是全局模式(比如对于 MNIST 数字,全局模式就是涉及所有像素的模式)
    卷积层是二维小窗口中发现的模式:而卷积层学到的是局部模式,对于图像来说,学到的就是在输入图像的二维小窗口中发现的模式。在上面的例子中, 这些窗口的大小都是 3×3。

    3、卷积层学到的是局部模式,对于图像来说,学到的就是在输入图像的二维小窗口中发现的模式。这个重要特性使卷积神经网络具有以下两个有趣的性质?

    平移不变性:【右下角学到某个模式之后,它可以在任何地方识别这个模式】:卷积神经网络学到的模式具有平移不变性(translation invariant)。卷积神经网络在图像 右下角学到某个模式之后,它可以在任何地方识别这个模式,比如左上角。对于密集连 接网络来说,如果模式出现在新的位置,它只能重新学习这个模式。这使得卷积神经网 络在处理图像时可以高效利用数据
    模式的空间层次结构:【第一层识别边缘,第二层学习由第一层特征组成的更大的模式】:卷积神经网络可以学到模式的空间层次结构(spatial hierarchies of patterns),见图5-2。 第一个卷积层将学习较小的局部模式(比如边缘),第二个卷积层将学习由第一层特征 组成的更大的模式,以此类推。这使得卷积神经网络可以有效地学习越来越复杂、越来 越抽象的视觉概念(因为视觉世界从根本上具有空间层次结构)。

    4、什么是卷积神经网络的 平移不变性?

    【右下角学到某个模式之后,它可以在任何地方识别这个模式】:卷积神经网络在图像 右下角学到某个模式之后,它可以在任何地方识别这个模式,比如左上角。对于密集连 接网络来说,如果模式出现在新的位置,它只能重新学习这个模式。这使得卷积神经网 络在处理图像时可以高效利用数据

    5、什么是卷积神经网络的 模式的空间层次结构?

    【第一层识别边缘,第二层学习由第一层特征组成的更大的模式】:卷积神经网络可以学到模式的空间层次结构(spatial hierarchies of patterns),见图5-2。 第一个卷积层将学习较小的局部模式(比如边缘),第二个卷积层将学习由第一层特征 组成的更大的模式,以此类推。这使得卷积神经网络可以有效地学习越来越复杂、越来 越抽象的视觉概念(因为视觉世界从根本上具有空间层次结构)。

    6、特征图这一术语的含义?

    深度轴上的2D图:深度轴的每个维度都是一个特征(或过滤器),而2D 张量 output[:, :, n] 是这个过滤器在输入上的响应 的二维空间图(map)。

    7、卷积两个关键参数?

    从输入中提取的图块尺寸:这些图块的大小通常是3×3 或 5×5。本例中为3×3,这是 很常见的选择。
    输出特征图的深度:卷积所计算的过滤器的数量。本例第一层的深度为32,最后一层的 深度是 64。

    8、卷积核的长、宽都是人为指定的,长X宽也被称为卷积核的尺寸,常用的尺寸为3X3,5X5等;?

    卷积核的深度与当前图像的深度(feather map的张数)相同:所以指定卷积核时,只需指定其长和宽 两个参数。例如,在原始图像层 (输入层),如果图像是灰度图像,其feather map数量为1,则卷积核的深度也就是1;如果图像是grb图像,其feather map数量为3,则卷积核的深度也就是3.

    9、卷积核个数的理解?

    feature map数:有多少个卷积核,经过卷积就会产生多少个feature map,也就是下图中 `豆腐皮儿`的层数、同时也是下图`豆腐块`的深度(宽度)!

    10、不同卷积核为什么得到的是不同的特征图?

    过滤器的权重不一样:过滤器的权重是随机初始化的
    要减少损失函数,所以必学不一样的特征:只有卷积核学习到不同的特征,才会减少成本函数


    随机初始化的权重可能会确保每个过滤器收敛到成本函数的不同的局部最小值。
    每个过滤器开始模仿其他过滤器是不可能的,因为这几乎肯定会导致成本函数的增加,梯度下降算法不会让模型朝这个方向发展。

    11、卷积层步幅为2表示什么 ?

    2倍下采样:步幅为2 意味着特征图的宽度和高度都被做了2 倍下采样(除了边界效应引起的变化)。

    12、步进卷积与最大池化的共同作用?

    对特征图进行下采样:例如,在第一个 MaxPooling2D 层之前,特征图的尺寸是 26×26,但最大池化运算将 其减半为 13×13。

    13、最大池化与卷积的最大不同之处在于?

    【最大池化2*2步长2,卷积3*3步长1】:最大池化通常使用2×2 的窗口和步幅2,其目 的是将特征图下采样 2 倍。与此相对的是,卷积通常使用 3×3 窗口和步幅 1。

    14、没有池化层,卷积神经网络这种架构会出现什么问题?

    这种架构不利于学习特征的空间层级结构:第三层的3×3 窗口中只包含初始输入的 7×7窗口中所包含的信息。卷积神经网络学到的高级模式相对于初始输入来说仍然很小, 这可能不足以学会对数字进行分类(你可以试试仅通过7 像素×7 像素的窗口观察图像 来识别其中的数字)。我们需要让最后一个卷积层的特征包含输入的整体信息。
    参数太多:最后一层的特征图对每个样本共有22×22×64=30 976 个元素。这太多了。如果你将其 展平并在上面添加一个大小为512 的 Dense 层,那一层将会有1580 万个参数。这对于 这样一个小模型来说太多了,会导致严重的过拟合

    15、使用下采样(池化层)的原因?

    减少元素个数:一是减少需要处理的特征图的元素个数,
    观察窗口变大:二是通过让连续 卷积层的观察窗口越来越大(即窗口覆盖原始输入的比例越来越大),从而引入空间过滤器的层 级结构。

    16、最大池化不是实现这种下采样的唯一方法?

    渐进卷积层和平均池化:渐进卷积层和平均池化都没有最大池化做下采样好
    观察最大值能够得到更多信息(相比平均值):原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在(因此得 名特征图),而观察不同特征的最大值而不是平均值能够给出更多的信息。

    17、为什么下采样采用最大池化层(为什么不是渐进卷积层或平均池化)?

    渐进卷积层和平均池化:渐进卷积层和平均池化都没有最大池化做下采样好
    观察最大值能够得到更多信息(相比平均值):原因在于特征中往往编码了某种模式或概念在特征图的不同位置是否存在(因此得 名特征图),而观察不同特征的最大值而不是平均值能够给出更多的信息。

    18、最合理的子采样策略?

    密集特征图:首先生成密集的特征图(通过无步进的卷积),
    观察特征小图最大激活:然后观察特征每个小图块上的最大激活, 而不是查看输入的稀疏窗口(通过步进卷积)或对输入图块取平均,
    错过或淡化特征:因为后两种方法可能导致 错过或淡化特征是否存在的信息。

    二、内容在总结中

    转自或参考:

     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    函数指针和指针函数和回调函数以及函数指针数组
    C语言中的结构体,结构体数组
    linux中的shell脚本编程
    回车和换行在linux下和windows下
    内存的段式管理和页式管理,逻辑地址-虚拟地址-物理地址
    [CSAPP-II] 链接[符号解析和重定位] 静态链接 动态链接 动态链接接口
    c语言中函数调用的本质从汇编角度分析
    运算符优先级
    Redis实战经验及使用场景
    RESTful API 设计最佳实践【转】
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/13782879.html
Copyright © 2011-2022 走看看