小匠_碣第三周期打卡 Task06~Task08

对输入的标准化（浅层模型）

　　处理后的任意一个特征在数据集中所有样本上的均值为0、标准差为1。
　　标准化处理输入数据使各个特征的分布相近

批量归一化（深度模型）

　　利用小批量上的均值和标准差，不断调整神经网络中间输出，从而使整个神经网络在各层的中间输出的数值更稳定。

ResNet：

　　残差网络，普通神经网络和残差网络对比，残差网络拟合的是残差，残差块通过跨层的数据通道从而能够训练出有效的深度神经网络。

　　稠密连接网络（DenseNet）：

　　　　DenseNet包括稠密块(dense block)和过渡层(transition layer)，前者定义了输入和输出是如何连结的，后者则用来控制通道数，使之不过大。

　　稠密块：

　　　　输出通道数=输入通道数+卷积层个数*卷积输出通道数

　　过渡层：

　　　　由于每个稠密块都会带来通道数的增加，使用过多则会带来过于复杂的模型。过渡层用来控制模型复杂度。它通过1 × 1卷积层来减小通道数，并使用步幅为2的平均池化层减半高和宽，从而进一步降低模型复杂度。

练习：

nn.BatchNorm2d(6)的含义是：D

A：全连接层的批量归一化，batchsize为6

B：卷积层的批量归一化，batchsize为6

C：全连接层的批量归一化，输出神经元个数为6

D：卷积层的批量归一化，通道数为6

nn.BatchNorm2d()表示卷积层的BN，参数为通道数。nn.BatchNorm1d()表示全连接层的BN，参数为输出神经元个数。

关于BN层描述错误的是：B

关于数据的读取，以下哪项描述是错误的：C

A：除了运用一个固定的分割符进行单词的切分外，在实现分词函数时，还能加上更多的功能，如子词的切分和特殊字符的处理等

B：从原理上来说，对数据中的句子进行补齐或截断是不必要的，这么做是为了加强模型并行计算的能力

C：将文本序列转化为下标张量时，需要将张量转换为 torch.float 进行存储

D：直接读取预训练好的 GloVe 词向量和其对应的词典也能完整地实现文本情感分类模型，并不一定需要针对数据集本身创建词典

答案解释

选项1：针对任务或语言的特性特殊实现的分词函数，将更有利于模型的训练，但在设计该函数时要注意预训练词向量是定义在什么词典上的，不能使 out-of-vocabulary 词过多

选项2：无论是循环神经网络，还是卷积神经网络，理论上都是能在任何长度的文本上进行运算的，但规范化模型的长度会有利于模型进行批量化的计算

选项3：PyTorch 的嵌入层在进行前向传播时，其输入张量需要为 torch.long 格式

选项4：理论上这么做是可行的，但缺少个性化的词典，会使模型在该任务上的表现下降

2.

关于使用双向循环神经网络进行文本情感分类，以下哪项描述是错误的：D

A：双向循环神经网络比单向循环神经网络更能抓住文本的特征

B：双向循环神经网络中的隐藏状态不能并行地计算

C：通常会给循环神经网络模型输入两个特殊的初始状态向量，以表示文本的两端

D：双向循环神经网络不能进行多层叠加

答案解释

选项1：由于自然语言中常常有一些特殊的倒装结构，所以拥有两个方向的隐藏状态的双向循环神经网络，其输出更具文本代表性。注意，虽然两个方向的隐藏状态在输出前被拼接在了一起，但他们仍然是独立地被运算出来的，所以双向循环神经网络也不能从根本上解决文本的双向依赖问题，而卷积神经网络和 Transformer 这样完全并行的结构则不存在该问题

选项2：对于每个方向的每个隐藏状态，计算它时都会用到该方向中上一步的隐藏状态，所以双向循环神经网络中的隐藏状态不能被并行地算出

选项4：可以将双向循环神经网络的输出再次作为输入，输入到下一层的双向循环神经网络中，从而得到一个多层的结构

3.

关于使用卷积神经网络进行文本情感分类，以下哪项描述是错误的：A

A：一维卷积层输出的宽度为输入的宽度减去核的宽度

B：定义多个输出通道的卷积核有利于模型提取更丰富的文本特征，定义多种宽度的卷积核有利于模型提取多个层次的文本特征

C：并不需要对每一个卷积核都单独地定义一个池化层

D：对所有卷积操作的结果进行池化和拼接之后，得到的向量就可以作为文本的一个整体的表示

答案解释

选项1：一维卷积层输出的宽度为输入的宽度减去核的宽度加一

选项2：输出通道数越多，可以捕捉的单词的组合就越多；而拥有不同宽度的核，就能让模型对文本中各个长度的单词组合都有关注

选项3：由于池化操作与输入的序列长度无关，本身也不含任何参数，故可以所有卷积核共用一个池化层

选项4：每个卷积和池化后的结果都可以看作是该卷积核在文本上提取出的特征，而拼接这些特征，就能得到整个文本的一个整体表示

下列不属于图像增广的作用的是：B

A：缓解过拟合

B：缓解欠拟合

C：增加模型泛化能力

D：通过旋转/翻转等方式可以降低对某些属性的依赖。

答案解释

选项二：错误，欠拟合普遍原因是模型对于数据过于简单，因此图像增广不能缓解欠拟合，但是能缓解过拟合，通过加入相似的图片也能提高泛化能力和减小对某些无关属性如图片方向、大小的依赖。

2.

下列不属于图像增广的方法有：A

A：复制图片

B：翻转图片

C：加入噪点

D：调整亮度

答案解释

选项一：错误，复制图片并没有改变图片，也没有扩大数据集，仅仅增加了该图片训练的次数。

3.

torchvision.transforms.RandomHorizontalFlip()函数的作用是：D

A：180°旋转图片

B：顺时针90°旋转图片

C：上下翻转图片

D：左右翻转图片

答案解释

选项四：正确，通过torchvision.transforms模块创建RandomHorizontalFlip实例来实现一半概率的图像左右翻转。

1.假设我们将源模型的输出层改成输出大小为目标数据集类别个数的输出层，则对于这个新的输出层如何初始化B

A：复制源模型的参数进行初始化

B：随机初始化参数

C：用全零初始化参数

D：不需要初始化

2.假设我们将源模型的输出层改成输出大小为目标数据集类别个数的输出层，在训练过程中下列说法正确的是A

A：对输出层使用较大的学习率，对其他层使用较小的学习率。

B：对输出层使用较小的学习率，对其他层使用较大的学习率。

C：对输出层和其他层使用相同大小的学习率。

D：对输出层进行微调，其他层保持参数不变，不需要学习。

小匠_碣第三周期打卡 Task06~Task08

Task06：批量归一化和残差网络；凸优化；梯度下降

批量归一化和残差网络

对输入的标准化（浅层模型）

批量归一化（深度模型）

凸优化

梯度下降

Task07：优化算法进阶；word2vec；词嵌入进阶

优化算法进阶

word2vec

词嵌入进阶

载入预训练的 GloVe 向量

Task08：文本分类；数据增强；模型微调

文本分类

数据增强

模型微调

小匠_碣 第三周期打卡 Task06~Task08

Task06：批量归一化和残差网络；凸优化；梯度下降

批量归一化和残差网络

对输入的标准化（浅层模型）

批量归一化（深度模型）

凸优化

梯度下降

Task07：优化算法进阶；word2vec；词嵌入进阶

优化算法进阶

word2vec

词嵌入进阶

载入预训练的 GloVe 向量

Task08：文本分类；数据增强；模型微调

文本分类

数据增强

模型微调

小匠_碣第三周期打卡 Task06~Task08