zoukankan html css js c++ java

各层的特征的差异性

motivation

不同层之间的特征分布有什么关系?

对比STD 和 AT, 有一些结果是预期的, 显然AT的最后logits是变化是很小的, 而STD的变化很大. 不过有意思的是, 其实STD的前面的层, 变化也都不大, 到了pooling前后变化一下子打了起来, 所以如果对pooling前加以限制是否能提高鲁棒性? 感觉会是跷跷板啊.

注: AT比STD多了一层, 是把输入作为第一层添加进去了.

norminf

查看全文

相关阅读:
P1631-序列合并
 P1484-种树
 17.树的子结构(python)
16.合并两个排序的链表(python)
反转链表
 链表中倒数第k个节点(python)
调整数组顺序使奇数位于偶数前面（python）
Spark--wordcount（词频降序）
数值的整数次方
 二进制中1的个数(python)