MLP-Mixer: An all-MLP Architecture for Vision - 走看看

zoukankan html css js c++ java

MLP-Mixer: An all-MLP Architecture for Vision
目录
概
主要内容
代码
Tolstlkhin I., Houlsby N., Kolesnikov A., Beyer L., Zhai X., Unterthiner T., Yung J., Steiner A., Keysers D., Uszkoreit J., Lucic M., Dosovitskly A. MLP-mixer: an all-mlp architecture for vision. In International Conference on Learning Representations (ICLR), 2021.

概

CNN, Transformer, 现在直接用全连接层就可以了. 真的乱.

主要内容

如上图所示:
1. Input: 和ViT一样, 首先将图片切割成一个个patch, 然后通过全连接层将每个patch映射为其对于的embeddings:
  
  [X in mathbb{R}^{B imes T imes D}, ]
  其中(B)是batch size, (T)即为patches的数目, (D)便是图中channels的大小.
2. 将其通过Mixer Layer N次, 并经过global average pooling得到特征, 再通过全连接层得到logits.
3. 输出类别.
其中, Mixer Layer的流程如下(考虑一个batch):
1. 对每个patch进行独立的处理, 假设(x_i)为第(i)个patch(行向量):
  
  [u_i = x_i + sigma(mathrm{LayerNorm}(x_i)W_1) W_2. ]
2. 此时得到(U in mathbb{R}^{B imes T imes D}), 再假设(u_j in mathbb{R}^T)为第i个channel:
  
  [y_j = u_j + sigma(mathrm{LayerNorm}(u_j)W_3) W_4. ]
3. 最后得到输出(Y).
可以发现, MLP-Mixer 实际上将channel-wise和spatial-wise的操作拆分开来了, 这样即可获得很好的效果.

代码

原文代码
查看全文

相关阅读:
layui动态修改select的选中项
 layui 鼠标悬停单元格显示全部
 使用LayUI操作数据表格
 layer.msg 弹出不同的效果的样式
 layer父页面刷新
 layui 获取radio单选框选中的值
 使用Dapper.Contrib
微信公众号的文章爬取有三种方式
 centos的各种安装包下载位置
 git pull一直弹出vim编辑器

原文地址：https://www.cnblogs.com/MTandHJ/p/14951323.html

Copyright © 2011-2022 走看看