zoukankan      html  css  js  c++  java
  • Learning in the Frequency Domain 解读

    论文:Learning in the Frequency Domain, CVPR 2020

    代码:https://github.com/calmevtime/DCTNet

    实际的图像尺寸比较大,无法直接输入到CNN处理。因此,各类CNN模型都把图像首先下采样的224x224,然后再处理。但是,这样会引起信息损失并影响准确率。因此,阿里巴巴的研究人员提出新的方法,把RGB图像变换到DCT频率域,而不是直接下采样。该模型不需要改变现有网络结构,因此可以应用于任何CNN网络。

    该方法总体思路:高分辨率RGB图像首先转换到YCbCr颜色空间,然后转换为DCT频域。 这样就产生多个通道。某些通道对于分类识别的影响较大,因此,只保留重要的通道输入到CNN处理即可。

    具体来说,将图像按8x8分块,在Y通道每个块会得到64个DCT信号,对应64个不同的频率分量。对于尺寸为W x H的原始图像, 会有W/8 x H/8 个块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8 的feature map,这样会产生8x8=64个feature map。对于Cb和Cr通道,也可以各自产生64个feature map。总共产生了64x3=192个feature map。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。

    对于ResNet-50,输入为224x224,经过一次卷积和pooling后, feature map 尺寸为 56x56。这样我们可以把 56x56x192 的 feature map 放在这里即可。

    时间有限,没有仔细阅读代码,有时间补上代码的解析。

  • 相关阅读:
    只能输入数字的文本框
    Ajax
    Crtl+Enter提交留言
    onkeydown onkeyup键盘事件
    面向对象基础
    JS鼠标拖拽
    博客收藏
    不错的按钮
    如何在你的java程序中注册系统级热键
    开源GIS系统
  • 原文地址:https://www.cnblogs.com/gaopursuit/p/12552257.html
Copyright © 2011-2022 走看看