zoukankan      html  css  js  c++  java
  • 论文笔记 Inverting Visual Representations with Convolutional Networks

    最近一段时间看了很多论文,它们有一个共同特点:“小改进、大智慧”,即提出一个很小或者巧妙的构思,然后充分发挥出该构思的潜能。这篇paper就是一个典型!

    Background

    1)特征表达对于模式识别之类的任务很重要。好的特征表达能够提供对“任务”重要的信息,忽略和“任务”不相关的信息。

    2)对于特定的“任务”而言,特征表达提取了什么信息、舍弃了什么信息呢?

    3)本文提出了一种新的分析特征表达的工具。

    4)现有的分析特征表达的工具存在以下问题:含有人为设定的先验信息、要求特征表达可微、测试时间较长、只针对特定特征表达有效等。

    5)本文提出的工具:测试速度较快、不需要设置先验信息、对特征没有条件限制、适用于所有特征表达。

    6)它的core是,让网络自己去学习吧!也就是“No matter what, deep learning it!”

    Main points

    1)如果我们能够根据特征表达重构出图像,该图像就可以很好的解释特征表达蕴含的信息。下面的问题就是依据特征重构出图像!

    2)x表示输入图像、Φ表示x对应的特征,作者将问题转化为了一个点估计问题,f在论文里指反卷积网络,其参数用w表示

       

         最小化(1)loss函数等价于

         也就是给定一个特征表达,得到期望的图像,这个图像在论文中被称之为:expected pre-image。我们可以用蒙特卡洛方法估计估计w,于是得到

     

          简单理解就是,反卷积网络生成的图像应与输入图像在L2范数下尽可能接近。接下来就是获取样本,训练反卷积网络了!

    3)在反卷HOG、LBP、SIFT特征时,有一些实验细节需要处理。对于WxH的输入图像,HOG、LBP的输出维度确定,SIFT不确定,于是作者对SIFT进行了网格化处理使得其输出维度确定!在将这些特征接入反卷积网络之前,作者通过卷积将它们缩放到特定的size(输入图像的1/64)。

    4)在反卷Alexnet时,不同层作者进行了分别处理。具体网络结构可以参考原始论文!

    5)作者采用归一化的重构误差定量评价不同方法的性能!

    6)下面我贴出论文中结论

    Summary

    我下面分析一下作者提出的这个反卷积工具的应用思路

    1)通过将Alexnet每一层反卷积,我们可以得出每一层保留了什么信息,这对应结论1);

    2)如果我们对特征表达进行dropout、二值化处理,我们可以得出信息究竟是以何种方式、模式保存在特征表达中的,这对应结论2);

    3)将概率输出层top 5 activations设置为0、除top 5 之外的activations设置为0,可以得出结论3)。

    这篇论文就是提出了一个反卷积的策略,然后分析究竟特征表达保留了什么信息、怎么保留的、是以何种模式保留的。得出的结论也很好的印证了这些!作者是在灰度图像上提取HOG、SIFT、LBP特征的,用这些特征重构出的图像是彩色的。这在一定程度上表明了反卷积网络能够学习到自然图像的一些着色特性(这可以避免人为添加一些先验信息)!

    CNN网络的capability还是很强的,如何利用好这个特性呢?例如,这篇paper就利用了它能够自动学习自然图像的着色特性。

  • 相关阅读:
    组合与封装
    继承与派生
    面向对象编程
    subprocess、re、logging模块
    json、pickle、collections、openpyxl模块
    python内置模块
    递归函数与模块
    生成式、面向过程、与函数式
    叠加装饰器与迭代器
    闭包函数与装饰器
  • 原文地址:https://www.cnblogs.com/everyday-haoguo/p/Note-IVR.html
Copyright © 2011-2022 走看看