zoukankan      html  css  js  c++  java
  • 论文阅读DSAE,不知道VAE能不能玩的下去

    前段时间一直想扩展双臂,因为桌面变了,摄像头调高了才能看见全貌

    训练效果一直很差

    希望(500epcho):

    在这里插入图片描述

    现实(5000epcho):

    在这里插入图片描述

    发现了这篇arXiv:1509.06113

    稍微总结一下要点,防止以后忘了,这里是另一种autoencoder

    并没有支持变分,不过名字叫 Deep Spatial Autoencoder,

    与一般的autoencoder不同的是,这个算法关注的是where而不是一般的what

    隐空间zz里面存的是feature points的坐标。然后在原图中标记出来
    在这里插入图片描述
    算法首先搜集数据然后训练编码器,loss依然是自动编码器的那个loss: xx^22||x - hat x||_2^2

    其中xx是原图,x^hat x是还原后的图像

    在这里插入图片描述

    encoder如上图,先是三层卷积层然后softmax scij=eacij/α/ijeacij/αs_{c i j}=e^{a_{c i j} / alpha} / sum_{i^{prime} j^{prime}} e^{a_{c i^{prime} j^{prime}} / alpha}把他变成一个分布,然后求期望fc=(iiscij,jjscij)mathbf{f}_{c}=left(sum_{i} i * s_{c i j}, sum_{j} j * s_{c i j} ight)求出16个坐标也就是32个数字

    一个全联通的线性模型来恢复原图,loss:

    LDSAE=t,kI downsamp,k ,thdec(fk,t)22+g slow (fk,t)mathcal{L}_{mathrm{DSAE}}=sum_{t, k} | I_{ ext { downsamp,k }, t}-h_{operatorname{dec}}left(mathbf{f}_{k, t} ight)left|_{2}^{2}+g_{ ext { slow }}left(mathbf{f}_{k, t} ight) ight.

    第k个样本,第t时刻的图片,fk,t=henc(Ik,t)mathbf{f}_{k, t}=h_{mathrm{enc}}left(I_{k, t} ight)是编码后的feature

    g slow (ft)=(ft+1ft)(ftft1)22g_{ ext { slow }}left(mathbf{f}_{t} ight)=left|left(mathbf{f}_{t+1}-mathbf{f}_{t} ight)-left(mathbf{f}_{t}-mathbf{f}_{t-1} ight) ight|_{2}^{2}可以理解为机械臂的移动的加速度,最小化这个目的是让机械臂尽量匀速

    自己原来的vae里的zz是没管里面是啥的,这里是feature points的pos,似乎也可以假设他服从正态分布。这样一来,是不是就是个,ummmmm,Deep Spatial VAE了,好的,我摸了

    老板让先用ground turth的先把强化的框架跑出来,毕竟,要毕业嘛,先记在这个小本本上,估计后面再摸吧

    在这里插入图片描述

  • 相关阅读:
    HDU 4865 Peter's Hobby --概率DP
    UVALive 6093 Emergency Room --优先队列实现的模拟
    UVALive 6665 Dragon’s Cruller --BFS,类八数码问题
    UVALive 6092 Catching Shade in Flatland --枚举+几何计算
    UVALive 6168 Fat Ninjas --二分小数+搜索
    九连环-递归解法
    一道题看bitset应用 --ZOJ 3642
    UVALive 6663 Count the Regions --离散化+DFS染色
    ZOJ 1111 Poker Hands --复杂模拟
    UVALive 6449 IQ Test --高斯消元?
  • 原文地址:https://www.cnblogs.com/cww97/p/12349308.html
Copyright © 2011-2022 走看看