zoukankan      html  css  js  c++  java
  • 论文笔记:SoundNet: Learning Sound Representations from Unlabeled Video

    论文笔记:SoundNet: Learning Sound Representations from Unlabeled Video

    SoundNet: Learning Sound Representations from Unlabeled Video

    Yusuf Aytar∗ Carl Vondrick∗ Antonio Torralba

    2016 NIPS

    这篇文章是顺着一维卷积相关的内容找过来的,主要是看一下模型实现。这篇文章要解决的问题是自然语音的表示问题,利用深度学习的方法。由于这个任务缺乏带有label的训练集合,所以作者用一些无标签的video进行训练,这种训练集很容易获得。We propose to scale up by capitalizing on the natural synchronization between vision and sound to learn an acoustic representation from unlabeled video.

    网络结构如图所示:


    这里写图片描述

    网络的配置情况configuration如下:


    这里写图片描述

    背景相关的就略过了。主要看一下模型:这里说语音也适用于conv net,因为语音信号的模式我们希望也是 translation invariant 的,并且conv还可以用来降低参数数量。而且,conv比全连接好,可以stack起来,并且认为后面的是higher level concepts。

    另外需要注意的是,由于是conv1d,所以fm是二维的(而conv2d实际上是三维的,但是在tf中考虑batch_size放在第一维度所以是4d tensor)。那么为了适应变长度的输入,那么可以考虑做global pooling,和图像的conv2d想法一样,就是把当前的fm的尺寸的参数消除,都变成1(图像就是1×1),然后输出的实际上是一个vector,这时候这个vec的尺寸就只和设定的末层的filter 的个数一致了。

    关于network depth的问题,由于这个实验中的dataset较大,所以可以设计的深一点,也能避免过拟合。

    这里由于用的是video做输入,所以需要把scene和object的网络模型CNN迁移过来,作为reference,代替标签的作用。用KL散度度量loss。此处从略。

    以上就是模型 SoundNet 的基本情况。

    2018年05月11日23:52:23

    在我们以前,“人生”已被反复了数千万遍,都像昙花泡影地倏现倏灭。 —— 漫画家,丰子恺

  • 相关阅读:
    ubuntu下php无法载入mysql扩展
    Ngnix location匹配规则
    Maven 工程错误Failure to transfer org.codehaus.plexus:plexus-io:pom:1.0,Failure to transfer org.codehaus.plexus:plexus-archiver:jar:2.0.1
    把Java Web工程转换为基于Maven的Web工程
    关于"架构"
    CentOS 配置Tomcat服务脚本
    Maven部署web应用到远程服务器
    使用Maven + Jetty时,如何不锁定js css 静态资源
    java final修饰变量时的一种情况
    支付宝快捷支付接入问题
  • 原文地址:https://www.cnblogs.com/morikokyuro/p/13256731.html
Copyright © 2011-2022 走看看