CV第十课 RNN 中 Image Captioning + Attention

zoukankan html css js c++ java

CV第十课 RNN 中 Image Captioning + Attention

http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture10.pdf

Image Captioning

1. 图片生成文字中CNN，RNN的混合使用

　　1） CNNs接收images，生成图片的特征向量（a summary vector of the image）传入RNN语言模型的第一个timestep 然后一次一个的产生标题的单词。

　　2）网络图

　　RNN：不接受 softmax 而是接受 4096维的向量作为图片的特征描述

　　　　　在RNN模型中加入了矩阵 Wih

　　　　　 RNN的输出y 作为下一个timestep的输入

　　　　　最后得到一个完整的句子来描述图片

　　　　　 Microsoft COCO 可能是这方面最大的训练集

2. Image Captioning with Attention

　　1）我们的CNN 不输出一个 single vector，而是生成一个 grid of vectors，可以让每个vector对应一个图片中的特殊地方

　　2） RNN的每一步timestep中，除了在每一步中采样，它也产生了一个分布（distribution）对应于图片中它想注意的位置 a1,a2,.....

　　3）对于 soft attention 采用的是加权组合 of 所有图像中的所有特征 / hard attention 限制模型每步只选择一个位置来观察图片

　　2） soft attention/ hard attention

3. Visual Question Answering （视觉问答）

　　1）如何将编码的图像向量，与编码的问题向量结合在一起？

　　　 concatenate 两个向量然后传入全连接层

　　

查看全文

相关阅读:
阅读笔记之梦断代码(二)
php完成页面跳转并传值
 java 内部类
 阅读笔记之《程序员修炼之道从小工到专家》(一)
java 反射机制
 微信的研究【转http://blog.csdn.net/chief1985/article/details/7902016】
Java sending and receiving file (byte[]) over sockets
Android音频实时传输与播放（四）：源码下载（问题更新）【转】
windows phone 游戏
 Android音频实时传输与播放（三）：AMR硬编码与硬解码【转】

原文地址：https://www.cnblogs.com/ChevisZhang/p/13038546.html