zoukankan      html  css  js  c++  java
  • lesson8-图像问答-小象cv

    QA即图像问答:覆盖最全面的AI,ai完备性

    动态模型:不同任务需要不同模型 or 不同细分任务需要不同模型参数

    数据集:

    1)VQA,显示图片+抽象场景;每个问题给10个不同答案;含有无图片答案(考察图片和问题的客观性)

    为了降低语言偏置、不均衡(language priors)-》一个问题对应2个图片,予以场景相似但是答案不同 ~ 即有时候由于主观想法,对一场景的想法可能大多数都是yes,所以给出对立的图片可以降低偏置问题,只有一个人两个图片都能回答对才算正确,而不是蒙对的

    2)Visual7W

    图像问答模型:

    基本模型结构--》

    cnn提取图片特征~vgg倒数第二个全连接层4096输出

    rnn提取问题特征~lstm最后一个时刻的隐含状态和记忆状态(一般的是只含记忆状态的)

    文本特征embedding~onet-hot编码是高度稀疏的 ~矩阵乘映射,共享特征空间-》变为稠密的;全连接层降维

    特征映射:2个1024维的全连接层

    特征融合:点乘 2*1024-》1024,图片信息和文本信息融合

    特征推理:1个全连接层,1个softmax层 ~1024-》1000,因为答案集是1000,比如频率低于多少的会被滤掉 ~拖尾效应都扔掉

    QA的attention机制类似image caption即图像理解:

    图像特征~vgg,问题特征~lstm

    堆栈注意网络stacked attention network:查询语义相关区域,滤除噪声区域,多步推理,精华查询  ~ cnn/lstm提出问题特征之后,在“图像不同位置的特征中找相似,并赋予权重,拿到权重相加后的综合特征,并送到下一时刻得到增强特征,再送到下一网络做推断

    模型增强之注意机制的基本模型结构--》

    图片模型结构~vgg,输入488*488,输出最后一个池化层,14*14,特征维数512

    图片特征embedding模块~单层神经网络,将图片特征映射到共享特征空间

    问题模型结构~lstm,不同单词对应不同时刻,输出最后时刻的隐含状态

    文本特征embedding模块,将one-hot编码映射到共享特征空间

    堆栈注意网络~不断增强和答案相关区域的特征权重;部分二图片区域特征权重相加后得到”场景特征“;场景特征和问题特征相加后,得到增强特征;一般两步推断性能最好即first/second attention layer,如first关注谁带了帽子,second关注到带的什么帽子

    模型增强之外部知识库knowledge base:

    MCG算法拿到image的proposals,每个proposal区域拿到标签和属性概率-》max pooling->属性特征

    属性特征-》lstm-》5个caption句子

    属性特征+内部特征+知识特征,串接合并

    官方实验:

    vgg+lstm :是选择的baseline

  • 相关阅读:
    Hive窗口函数
    自然周与自然月的Hive统计SQL
    Spark中的Join类型
    随机生成验证码类
    mysql看视频笔记
    sql工作记录
    mysql和sqlserver的区别
    mysql的安装配置
    把一个数组遍历倒序放到另一个数组中,数组取值是c:out value
    Echarts雷达代码
  • 原文地址:https://www.cnblogs.com/rosyYY/p/8873485.html
Copyright © 2011-2022 走看看