zoukankan      html  css  js  c++  java
  • KDD 论文 Multimodal Attentional Neural Networks for Diagnosis Prediction

    Multimodal Attentional Neural Networks for Diagnosis Prediction

    结合文本记录和医学代码进行多模态的数据融合

    数据

    包含病人医学代码和文本记录的连续记录

    MNN 结构

    特征提取

    Medical code

    离散的医学代码通常用二值特征表示为multi-hot向量,长度为|M|,即medical code集合的大小,使用以下公式将其转换为dense vector:

    W是一个|M| x l的矩阵,其中|M|是medical code集合的大小,l是隐含特征尺度大小

    Clinical text

    临床文本特征提取包括两部分,一是是基于原始临床文本的纯文本特征提取信息,另一种是医学上下文感知文本特征嵌入,可将文本数据与医学代码相关联补偿离散的医疗代码

    Pure Text Feature Extraction

    note j, sentence u, word 1:n ,word dimension r

    对于句子s表示,我们通过使用具有不同窗口大小的多个过滤器的卷积神经网络来捕获单词级特征的不同粒度。

    对于文档d表示,为了利用在不同情况下不同的重要性,我们使用具有注意力机制的双向递归神经网络将隐藏状态整合到最终文档表示中。

    对于单词表示w,使用预训练的word embedding对文本中的单词进行转换,得到num_words X r_dimensional的矩阵:

    然后使用卷积神经网络学习句子表征

    对于每个句子表示Suj,我们使用双向GRU来学习两个句子方向的文本信息:

    对于每个文档表示中的所有句子,我们使用注意力机制来获取重要的信息:

    Medical Context Aware Text Feature Embedding

    根据住院状态,医生为病人标注不同的医疗代码。

    深层特征混合

    显式特征

    隐式特征

    先将 textual feature representation τj and medical code feature representation πj 进行concatenate,然后使用DNN提取隐含的相互特征。

    注意力双向RNN (BiRNN)

    实验

    数据

    对于疾病和程序代码,我们提取前3位数字,产生700个疾病组和740个程序组,预测诊断空间的大小也是700。

    方法

    为提出的模型MNN创建了三个变体:

    • 只使用临床文本数据(MNN-text)

    • 只使用医学代码数据(MNN-code)

    • 通过集成递归的平均输出来建模,但不使用注意机制的递归神经网络(MNN-avg)。

    Baseline 方法

    • DoctorAI : embeds visits into vector representations and then feeds them into the GRUs

    • RETAIN : an interpretable predictive model in healthcare with reverse time attention mechanism

    • Dipole : attention-based bidirectional recurrent neural networks

    • PacRNN : medical code with attention RNN and Bayesian Personalized Ranking (BPR)

    • RNN-multimodal : text features and medical code features with average output of RNN

    评价指标

    Top-k recall and Top-k precision (k to be 10, 20, and 30)

    应用细节

    • word embedding : word2vec (128维)

    • learning rate is set to be 0.001

    • embedding size l = 64

    • hidden state size r = 128

    • regularization (l2 norm with the coefficient 0.001)

    • drop-out strategies (with the drop-out rate 0.5)

    • batch size 20

  • 相关阅读:
    在 Win7 下使用 VS2005 编译 Chrome
    C++ Qt 05:Qt布局管理器 荒 木 博客园
    电商们都挺贼的,便宜的东西都不肯卖,比如牙膏,谁要用一支20多的呀,3-4块的中华没人进货,
    python 下载 国内
    爱慕集团以及爱慕在线科技有限公司简介 Aimerman
    Build Instructions (Windows) The Chromium Projects
    C++ Qt 03:MainWindow和Qt Gui编程
    今天 穿vancl的衣服撞衫了,ooooooooppppppppppppppps
    2006年世界杯小组赛日程表
    C++ 虚函数表解析
  • 原文地址:https://www.cnblogs.com/linzhenyu/p/13282476.html
Copyright © 2011-2022 走看看