zoukankan      html  css  js  c++  java
  • 【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction

    作者:Mingxuan Wang。李航,刘群
    单位:华为、中科院
    时间:2015
    发表于:acl 2015
    文章下载:http://pan.baidu.com/s/1bnBBVuJ

    主要内容:
    用deep learning设计了一种语言模型。可以依据之前“全部”的历史来预測当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量,该模型都比baseline(5-gram、RNN、等)好

    详细内容:

    1. 之前用deep learning在语言模型上的进展是:RNN和LSTM
      參考的工具包:
      RNN – http://rnnlm.org/
      LSTM – https://github.com/lisa-groundhog/GroundHog

    2. 本文作者的实现方式:
      (1)用alpha-cnn来模拟当前词比較近的历史,约之前30个词。用beta-cnn来递归的模拟全部之前的历史。beta-cnn的输出是其它beta-cnn以及alpha-cnn的输入。网络结构例如以下:
      (2)用了word2vec作为词语的输入,两层隐含层,用gate取代max pooling,最后输出层是softmax层
      (3)同标准cnn不同的是:标准cnn在局部共享权重,本文既有共享的权重,也有不共享的权重
      (4)训练方式是最大化训练语料中句子的概率

    3. 实验结果(困惑度)
      5-gram KN smoothing: 270
      RNN:223
      LSTM:206
      本文方法:180

    另外,训练时间比較长,1M句子,用了GPU还训练了2天。

  • 相关阅读:
    Android TTS
    观察者模式(C++实现)
    android 8未知来源app安装
    NotificationChannel
    java底层知识
    Java14
    数据库分区、分库分表
    二叉搜索树的第k大节点
    从上到下按层打印二叉树
    springcloud面试知识点
  • 原文地址:https://www.cnblogs.com/mengfanrong/p/5207728.html
Copyright © 2011-2022 走看看