Yoshua Bengio最新演讲:Attention 让深度学习取得巨大成功(46ppt)
Yoshua Bengio,电脑科学家,毕业于麦吉尔大学,在MIT和AT&T贝尔实验室做过博士后研究员,自1993年之后就在蒙特利尔大学任教,与 Yann LeCun、 Geoffrey Hinton并称为“深度学习三巨头”,也是神经网络复兴的主要的三个发起人之一,在预训练问题、为自动编码器降噪等自动编码器的结构问题和生成式模型等等领域做出重大贡献。他早先的一篇关于语言概率模型的论文开创了神经网络做语言模型的先河,启发了一系列关于 NLP 的文章,进而在工业界产生重大影响。此外,他的小组开发了 Theano 平台。
下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演讲PPT实录,由新智元整理翻译,如果PPT看不过瘾,你还可以复制链接直接观看视频:https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw
在新智元公众号后台回复“0516”可下载全部46张PPT。
原标题:自然语言词义中的深度学习
从ML到AI的三个关键要素:
1. 许多&许多的数据
2. 非常灵活的模型
3. 强大的先验知识,能打破“维度的诅咒”
突破“维度的诅咒”
-
我们需要在机器学习模型中创建组合词
正如人类语言会分析组合词,为组合词的概念赋予表示和意义
-
对组合词意挖掘,在指代的能力上获得指数级的增长
分布式表示/嵌入:特征学习
深度架构:多层次的特征学习
-
先验知识(Prior):组合性在有效地描述我们所处的世界时非常有用
深度学习理论的进展
-
分布式表示的指数级优势
-
深度的指数级优势
-
迷思:非凸性 ∉ 局部最小值
分布式表示的指数级优势
比起最近邻法或分类法的模型,学习一系列不相互排斥的特征,在数据上更有效。
相关推荐论文
深度的指数级优势
迷思正在被打破:神经网络中的局部最小值
凸性并不是必须的
推荐论文
鞍点
-
局部最小值掌控着低维度,但是鞍点掌控高维度
-
大多数的局部最小值都很接近底部(全局最小值误差)
为什么N-gram 在泛化上表现很差
神经语言模型
下一个挑战:词序中丰富的语义表示
-
捕捉词义上令人印象深刻的进展
-
更容易的学习:非参数的(查表)
-
绘制序列来实现更加丰富和完整的指称进行优化的问题
-
好的测试案例:自动编码框架的机器翻译
深度学习中的聚焦(Attention)机制
考虑一个输入(或者中间的)序列或者图像
考虑一个高层次的指称,通过设置权重或者每个输入位置的概率,正如MLP中所产生的那样,运用到每一个位置。
聚焦机制在翻译、语音、图像、视频和存储中的应用
端对端的机器翻译
-
传统的机器翻译:通过相似度的最大化对若干个模型进行独立地训练,在N型图中获的顶部、底部获得逻辑回归。
-
神经语言模型已经被证明在普遍化的能力上优于N型图模型。
-
为什么不训练一个神经翻译模型,端对端地评估P(目标句子|源句子)
2014:神经机器翻译获得突破的一年
主要论文
早期的工作
编码-解码框架
-
中间的意义表示=普遍的表示
-
编码:从词的排列到句子代表
-
解码:从代表到词序的分布
输入侧的双向RNN
模仿Alex Graves在手写体上的工作
聚焦:相关论文和旧论文
软聚焦VS随机硬聚焦
聚焦为基础的神经机器翻译
预测对齐
法语和德语不同的对齐
在纯AE模型上的提升
-
RNNenc:对整个句子进行编码
-
RNNsearch:预测平面图
-
BLEU 在全部的测试集中赋分(包括UNK)
周期性网络和聚焦机制下的端对端机器翻译
从零开始,一年后的现状:
英语到德语
从图像到文字:聚焦模型下的字幕生成
聚焦选择部分图像,同时,生成对应描述词
说出看到的东西
展示、参加和讲述:用视觉聚焦来达到神经图像字幕生成
好的识别
坏的识别
有趣的延伸
-
用重要性抽样近似值高效地处理大量的词汇(最小批的词=负面的例子)(Jean al, ACL’2015)
-
多语种 NMT:共享的编码器和解码器,在语言配对中,聚焦机制是一个条件
-
字符层次的NMT
用共享聚焦机制达成的多语言神经机器翻译
-
每一种语言对应1 编码器+ 1解码器
-
一个共享的聚焦模型,还有每一种语言编码和解码规定的“代表翻译函数”
用共享聚焦机制达成的多语言神经机器翻译
-
迁移学习起了作用
-
在大多数情况下,对定位成对的平行语料库有益
基于字符的模型
-
在基于N型图的模型中几乎是不可能的;
-
但是,对于处理开放词汇问题、拼写错误而、音译、数字等端对端的问题却是有必要的;
-
对于词汇并没有清晰的区分或者组合线(让词汇量显示)的语言来说是有必要的;
-
在词的规律(前缀、后缀、连接等)上进行时是有必要的;
障碍:
-
对于RNNs:更长期的依赖性
-
较差的容量和计算率
-
2年前的前期实验:比起基于词汇的模型,可持续性要更差
基于字符的NMT实验
-
2层的架构
-
更高级别的RNN动态地决定了何时使用类似GRU的公式软性地更新状态
基于字符的NMT实验
内存访问中的聚焦模型
-
神经图灵机器
-
内存网络
-
使用一个聚焦机制形式来控制对存储器的读取和写入
-
聚焦机制在内存上输出一个softmax
-
从效率上看,softmax必须是稀疏的(大多数情况下是0),例如,或许可以使用一个混合图表格式。
大型内存网络:长期依存的稀疏内存访问
-
一个外部存储器中的状态,可以保存任意长的时间,直到被读取或写入
-
忘记=消失的梯度
-
内存=更大的状态,避免遗忘或者消失的必要
延迟不代表能更进一步
在运行的项目:知识提取
-
学习从自然语言对事实的描述中填入记忆网络
-
强迫神经网络理解语言
-
从档案中提取知识,并浓缩成可使用的格式
下一个大难题:非监督式学习
最近的突破大多数都是在监督式深度学习中
非监督式学习中的真实挑战
潜在的好处:
-
能处理海量的非标签数据
-
针对观察的变量,回答新的问题
-
正则化矩阵——迁移学习——领域自适应
-
更容易优化(局部训练信号)
-
结构性的输出
-
对于没有特定模型或在主要模拟的RL来说很有必要
结论
深度学习理论在许多前沿地带都取得了显著的进步:为什么能更好地泛化?为什么局部最小值不是人们考虑的问题?深度无监督学习的概率解释。
聚焦机制让学习者模型更好地做选择,不管是软聚焦还硬聚焦。
深度学习理论在机器翻译和字幕生成上取得了巨大的成功。
在语音识别和视频,特别是如果我们使用深度学习理论来捕捉多样的时标时,会很有用。
深度学习理论可用于解决长期的依存问题,让一些状态持续任意长时间。
「招聘」
全职记者、编译和活动运营
欢迎实习生
以及人工智能翻译社志愿者
详细信息请进入公众号点击「招聘」
或发邮件至 jobs@aiera.com.cn