《ICLR 2020论文分享-BERT在神经机器翻译中的应用》 - 走看看

zoukankan html css js c++ java

《ICLR 2020论文分享-BERT在神经机器翻译中的应用》

https://www.bilibili.com/video/BV1Ep4y1Q71p

活动作品ICLR 2020论文分享-BERT在神经机器翻译中的应用

要解决的问题：

- 直接用预训练的结果

- BERT训练和NMT任务的分词方式不一样，引起句子长短不一样

- BERT双向，decoder 单向 —— BERT作为embedding输入，不适用于decoder 端；

原 Transformer 中的 self-attention 是 Warm-up的——一用一个训练到收敛的模型的参数初始化

红线 BERT attention 随机初始化

drop-out 率 p 增大，训练loss 会变大，但 validation loss 会变小

效果超过了其它：精心设计的模型结构 & NAS 搜索出来的模型结构

IWSLT是连续文档切分成句子组成的数据集，所以我们猜测：BERT对文档级的翻译有帮助

（左下角）

tune BERT 的参数，效果会变差

两部分 attention 并排比 stack，效果更好

从BERT中汲取到了对翻译有用的信息，并不是单纯引入了更多的参数带来的效果

查看全文

相关阅读:
GMS问题_ThemeHostTest#testThemes
解压system.img
Android10_原理机制系列_AMS(ATMS)之应用的第一次启动的过程
 Android10_原理机制系列_AMS之AMS的启动
 如何用云开发高效快捷地实现短信验证码登录？
推荐一款强大的前端CLI命令行工具
 CloudBase Framework丨第一个 Deno 部署工具是如何打造的？
实战 | 打造一个双端自动发布的博客体系（下）
从java注解漫谈到typescript装饰器——注解与装饰器
 TS数据类型：从C++/Java/Python到TS看元组tuple—元组的来龙去脉

原文地址：https://www.cnblogs.com/cx2016/p/12956295.html

Copyright © 2011-2022 走看看