一周论文阅读20200510

zoukankan html css js c++ java

一周论文阅读20200510
- Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
  13年的DSSM模型，学习query到doc的相关性，用两个DNN模型将query和doc编码到相同维度的语义层，然后用cosine度量相关性。训练数据是用的点击日志，让被点击的query和doc相关性最好。为了解决字典过大的问题采用了Word Hashing 将字典缩小，这与fasttext的处理方式相似，将一个单词用其n-gram的subword表示
- Improving Transformer Models by Reordering their Sublayers
  研究重新排列bert的selfattention层和fc的效果，提出一种三明治的模型结构
- Deep Neural Networks for YouTube Recommendations
  youtube的经典推荐系统论文，用深度学习对推荐视频进行粗排和精排，模型很简单，但其中设计很多工程上的考虑，比如怎么service ，怎么引入视屏上线时间，如何设计loss等等，具体可以参考：https://zhuanlan.zhihu.com/p/52504407的解读
- What is Candidate Sampling https://www.tensorflow.org/extras/candidate_sampling.pdf
  tensorflow 这篇文档总结了各种candidate sampling的技术，具体是解决softmax类别过多计算量很大的问题。之前知道的w2v中用到的负采样只是这类方法中的一个，这篇文档总结了这类方法，没有完全看懂，后面有时间再学习
- When does data augmentation help generalization in NLP?
  作者设计了一些玩具实验去研究数据增强能否让NLP模型避免依赖弱特征而去依赖强特征
- FastBERT: a Self-distilling BERT with Adaptive Inference Time
  一种通过自蒸馏去加速bert推断的方法。模型上每层的cls都会接一个分类器用来预测结果，训练时首先将bert训练好，然后通过最后一层cls分类器的输出分布去蒸馏其它每层的分类器。蒸馏好后在推断阶段从低到高的每层的分类器进行预测，如果某一层的输出结果比较确信（输出分布的熵比较小）则将这层输出当作最终的输出，后面几层就不用计算了，这样可以节约一定的计算量。
查看全文

相关阅读:
MySQL事务的介绍+事务的特性+事务的开启
 MySQL误操作删除后，怎么恢复数据？
笔记本如何开启WiFi热点?
zabbix: Get value from agent failed: cannot connect to [[172.16.179.10]:10050]: [4] Interrupted system call
考取RHCE认证的历程，总结的经验
 find的-xdev参数解释？
keepalived+mysql主从环境，keepalived返回值是RST，需求解决方法？
Centos 7 LVM xfs文件系统修复
 本文讲述下windows下使用rsync备份数据
 MySQL索引介绍+索引的存储类型+索引的优点和缺点+索引的分类+删除索引

原文地址：https://www.cnblogs.com/kangheng/p/12784579.html