zoukankan      html  css  js  c++  java
  • 一周论文阅读20200510

    • Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
      13年的DSSM模型,学习query到doc的相关性,用两个DNN模型将query和doc编码到相同维度的语义层,然后用cosine度量相关性。训练数据是用的点击日志,让被点击的query和doc相关性最好。为了解决字典过大的问题采用了Word Hashing 将字典缩小,这与fasttext的处理方式相似,将一个单词用其n-gram的subword表示
    • Improving Transformer Models by Reordering their Sublayers
      研究重新排列bert的selfattention层和fc的效果,提出一种三明治的模型结构
    • Deep Neural Networks for YouTube Recommendations
      youtube的经典推荐系统论文,用深度学习对推荐视频进行粗排和精排,模型很简单,但其中设计很多工程上的考虑,比如怎么service , 怎么引入视屏上线时间,如何设计loss等等,具体可以参考:https://zhuanlan.zhihu.com/p/52504407的解读
    • What is Candidate Sampling https://www.tensorflow.org/extras/candidate_sampling.pdf
      tensorflow 这篇文档总结了各种candidate sampling的技术,具体是解决softmax类别过多计算量很大的问题。之前知道的w2v中用到的负采样只是这类方法中的一个,这篇文档总结了这类方法,没有完全看懂,后面有时间再学习
    • When does data augmentation help generalization in NLP?
      作者设计了一些玩具实验去研究数据增强能否让NLP模型避免依赖弱特征而去依赖强特征
    • FastBERT: a Self-distilling BERT with Adaptive Inference Time
      一种通过自蒸馏去加速bert推断的方法。模型上每层的cls都会接一个分类器用来预测结果,训练时首先将bert训练好,然后通过最后一层cls分类器的输出分布去蒸馏其它每层的分类器。蒸馏好后在推断阶段从低到高的每层的分类器进行预测,如果某一层的输出结果比较确信(输出分布的熵比较小)则将这层输出当作最终的输出,后面几层就不用计算了,这样可以节约一定的计算量。
  • 相关阅读:
    洛谷—— P2234 [HNOI2002]营业额统计
    BZOJ——3555: [Ctsc2014]企鹅QQ
    CodeVs——T 4919 线段树练习4
    python(35)- 异常处理
    August 29th 2016 Week 36th Monday
    August 28th 2016 Week 36th Sunday
    August 27th 2016 Week 35th Saturday
    August 26th 2016 Week 35th Friday
    August 25th 2016 Week 35th Thursday
    August 24th 2016 Week 35th Wednesday
  • 原文地址:https://www.cnblogs.com/kangheng/p/12784579.html
Copyright © 2011-2022 走看看