zoukankan      html  css  js  c++  java
  • 一周论文阅读20200510

    • Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
      13年的DSSM模型,学习query到doc的相关性,用两个DNN模型将query和doc编码到相同维度的语义层,然后用cosine度量相关性。训练数据是用的点击日志,让被点击的query和doc相关性最好。为了解决字典过大的问题采用了Word Hashing 将字典缩小,这与fasttext的处理方式相似,将一个单词用其n-gram的subword表示
    • Improving Transformer Models by Reordering their Sublayers
      研究重新排列bert的selfattention层和fc的效果,提出一种三明治的模型结构
    • Deep Neural Networks for YouTube Recommendations
      youtube的经典推荐系统论文,用深度学习对推荐视频进行粗排和精排,模型很简单,但其中设计很多工程上的考虑,比如怎么service , 怎么引入视屏上线时间,如何设计loss等等,具体可以参考:https://zhuanlan.zhihu.com/p/52504407的解读
    • What is Candidate Sampling https://www.tensorflow.org/extras/candidate_sampling.pdf
      tensorflow 这篇文档总结了各种candidate sampling的技术,具体是解决softmax类别过多计算量很大的问题。之前知道的w2v中用到的负采样只是这类方法中的一个,这篇文档总结了这类方法,没有完全看懂,后面有时间再学习
    • When does data augmentation help generalization in NLP?
      作者设计了一些玩具实验去研究数据增强能否让NLP模型避免依赖弱特征而去依赖强特征
    • FastBERT: a Self-distilling BERT with Adaptive Inference Time
      一种通过自蒸馏去加速bert推断的方法。模型上每层的cls都会接一个分类器用来预测结果,训练时首先将bert训练好,然后通过最后一层cls分类器的输出分布去蒸馏其它每层的分类器。蒸馏好后在推断阶段从低到高的每层的分类器进行预测,如果某一层的输出结果比较确信(输出分布的熵比较小)则将这层输出当作最终的输出,后面几层就不用计算了,这样可以节约一定的计算量。
  • 相关阅读:
    高性能SQL编码规范
    识别SQL Server 性能杀手
    centOS7安装nginx
    linux安装apache
    算术表达式的前缀表达式,中缀表达式和后缀表达式
    有特殊字符的JSON串
    sqlserver 找到执行慢的sql
    SQL索引建立遵守六大铁律
    [SQL Server 2005/2008] select语句中指定索引
    ubuntu下vsftpd虚拟用户配置
  • 原文地址:https://www.cnblogs.com/kangheng/p/12784579.html
Copyright © 2011-2022 走看看