zoukankan      html  css  js  c++  java
  • (论文笔记)Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

    利用点击数据学习web搜索的深度学习模型
     
    【总结】
    该模型可以得到query和item的低维度向量表示,也可以得到二者的余弦语义相似度。
    学习过程是通过最大化后验概率的极大似然估计得到的参数。
     
    【模型解读】
    A.输入:
    1)x是词表长度的向量,维度大,一般是one-hot太大了,所以需要降;
    2)Q为query, D为doc,包含正样本(曝光点击的doc),负样本4个(曝光但是未点击的doc),类似word2vec中的负采样;
     
    B.中间过程:
    1)经过word hashing ,将x的维度降下来(ngram方法);
    2)多层线性层+tanh激活函数l1层 l2层;
     
    C.输出:
    1)得到的y为低纬度的稠密语义表示向量,128维;
    2)query分别和正/负doc计算余弦相似度R;
    3)得到余弦相似度后加上平滑因子计算softmax:
    3)学习目标就是最大化query和点击的正样本的相关性后验概率的极大似然估计:
     
    【优缺点】
    论文提的优缺点:
    ♥️1.采用word hashing ,解决了lsa等用奇异值分解造成的维度高的问题,因为对于英文来说ngram有限
    ♥️2.ngram可以有效表示新词;(?)
    ♥️3.有监督的学习语义表示,不是直接把无监督模型得到的词向量在输入端作为输入了。
    ♥️4.免人工特征
    1.word hashing可能有冲突(冲突不大);
    2.词袋模型损失了上下文信息;
    3.在排序中,搜索引擎的排序由多种因素决定,由于用户点击时doc的排名越靠前,点击的概率就越大,如果仅仅用点击来判断是否为正负样本,噪声比较大;
     
    个人认为的优缺点:
    1.对中文来说ngram的方法略落后,而且会忽略掉一些专有名词的含义,远距离的文字信息会丢失,全局信息;
     
    【参考链接】
    更多改进的model参考:+lstm or dnn➡️cnn
     
  • 相关阅读:
    原型链与析构函数
    django篇-路由系统介绍
    mvc与mtv
    模板初探
    安装和创建django项目
    一分钟学会定时删除日志的 Shell 脚本
    svn其中一种备份方式svnsync
    mysql企业实战(二)之主从复制,读写分离,双主,以及高可用
    mysql企业实战(一)
    nginx详解
  • 原文地址:https://www.cnblogs.com/liuxiangyan/p/15766944.html
Copyright © 2011-2022 走看看