（论文笔记）Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

zoukankan html css js c++ java

（论文笔记）Learning Deep Structured Semantic Models for Web Search using Clickthrough Data

利用点击数据学习web搜索的深度学习模型

【总结】

该模型可以得到query和item的低维度向量表示，也可以得到二者的余弦语义相似度。

学习过程是通过最大化后验概率的极大似然估计得到的参数。

【模型解读】

A.输入：

1）x是词表长度的向量，维度大，一般是one-hot太大了，所以需要降；

2）Q为query， D为doc，包含正样本（曝光点击的doc），负样本4个（曝光但是未点击的doc），类似word2vec中的负采样；

B.中间过程：

1）经过word hashing ，将x的维度降下来（ngram方法）；

2）多层线性层+tanh激活函数l1层 l2层；

C.输出：

1）得到的y为低纬度的稠密语义表示向量，128维；

2）query分别和正/负doc计算余弦相似度R；

3）得到余弦相似度后加上平滑因子计算softmax：

3）学习目标就是最大化query和点击的正样本的相关性后验概率的极大似然估计：

【优缺点】

论文提的优缺点：

♥️1.采用word hashing ，解决了lsa等用奇异值分解造成的维度高的问题，因为对于英文来说ngram有限

♥️2.ngram可以有效表示新词；（？）

♥️3.有监督的学习语义表示，不是直接把无监督模型得到的词向量在输入端作为输入了。

♥️4.免人工特征

1.word hashing可能有冲突（冲突不大）；

2.词袋模型损失了上下文信息；

3.在排序中，搜索引擎的排序由多种因素决定，由于用户点击时doc的排名越靠前，点击的概率就越大，如果仅仅用点击来判断是否为正负样本，噪声比较大；

个人认为的优缺点：

1.对中文来说ngram的方法略落后，而且会忽略掉一些专有名词的含义，远距离的文字信息会丢失，全局信息；

【参考链接】

更多改进的model参考：+lstm or dnn➡️cnn

https://blog.csdn.net/xixiaoyaoww/article/details/105683329?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_title~default-0.no_search_link&spm=1001.2101.3001.4242.1&utm_relevant_index=3

查看全文

相关阅读:
原型链与析构函数
 django篇-路由系统介绍
 mvc与mtv
模板初探
 安装和创建django项目
 一分钟学会定时删除日志的 Shell 脚本
 svn其中一种备份方式svnsync
mysql企业实战（二）之主从复制，读写分离，双主，以及高可用
 mysql企业实战（一）
nginx详解

原文地址：https://www.cnblogs.com/liuxiangyan/p/15766944.html