wod2vec&fasttext&doc2vec#ida2vec

zoukankan html css js c++ java

wod2vec&fasttext&doc2vec#ida2vec

embedding大乱炖~

词向量，句向量，主题向量

从word2vec讲起

doc2vec

Doc2vec相对于word2vec不同之处在于，在输入层，增添了一个新的句子向量Paragraph vector，Paragraph vector可以被看作是另一个词向量，它扮演了一个记忆，词袋模型中，因为每次训练只会截取句子中一小部分词训练，而忽略了除了本次训练词以外该句子中的其他词，这样仅仅训练出来每个词的向量表达，句子只是每个词的向量累加在一起表达的。正如上文所说的词袋模型的缺点，忽略了文本的词序问题。而Doc2vec中的Paragraph vector则弥补了这方面的不足，它每次训练也是滑动截取句子中一小部分词来训练，Paragraph Vector在同一个句子的若干次训练中是共享的，所以同一句话会有多次训练，每次训练中输入都包含Paragraph vector。它可以被看作是句子的主旨，有了它，该句子的主旨每次都会被放入作为输入的一部分来训练。这样每次训练过程中，不光是训练了词，得到了词向量。同时随着一句话每次滑动取若干词训练的过程中，作为每次训练的输入层一部分的共享Paragraph vector，该向量表达的主旨会越来越准确。Doc2vec中PV-DM模型具体的训练过程和word2vec中的CBOW模型训练方式相同，

Doc2vec是基于Word2vec基础上构建的，相比于Word2vec，Doc2vec不仅能训练处词向量还能训练处句子向量并预测新的句子向量。Doc2vec模型结构相对于Word2vec，不同点在于在输入层上多增加了一个Paragraph vector句子向量，该向量在同一句下的不同的训练中是权值共享的，这样训练出来的Paragraph vector就会逐渐在每句子中的几次训练中不断稳定下来，形成该句子的主旨。这样就训练出来了我们需要的句子向量。

在预测新的句子向量时，是需要重新训练的，此时该模型的词向量和投影层到输出层的soft weights参数固定，只剩下Paragraph vector用梯度下降法求得，所以预测新句子时虽然也要放入模型中不断迭代求出，相比于训练时，速度会快得多。本次使用的数据集为情感分析，且大多数样本偏向于好评，样本内容比较单一，所以训练出来的结果都是偏向于哪里好玩，好不好这类的意思，对于一些特定的问题之类的句子准确性还没有验证，目前用于情感分析还是可以的。下次会尝试使用新的数据集，调试参数看是否会取得更好的结果。

查看全文

相关阅读:
sweep line 扫描线模型
 双指针&整数二分思路总结
 ELF文件格式
 flask-migrate数据库迁移出现sqlalchemy.exc.OperationalError: (_mysql_exceptions.OperationalError) (2059, <NULL>)
腾讯面试题
 zabbix 调用飞书发送消息
 NFS服务部署
 Linux系统启动
 电商系统nuxt的布局目录代码分享
 电商系统中进行流量控制

原文地址：https://www.cnblogs.com/gaowenxingxing/p/13255127.html

wod2vec&fasttext&doc2vec#ida2vec

embedding大乱炖~

从word2vec讲起

doc2vec