预训练 微调
斯坦福
Word Embeding
- 同义
- 层级关系
WordNet 词的网络 树的结构
人工构建 存在主观性问题
怎么判断相似度:
最短路径 - 转换为0~1的相似度(度量)
分布式表示
词的语义分布到不同的神经元上
通过神经元的组合来形成语义的表示
word2vec
(找中文版的)
无监督/自监督
目标函数/损失函数
怎么使其预测周围的词
优化目标函数,需要用梯度下降,要优化的参数是什么?
词向量的位置是参数(参数其实就是词向量)
待优化的是uv里面的数值
负采样
ELMo:Embeddings from Language Models
为了得到更符合语境的表示
假设每一个任务有不同的权重(重要性)
缩放因子