自然语言处理
- NLP常见任务
自动摘要 - seq2seq
指代消解 - 小明放学了, 妈妈去接他, 这个他就是小明
机器翻译 - 统计机器语言的模型SMT
词性标注 - heat(v.) water(n.)
分词 (中文, 日文等) - 大水沟/很/难/过
主题识别
文本分类
- NLP处理方法
通过参数去描绘这个分布
- 词编码需要保持词的相似性
语义的近似性
空间分布的相似性
- 空间向量的子结构
- 在计算机中表示一个词
wordnet组成一个字典
- 离散表示, One-Hot 表示
离散表示:Bag of Words
词权重
TF-IDF 词在文档中的重要程度log(1+N/n)
Binary weighting 短文本相似性
- 语言模型
- 离散表示的问题
- 分布式表示
- 共现矩阵
用于主题模型