一、NLP概念
1.1 文本消歧:多模态、上下文信息
1.2 应用:问答系统
情感分析(产品评论、事件监测、舆情监控、股票价格预测)
15年之前 vs 15年之后:
机器翻译(很多好的模型都从机器翻译中来)
自动摘要
信息抽取(成熟)-->自动问答系统中的一个子模块
对话系统-->集大成者。
用简单的心理学trick去解决未知
推荐系统
1.3 技术栈:
二、NLP的过程:
2.1 分词
Tool:
Jieba分词 https://github.com/fxsjy/jieba
SnowNLP https://github.com/isnowfy/snownlp
清华LTP http://www.ltp-cloud.com/
HanNLP https://github.com/hankcs/HanLP
算法:
1.前向最大匹配、后向最大匹配(中文后向更优)
2.基于语言模型(计算句子概率的模型)去分词,判断一句话是不是人话
N-Gram(用马尔可夫假设)-->Smoothing
2.2 拼写纠正(英文为主)
2.3 停用词过滤
Zipfislaw规律
2.4 词的标准化
3.文本表示
3.1相似度计算
3.2词袋模型bag-of-word bow
One-hot、词集(根据多少加重要性)
3.3TF-IDF
并不是出现的越多就越重要!
并不是出现的越少就越不重要!
3.4分布式表示
03年的word2vec。。。。
Capacity+Meaning+dense+global 泛化能力