1、tips
1、行业基准:用词袋模型表示句子,用SVM或LR做回归,用自己的模型和它做对比
2、分词:启发式或机器学习(HMM,CRF)
3、深度学习是端到端的
2、Auto-Encoder
可将语料编码化,降维降噪
3、CNN
机器自动学习卷积滤镜
用word2vec将一句话处理成一个矩阵,用CNN
案例:文本—>(预处理、TF-IDF、word2vec) —>词向量—>(LR、SVM、LSTM)—>标签
4、RNN—>LSTM
通过遗忘门、记忆门等控制。例如,异或就是遗忘,和1相与就是记忆等。
遗忘还是记忆是机器自己学习的。
另外还有更新门和输出门
案例:用于判断生成下一个词、句子、单词、图片等。