文本分类任务简介

zoukankan html css js c++ java

文本分类任务简介

文本分类任务框架：

文本→特征工程（决定着模型分类的上界）→分类器（逼近模型的上限）→类别

文本特征提取：

1.经典的文本特征（前人的研究的成熟理论）

2.手工构造新的特征（手工提取，看数据集中是否有好的性特征）

3.用神经网络提取（神经网络仅作为特征提取器来用）

经典的文本特征：

TF、TFIDF、Doc2vec、Word2vec

TF词频

TFIDF：词频－逆向文件频率（TF-IDF）是一种在文本挖掘中广泛使用的特征向量化方法，它可以体现一个文档中词语在语料库中的重要程度。

Doc2vec：文档到向量。主要是用深度学习的方法去训练，将文本转化为向量。

Word2vec：文本到向量，是一个分类器，它采用一系列代表文档的词语来训练word2vec model。该模型将每个词语映射到一个固定大小的向量。word2vec model使用文档中每个词语的平均数来将文档转换为向量，然后这个向量可以作为预测的特征，来计算文档相似度计算等等。

构造新特征：

1.寻找可能会影响分类的新特征。文章长度可能会影响到分类，所以可以把文章的长度作为一个新特征。

2、人工构造可能影响分类的新特征。

神经网络提取

特征选择：

为什么要进行特征选择？

减弱维度灾难，计算量降低。

降低学习难度。

特征选择的方法有什么？

包裹式：从一组特征中挑出几个子集进行训练验证，最后选择最优的子集。

嵌入式：用分类器进行特征选择。logistic回归中将w向量中比较小的（权重小的）剔除。

过滤式：在分类器之前单独对特征进行过滤。

特征降维：

将一个高维向量进行低维映射。

有监督降维：（使用了样本类别信息）LDA，即线性判别分析

无监督降维：LSA浅层语义分析、LDA对词频矩阵进行分解，得到向量、NMF对TFIDF进行矩阵分解。

查看全文

相关阅读:
20155209 2016-2017-2 《Java程序设计》第十周学习总结
 2017-2018-1 20155203 《信息安全系统设计基础》第四周学习总结
 2017-2018-1 20155203《信息安全系统设计基础》第一周学习总结
 20155203 实验五《网络编程与安全》
20155203 2016-2017-2《Java程序设计》课程总结
 20155203 实验四《 Android程序设计》实验报告
 2017-5-10 课堂实践20155203
20155203 实验三《敏捷开发与XP实践》实验报告
 20155203 2016-2017-2 《Java程序设计》第10周学习总结
 20155203 2016-2017-4 《Java程序设计》第9周学习总结

原文地址：https://www.cnblogs.com/jayechan/p/9580442.html

文本分类任务简介

文本分类任务框架：

文本特征提取：

经典的文本特征：

构造新特征：

神经网络提取

特征选择：

为什么要进行特征选择？

特征选择的方法有什么？

特征降维：