拖了一个月,终于想起还有一笔欠账,
中文文本分类的流程如下:
1.预处理(去除噪声、例如html标签、文本格式转化、检测句子边界)
2.中文分词(使用中文分词器为文本分词,并去除停用词)
3.构建词向量空间(统计文本词频,生成文本的词向量空间)
4.权重策略-TF-IDF方法(使用TF-IDF发现特征词,并抽取为反应文档主题的特征)
5.分类器(使用算法训练分类器)
6.评价分类结果(分类器的测试结果分析)
文本处理的核心任务是要把非结构化和半结构化的文本转换成结构化的形式,即向量空间模型,
在这之前,必须要对不同类型的文本进行预处理,在大多数文本挖掘任务中,文本预处理的步骤都是相似的,基本步骤如下:
1.选择处理的文本范围
2.建立分类文本语料库
参考:https://www.cnblogs.com/sanmenyi/p/7015710.html
接下来,目的就是要将训练集所有文本文件(词向量)统一到同一个词向量空间中。在词向量空间中,事实上不同的词,它的权重是不同的,它对文本分类的影响力也不同,为此我们希望得到的词向量空间不是等权重的空间,而是不同权重的词向量空间。我们把带有不同权重的词向量空间叫做“加权词向量空间”,也有的技术文档将其称为“加权向量词袋”,一个意思。
计算文本的权重向量,应该选择一个有效的权重方案,最流行的方案是TF-IDF权重策略。其含义是词频逆文档频率,也就是说:如果某个词或者短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF的假设是,高频率词应该具有高权重,除非他也是高文档频率。逆文档频率就是使用词条的文档频率来抵消该词的词频对权重的影响,从而得到一个较低的权重。
TF-IDF方法
参考:https://www.cnblogs.com/sanmenyi/p/7011344.html
不禁让人想起了图像识别的那个sample,其实那个方法就是利用了词袋模型把图像信息压缩成了向量,方便后面匹配查询,妙啊。