zoukankan      html  css  js  c++  java
  • 文本分类任务简介

    文本分类任务框架:

    文本→特征工程(决定着模型分类的上界)→分类器(逼近模型的上限)→类别

    文本特征提取:

    1.经典的文本特征(前人的研究的成熟理论)

    2.手工构造新的特征(手工提取,看数据集中是否有好的性特征)

    3.用神经网络提取(神经网络仅作为特征提取器来用)

    经典的文本特征:

    TF、TFIDF、Doc2vec、Word2vec

    TF词频

    TFIDF:词频-逆向文件频率(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。

    Doc2vec:文档到向量。主要是用深度学习的方法去训练,将文本转化为向量。

    Word2vec:文本到向量,是一个分类器,它采用一系列代表文档的词语来训练word2vec model。该模型将每个词语映射到一个固定大小的向量。word2vec model使用文档中每个词语的平均数来将文档转换为向量,然后这个向量可以作为预测的特征,来计算文档相似度计算等等。

     构造新特征:

    1.寻找可能会影响分类的新特征。文章长度可能会影响到分类,所以可以把文章的长度作为一个新特征。

    2、人工构造可能影响分类的新特征。

    神经网络提取

    特征选择:

    为什么要进行特征选择?

    减弱维度灾难,计算量降低。

    降低学习难度。

    特征选择的方法有什么?

    包裹式:从一组特征中挑出几个子集进行训练验证,最后选择最优的子集。

    嵌入式:用分类器进行特征选择。logistic回归中将w向量中比较小的(权重小的)剔除。

    过滤式:在分类器之前单独对特征进行过滤。

    特征降维:

    将一个高维向量进行低维映射。

    有监督降维:(使用了样本类别信息)LDA,即线性判别分析

    无监督降维:LSA浅层语义分析、LDA对词频矩阵进行分解,得到向量、NMF对TFIDF进行矩阵分解。

  • 相关阅读:
    申通服务恶劣,开始忘本
    基础知识学习外部排序
    ToString()格式和用法大全
    Web.Config Transformation ASP.NET 4.0 新特性
    拒绝try.catch泛滥,学习委托有感
    Oracle Job定时任务的使用详解
    数据库和索引设计简要笔记
    Redis实际应用场景
    线程如何按照自己指定的顺序执行
    WCF 4.0 进阶系列 随笔汇总
  • 原文地址:https://www.cnblogs.com/jayechan/p/9580442.html
Copyright © 2011-2022 走看看