zoukankan      html  css  js  c++  java
  • 文本分类(Text Categorization)

    对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。
    它根据一个已经被标注的训练文档集合, 找到文档特征和文档类别之间的关系模型, 然后利用这种学习得到的关系模型对 新的文档进行类别判断 。
    文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。

    通常,进行文本分类的主要方法有三种:

    基于规则特征匹配的方法(如根据喜欢,讨厌等特殊词来评判情感,但准确率低,通常作为一种辅助判断的方法)
    基于传统机器学习的方法(特征工程 + 分类算法)
    给予深度学习的方法(词向量 + 神经网络)
    自BERT提出以来,各大NLP比赛基本上已经被BERT霸榜了,但笔者认为掌握经典的文本分类模型原理还是十分有必要的。

    常用的分类算法:
    决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,遗传算法,最大熵,Generalized Instance Set等。

    https://www.cnblogs.com/sandwichnlp/p/11698996.html

  • 相关阅读:
    Python装饰器
    Python常用内建模块
    Python文件的操作
    Python集合的操作
    Python字典的操作
    Python列表元组的操作
    os.path
    Python字符串的操作
    线性回归
    随机森林
  • 原文地址:https://www.cnblogs.com/hbuwyg/p/13201608.html
Copyright © 2011-2022 走看看