zoukankan      html  css  js  c++  java
  • 中文文本分类实例

    文本挖掘是从非结构化文本信息中获取用户感兴趣的或者有用的模式的过程。也就是从大量文本数据中抽取事先未知的、可理解的、最中可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。
    中文语言的文本分类技术和流程,步骤:
    1.预处理(去除噪声、例如html标签、文本格式转化、检测句子边界)
    2.中文分词(使用中文分词器为文本分词,并去除停用词)
    3.构建词向量空间(统计文本词频,生成文本的词向量空间)
    4.权重策略-TF-IDF方法(使用TF-IDF发现特征词,并抽取为反应文档主题的特征)
    5.分类器(使用算法训练分类器)
    6.评价分类结果(分类器的测试结果分析)
    之后将依次按步骤进行整理。

  • 相关阅读:
    maven搭建
    javascript
    FTP工具类
    jsp相关知识
    java mail 邮箱发送
    servlet相关
    hibernate文档
    6月
    Spring AOP 使用总结
    spring事务配置总结
  • 原文地址:https://www.cnblogs.com/sanmenyi/p/7015661.html
Copyright © 2011-2022 走看看