文本挖掘是从非结构化文本信息中获取用户感兴趣的或者有用的模式的过程。也就是从大量文本数据中抽取事先未知的、可理解的、最中可用的知识的过程,同时运用这些知识更好的组织信息以便将来参考。
中文语言的文本分类技术和流程,步骤:
1.预处理(去除噪声、例如html标签、文本格式转化、检测句子边界)
2.中文分词(使用中文分词器为文本分词,并去除停用词)
3.构建词向量空间(统计文本词频,生成文本的词向量空间)
4.权重策略-TF-IDF方法(使用TF-IDF发现特征词,并抽取为反应文档主题的特征)
5.分类器(使用算法训练分类器)
6.评价分类结果(分类器的测试结果分析)
之后将依次按步骤进行整理。