1.什么是文本分类
在定义文本分类之前,需要理解文本数据的范围,以及分类的真实含义。这里的文本数据可以是短语、句子或者包含文本段落的整篇文档等任何形式,这些数据可以从语料库、博客或互联网的任何地方获得。文本分类也经常成为文档分类,文档这个词概括了任何形式的文本内容。文档这个词可以定义为思想或事件的一些具体的表示,这些标识可以是书面、语言记录、会话或演讲等形式。这里,使用文档这个词来表示文本数据,例如英语中的句子或段落。
文本分类也称为文本归类,这里使用文本分类这个词有两个原因。第一个原因是要分类文档,文本分类和文本归类具有相同的性质。第二个原因是将用分类或有监督机器学习方法来分类或归类文档。文本分类基友很多方法。将会集中精力解释用于分类的有监督方法。分类过程不只局限于文本,还广泛用于其他领域,包括科学、健康、天气预测和技术等。
假设有一个预定义的类集合,文本或文档分类是将文档指定到一个或多个分类或类型的过程。这里的文档就是文本文档,每个文档包含单词组成的句子或段落。一个文本分类系统基于文档的内置属性,能够成功的将每个文档分类到正确的类别中。数学上,可以做如下定义:假设 d 是文档 D 的描述或属性,d € D,我们基友一组预先定义的类别或分类 C = {c1,c2,c3,...,cn}。真实的文档 D 可能拥有很多内在的属性,这使得 D 称为高维空间的一个实体。使用这个空间的一个子集,其是包含一组优先的描述或特征的集合,表示为 d,可以使用文本分类系统 T 完成地将原始文档 D划分到正确的类型 Cx。这可以表示为 T: D>Cx。
下图是文本分类过程高层次的概念表示:
如图所示,看到表示产品的几个文档分为食物、移动电话和电影几个类别。最初,正如文本语料库自身不同的文档一样,这些文档放置在一起。通过一个文本分类系统之后,这里用通过黑色的方框表示,看到每个文件属于预先定义的一个类或类别中。这里使用文档的名称来表示文档,但是实际数据中,文档可能包含丰富的信息使得文档识别与分类更加容易,这些信息包括电影的分类、产品的说明与组成,以及很多可以作为分类系统特征的属性。
文本分类具有很多划分方法,目前只介绍两种基于文档内容分类的分类:
- 基于内容的分类。
- 基于请求的分类。
这两类的差异在于文本文档分类方法背后的思想或理念,而不在于具体的技术算法与过程。基于内容的分类 是根据文本内容主题或题目的属性或权证来进行文档分类的。举一个概念性的例子,一本书有 30% 以上的内容是关于食物准备的,这本书可以归为烹饪/食谱类。基于请求的分类世道用户需求的影响,其目标是特定的用户群和读者。这类分类收到特殊策略和思想的控制。