文本挖掘,是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程.对其进行深入的研究势必将极大地提高人们从海量的文本数据中提取信息的能力,具有很高的商业价值.
文本挖掘或者文档挖掘是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程.文本挖掘涵盖多种技术,包括信息抽取,信息检索,自然语言处理和数据挖掘技术.它的主要用途是从原本未经使用的文本中提取出未知的知识.但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。
文本挖掘同信息抽取和信息检索关系密切,并且完全可以考虑用组件来完成这些任务.最好的文本挖掘系统应该是一个按照一定顺序执行的过程,有一些类似于数据挖掘的过程 ,也同样描述了过 程用于提取知识,只是将信息提取和信息检索合并为一个预处理过程.
(1) 信息检索:寻找和检索那些所有被认为可能与当前工作相关的文本.一般地,系统用户都可以定义文本集,但是仍然需要一个用来过滤相关文本的系统.
(2) 信息抽取:从选择后的文本中抽取信息.这个抽取过程一般是填充用户定义的所希望得到的信息模式的过程.
(3) 信息挖掘:一旦为每个文本填充了词条,就进入了对标准数据库进行挖掘的阶段,可以期望发掘出一些有用的知识模式.
(4)解释:将解释器置于从挖掘阶段得来的模式之上.当然解释器最好能够理解自然语言的格式.
文本挖掘的一般框架包括两个模块: 文本提炼就是把任意格式的文本转换为可以用来机器学习的媒介格式;另一个是所谓的知识蒸馏,就是从这种媒介格式中推导出模式或者知识.媒介格式可以是半结构化的类似于概念图的表示,也可以是结构化的类似于关系数据的表示.媒介格式可以是基于文本的,每个实体代表一个文本;或者是基于概念的,每个实体代表在某领域内会引起人们兴趣的概念或对象.挖掘基于文本的媒介格式可以导出文本之间的模式和关系.文本聚类、文本可视化和文本分类都是从基于文本的媒介格式中挖掘的例子.挖掘基于概念的媒介格式将导出对象或概念间的模 式和关系. 预知建模和相关发现都属于这一类 .基 于文本的媒介形式可以被置换为基于概念的媒介形 式, 比如通过对领域特定的相关信息的提取和重排技术。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
随着云计算、移动互联网以及物联网等技术的发展和完善,相信大数据在各个领域的应用会越来越广泛和深入,相关的研究也会越来越全面和深入,在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。