文章的三个目的:
1.分析自动或半自动的以文本为数据源本体构建的主流方法(数据源:结构化数据:数据库;半结构化数据:科技文献;无结构化数据:文本资源、网络数据)
2.这些方法的问题及面临的挑战
3.未来的研究方向
本体分为:
- 领域本体:对某一具体领域建立相应的只是规范描述
- 通用本体:建立可广泛应用于多种应用场景的本体知识(构建比较难)
本体组成的三个部分:
- 概念
- 概念之间的关系
- 建立在关系上的公理(公理:代表永真断言)
本体的构建方法:
- 依靠本体专家手工构建(主观性强)
- 在一些机器学习方法的帮助下采取自动或半自动的方法进行构建。(逐渐成为主流方法)
本体的构建过程:
- 预处理模块:对输入的文本进行先期处理(断句、分词、词性标注、短语识别等)
- 术语抽取模块:提取和目标领域高度相关的术语
- 概念抽取模块:提取和目标领域高度相关的概念
- 层次关系抽取模块:抽取本体概念之间的层次关系
- 非层次关系抽取:抽取本体概念之间的层次关系以外的其他类型的关系(难点也是重点)
本体构建的数据输入类型:
- 文本输入(挖掘本体)(主流方向)
- 本体输入(本体合并)
技术路线:
本体构建的主导方法:
- 统计主导的构建方法:聚类、词频统计、词共现分析、潜在语义分析、术语搭配、关系规则挖掘、浅层自然语言处理等。特点:更灵活,可以广泛地被应用于不同的领域,不同语种下的本体构建。
- 语言学主导的构建方法:对自然语言处理技术高度依赖,处理复合词和非层次关系时得到的精度更高。在实际使用中会受到许多限制。
本体构建中各任务模块常用技术:
- 术语(具有稳定搭配关系的词序列以及对应领域关联度比较大的词序列称作术语)抽取:TF-IDF(是一种用于信息检索与数据挖掘的常用加权技术,随着它在文件中出现的次数成正比增加)、C-value/NC-value、随机漫步赋值、自然语言处理工具集
- 概念抽取:将相似的术语进行聚类形成
- 关系抽取(是本体构建的最重要的一个步骤):层次关系的抽取:专家设计的一些预定义模板、基于语言学规则、聚类。非层次关系的抽取(比层次关系的抽取要复杂的多):基于深层的自然语言处理技术(句法分析、依存分析),对每个句子识别核心动词,之后以该核心动词为中心,分别向左向右寻找与该核心动词紧邻的概念,找到的两个概念同该核心词一起组成一个关系三元组。
本体构建的评价方法:
- 基于应用的评价:从应用效果角度来评价本体的性能(不直观)
- 基于本体自身的评价:针对所构建本体中的概念及关系分别进行评价(广泛使用)
常见的本体构建系统分析:(适用性、知名度、支持的输出结果等)
- GRAONTO:全自动的基于图的领域本体构建系统,适用于从无结构文本中进行构建,采取的是统计的方法。(数据规模增加的时候,系统的性能迅速下降)
- CRCTOL:从领域相关的文本中自动进行本体构建的系统
- Text2Onto:从文本数据中进行本体构建的工具。
本体构建的问题和挑战:
- 本体的更新问题:本体作为常识性的通用知识,具有一定的稳定性。定期的更新数据源并重新进行本体构建是一种效率较低的方法。
- 本体中关系的消歧问题(抽取核心动词,但是这些核心动词也可能存在不同的语义)
- 本体概念属性的自动获取以及概念的消歧问题(消歧问题并没有得到重视)
未来的研究方向:
- 应用深度学习进行本体构建会使未来本体构建的研究方向之一。本体的构建移植性较差,难以构建大规模实用化本体,机器学习和自然语言处理有两个固有的难题:有限的标注数据和无限的标注需求之间的矛盾;有限的人工特征构建能力和无限的实际特征之间的矛盾。但是深度学习提供了新的工具。
- 利用知识图谱的研究思路来进行本体概念以及本体关系抽取研究,将会成为未来本体构建的研究方向之一。知识图谱中关系挖掘的方法(三元组的形式分别表示成向量,映射到某些高维空间来判断实体间可能存在的关系类型)
- 一些尚未解决的问题:本体公理的构建(本体中公理的学习仍处于最初始阶段);找到客观评价本体准确率、算法效率、本体完备性的文法;本体构建不存在一个通用型、指导性的方法体系;几乎没有完全自动化的系统,多数方法需要用户的参与来从标注语料库中获取相应的概念以及关系
研究热点:
- 如何有效利用社交数据进行本体构建
- 进行网络规模级的本体构建研究中,如何保证算法的有效性和健壮性
- 如何进行实用化的本体构建研究
- 找到更有效的全自动的本体学习方法
- 找到移植性更好的本体构建方法
- 本体构建方法缺乏通用性,学习方法应该向自动化学习方向努力