元数据:即“关于数据的数据”(data about data) ,是一种用来描述数字化信息资源,特别是网络信息资源的基本特征及相互关系,从而确保这些数字化信息能够被计算机及其网络系统识别、分解、提取和分析归纳的一种框架或一套编码体系。
元数据的内涵:包括语义、句法与内容标准。语义定义了元素的含义, 句法说明了句子的结构方式以及句子的结构规则, 内容标准定义了数据元素的格式和值标准。语义是元数据互操作的本质, 语法是表现形式, 结构是描述框架,这三方面被视为解决元数据互操作的技术途径。
常用的三种元数据
1) 管理元数据:实质是对信息系统管理机制的规范、开放描述, 是用来描述管理政策与规则的。
2) 结构性元数据:通常也称置标语言(SGML), 描述的是数字化资源内部的形式特征, 它将资源的各个部分连接起来成为一个整体信息, 将它用在程序里可以产生一个资源的显示界面。
3) 保存元数据:指支持数字化资源长期保存的数据, 所谓长期保存是指保存期限可以无限地延长。
元数据的用途:
1) 描述因特网数据内容, 使因特网数据便于搜索;
2) 允许用户决定某些数据是否是他们所需的数据;
3) 防止一些用户存取某些数据;
4) 让用户可以重新得到或使用数据的另一份拷贝、知道怎样读懂数据;
5) 帮助决定利用什么样的数据实体;
6) 说明影响数据使用的一些信息;
7) 说明与其他资源的关系;
8) 对数据管理的控制;
9) 对某些缺少文本的数据进行文字说明;
元数据的作用: ⑴促进资源发现, 增加知识使用效度; ⑵信息过滤; ⑶个性化服务; ⑷个性化教育
元数据与文献编目的区别和联系
联系在于: 二者的著录目的相同, 并且都是对信息资源的特征进行著录;
区别在于: 数据的形式不同、描述的对象不同、著录的详细程度不同和著录的效果不同;
元数据与本体的区别和联系
本体是对领域知识的归纳和形式化, 目的就在于共享和重用, 因此特别适合作为信息模型对知识系统进行描述、表达和呈现。可见, 本体与元数据是互补的。
共同之处在于: 都可以采用标准的编码语言进行形式化处理, 因而能为资源提供语义基础, 可用于资源组织和资源发现;
差异表现为: 元数据难以对不同知识体系、不同粒度的资源进行描述, 而本体则提供了不同元数据之间的相互映射机制, 可实现异构系统之间的互操作
DC 与XML、RDF
DC 元数据是关于语义学或者是关于资源所试图进行的表示, RDF(资源描述框架)是关于结构, 即把使用DC 元数据语义学的资源进行编码的协议, XML(可扩展置标语言)对RDF 中的编码提供语法。
DC 可以嵌入到XML 语言中或者用XML 表达DC 的部分功能。
DC 与RDF 都有各自明确的规范和体系, 二者在网络信息资源标识的元数据体系中形成一种互补的关系。
MARC元数据:MARC 的全称为Machina Readale Catalague (机器可读目录) ,是发展最悠久、最成熟的计算机能够识别和阅读的目录,也是为描述、存储、交换、处理及检索信息资源而精密设计的标准。MARC的信息单元是MARC记 录,一条记录是一条文献相关特征的集合,包括头标区、目次区、数据区和分隔符。
MARC的下特点:
1)完整性:即严格的语义规则和完善的信息描述字段。
2)精确性:能够精确地描述信息资源,尤其是对检索点的选取能够确保其数据元素组成具有统一性。
3)可靠性:MARC描述格式得以广泛应用的主要原因之一就是著录信息的可靠性
Dublin Core (都柏林核心)元数据:是一种简单易用的信息资源描述格式, 是目前世界上使用最广泛的元数据格式,具有最强的适用性和最大的弹性。DC主要是为了设计一种简单的元数据模型,使网络资源的创建者或制作者无须经过对标准的培训就能自己来描述资源,便于网络资源的发现和检索。
DC元数据的结构:DC元数据是包含15个基本元素和44个限定词的元素集。它依据其描述的内容类型和范围可分为三组: ①对资源内容的描述:题名、主题、说明、来源、语种、关联和覆盖范围。②对知识产权的描述:创建者、出版者、其它责任者和权限。③对外部属性的描述:日期、类型、形式和标识符。其中每个元素都是可选的,也是可以重复的,并且各元素排列顺序可以是任意的,没有特殊意义。每个元素可以通过“堪培拉限定词”进一步扩展,44个限定词又可分为元素精确描述和元素编码描述两种。主要是提供DC所需要的更丰富的语义和更多的描述,使DC更简单,更易于管理。
DC元数据的特点:
1) 简单性:DC只有15个元素,且都具有一个能够普遍理解的语义,数据元素的含义易学易记,非编目人员也能很快学会使用。
2) 灵活性:DC即可以用于规范的资源描述领域,也可以用于非专业领域。具有可修饰性:DC在互操作的原则下,允许在15个元素的基础上增加新的元素和修饰词;可重复性:它规定所有元素都是可以重复的,解决了多著者和多版本等重复因素的著录问题;可扩展性:DC的多个框架,是可以扩展的,允许在原有的基础上加上更精确的语义及结构,对信息资源进行更详细的描述。
3) 互操作性:由于DC只选用了最重要的15个基本著录项目,同时这15个基本著录项目的标识符在各种语言中都保持不变,因此用DC来为这些资料提供元数据时,就使不同学科和语言的资料产生了语义上的相互可操作性,大大提高了网络资源的可利用率。
4) 国际通用性:DC已经成为一种国际范围内的适用于资源发现系统的元数据标准。
MARC与DC之间的联系
1) MARC是目前发展最成熟的元数据格式。有关人员在设计DC之前,即在一定程度上参考了MARC,DC字段的设计源于MARC中的字段,因此DC被称为“MARC的网络缩微版”,它为MARC的进一步发展提供了理论和实践的空间。
2) MARC与DC在著录资料的相关信息上,都是数据的数据,目的都是将资料的相关信息格式化,都是用来描述数字化信息资源的主题、内容特征,并通过字段中所著录的信息来提供检索的依据。MARC与DC所记录的资料属性相同,如基本内容、主题性查询目的等。
3) MARC与DC均可在技术的支持下,通过运用目录协议、搜索和检索协议等多种形式开发利用。两者一经建立便可共享,并且在使用过程中由工作人员增加新的属性,使它们逐步完善。
4) MARC与DC之间能够建立映射关系,通过程序,进行自动转换。
MARC与DC之间的区别
1) 著录的格式不同;
2) 著录的对象不同:DC描述的是已经数字化的对象,主要是网络信息资源的描述;MARC适用于形式相对稳定的物理载体,如印刷型出版物、图像、缩微、数据库等;
3) 著录的主体不同:专业人员与非专业人员之间的区别;
4) 著 录的详简程度不同:简单与复杂之分;DC的著录相对比较简单,以“建立一套简洁而灵活的,且非专业图书馆人员也可容易掌握和使用的资源著录格式”为目标, 提供一种比图书馆现行编目更有效率的方法。MARC经过多年的发展,已经成为系统较完善,字段较完备,标准较严密的一种数据描述格式。
5) 显 示的形式不同:DC为自己设置了两种HTML 语言的标签“NAME”和“CONTENT”,同时将每个单元都加了著录标识,著录时,DC以使用HTML语言为输出结果的网络接口形式,也保留了自己的 著录标准和系统。MARC格式则必须首先在自己所熟悉的软件系统中著录,输出著录结果,再将著录结果使用HTML语言加以标识,比较复杂。
6) 产 生的途径不同。在CORC系统中,DC元数据的产生主要有两种途径:一种是通过OCLC网络编目软件直接制作,另一种是通过import的方式来获取。 MARC记录则必须经过专用的编目软件,由通过一段时间严格培训的编目员进行编目,以独立数据库或文件形式存在,与其所描述的对象分离,在进行数据处理时 对软件平台的依赖性较强。
MARC的不足
1)著录依据难以确定。编目规则中说明可视同图书资料书名页的网址为主要依据,但从网络信息资源的特点来看,同一网址中所对应的信息可能包括不同资源,或者同一资源对应多个网址,因此如何判断主要网页,以及主要网页是否提供了主要信息,还没有详尽的使用说明范例。
2)转化成网络数据库的程序较为复杂。数字图书馆的最终表现形式是可以在网上浏览网络数据库,而MARC格式则必须首先在自己的软件系统中进行著录,然后输出著录结果,再将著录结果使用HTML语言加以标识,转化程序较为复杂。
3)著录太详尽。
DC的不足
1)字段定义的模糊性。DC由于没有建立规则和过程来控制数据元素的内容,只考虑著录上的弹性空间,字段定义相对简练。容易造成对字段定义的不同理解,直接影响了DC的使用频率。
2)互通性。DC对每一项具体著录没有做出规定,完全是根据网页制作者对DC的理解,并视著录特点扩展所要著录的项目。但当通用的著录项目扩展到一定程度时,资料彼此间的互通性可能随之降低,跨系统的解读能力和资料运用的精确性下降,从而造成资料检索利用上的困扰。
3) 限定词的制定使其复杂化。为了让标引的对象更加明确,并提高检准率和检全率,DC致力于限定词著录控制表的研究。这样做一定程度上可以解决上述问题,但也 相对增加了著录者的负担,发展到一定程度时,著录者恐怕也会像著录MARC一样,要进行相当的训练并严格遵循大量的规则才能完成资料的著录。
除非注明,本站文章均为原创,转载请注明: 文章来自世界大学城