数据模型(data model):
- 定义:是一种模型,是对现实世界数据特征的抽象。是严格定义的一组概念的集合。
- 用途:用来描述数据、组织数据和对数据进行操作。
- 地位:数据模型是数据库系统的核心和基础。
- 组成要素:
- 数据结构--描述系统的静态特性:
- 定义:描述数据库的组成对象以及对象之间的联系
- 地位:刻画数据模型性质最重要的方面,通常按数据结构的类型来命名数据模型
- 层次结构--层次模型
- 网状结构--网状模型
- 关系结构--关系模型
- 描述的内容:
- 描述数据库的组成对象--对象的类型、内容、性质
- 描述对象之间的关系
- 数据操作--描述系统的动态特性:
- 定义:是指对数据库中各种对象(型)的实例(值)允许执行的操作的集合,包括操作及有关的操作规则
- 类型:
- 查询
- 更新(包括插入、删除、修改)
- 要求:
- 数据模型必须定义数据操作的确切含义、操作符号、操作规则(如优先级)
- 数据模型必须定义实现操作的语言
- 数据的完整约束性条件:
- 定义:是一组完整性规则
- 完整性规则:给定的数据模型中数据及其联系所具有的制约和依存规则,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效和相容
- 要求:
- 数据模型应该反映和规定其必须遵守的基本的和通用的完整性约束条件
- 数据模型应该提供定义完整性约束条件的机制,以反映具体应用所涉及的数据必须遵守的特定的语义约束条件
- 定义:是一组完整性规则
- 数据结构--描述系统的静态特性:
- 分类:
- 概念模型(信息模型):
- 定义:依照用户的观点来对数据和信息建模
- 用途:
- 主要用于数据库的设计
- 用于信息世界的建模
- 是现实世界到机器世界的一个中间层次
- 数据库设计人员和用户之间进行交流的语言
- 要求:
- 较强的语义表达能力
- 简单、清晰、易于用户理解
- 信息世界中的基本概念:
- 实体(Entity):客观存在并可相互区别的事物称为实体。可以是具体的人、事、物或抽象的概念
- 属性(Attribute):实体所具有的某一特性称为属性。一个实体可以由若干个属性来刻画
- 码(Key):唯一标识实体的属性集称为码
- 实体型(Entity Type):用实体名及其属性名集合来抽象和刻画同类实体称为实体型
- 实体集(Entity Set):同一类型实体的集合称为实体集
- 联系(Relationship):现实世界中事物内部以及事物之间的联系在信息世界中反映为实体(型)内部的联系和实体(型)之间的联系
- 实体内部的联系: 是指组成实体的各属性之间的联系
- 实体之间的联系: 通常是指不同实体集之间的联系,有一对一、一对多、多对多等多种类型
- 表示方法:
- 实体-联系方法(Entity-Relationship Approach):该方法用E-R图(E-R diagram)来描述现实世界的概念模型,E-R方法也称E-R模型
- 逻辑模型和物理模型:
- 逻辑模型:
- 定义:按照计算机系统的观点对数据建模
- 用途:主要用于数据管理系统的实现
- 分类:
- 格式化模型:
- 表示:实体用记录表示,实体的属性对应记录的数据项(或字段),实体之间的联系对应记录之间的联系
- 数据结构的基本单位:基本层次联系,基本层次联系是指两个记录以及它们之间的一对多(包括一对一)的联系
- 分类:
- 层次模型:
- 定义:①有且只有一个结点没有双亲结点,这个结点称为根结点;②根以外的其它结点有且只有一个双亲结点
- 结构:用树形结构来表示各类实体以及实体间的联系
- 表示方法:
- 实体型:用记录类型描述每个结点表示一个记录类型(实体)
- 属性:用字段描述每个记录类型可包含若干个字段
- 联系:用结点之间的连线(有向边)表示记录类型(实体)之间的一对多的父子联系
- 特点:
- 结点的双亲是唯一的
- 只能直接处理一对多的实体联系
- 任何记录值只有按其路径查看
- 没有一个子女记录值能够脱离双亲 记录值而独立存在
- 数据操纵:
- 查询
- 插入
- 删除
- 更新
- 完整性约束:
- 无相应的双亲结点值就不能插入子女结点值
- 如果删除双亲结点值,则相应的子女结点值也被同时删除
- 更新操作时,应更新所有相应记录,以保证数据的一致性
- 优点:
- 层次模型的数据结构比较简单清晰
- 查询效率高,性能优于关系模型,不低于网状模型
- 层次数据模型提供了良好的完整性支持
- 缺点:
- 结点之间的多对多联系表示不自然
- 对插入和删除操作的限制多,应用程序的编写比较复杂
- 查询子女结点必须通过双亲结点
- 层次数据库的命令(语言)趋于程序化
- 网络模型:
- 定义:①允许一个以上的结点无双亲;②一个结点可以有多于一个的双亲
- 结构:用网状结构来表示各类实体以及实体间的联系
- 表示方法:
- 实体型:用记录类型描述每个结点表示一个记录类型(实体)
- 属性:用字段描述每个记录类型可包含若干个字段
- 联系:用结点之间的连线表示记录类型(实体)之间的一对多的父子联系
- 多对多联系在网状模型中的表示,网状模型间接表示多对多联系,将多对多联系分解成一对多联系
- 特点:
- 允许多个结点没有双亲结点
- 允许一个结点有多个双亲结点
- 允许两个结点之间有多种联系
- 要为每个联系命名,并指出与该联系有关的双亲记录和子女记录
- 数据操纵:
- 导航式的查询语言
- 和增删改操作语言
- 完整性约束:
- 允许插入尚未确定双亲结点值的子女结点值
- 允许只删除双亲结点值
- 支持码的概念:唯一标识记录的数据项的集合,取唯一的值
- 保证一个联系中双亲记录与子女记录之间是一对多联系
- 可以定义双亲记录和子女记录之间某些约束条件
- 优点:
- 能够更为直接地描述现实世界,如一个结点可以有多个双亲
- 具有良好的性能,存取效率较高
- 缺点:
- 结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越 复杂,不利于最终用户掌握
- DDL、DML语言复杂,用户不容易使用
- 记录之间联系是通过存取路径实现的,应用程序必须选择存取路径,加重了程序员的负担。
- 层次模型:
- 关系模型:
- 定义:它是建立在严格的数学概念的基础上的
- 结构:在用户观点下,关系模型中数据的逻辑结构是一张二维表
- 数据结构:
- 关系(Relation):一个关系对应通常说的一张表
- 元组(Tuple):表中的一行即为一个元组
- 属性(Attribute):表中的一列即为一个属性,给每一个属性起一个名称即属性名
- 码(键码)(Key):表中的某个属性组,它可以唯一确定一个元组
- 域(Domain):是一组具有相同数据类型的值的集合,属性的取值范围来自某个域
- 分量:元组中的一个属性值
- 关系模式:对关系的描述,一般表示为,关系名(属性1,属性2,…,属性n)
- 要求:
- 关系必须是规范化的,满足一定的规范条件
- 最基本的规范条件:关系的每一个分量必须是一个不可分的数据项,不允许表中还有表
- 数据操纵:
- 数据操作是集合操作,操作对象和操作结果都是关系
- 查询、插入、删除、更新
- 完整性约束:
- 实体完整性
- 参照完整性
- 用户定义的完整性
- 优点:
- 建立在严格的数学概念的基础上
- 概念单一
- 实体和各类联系都用关系来表示
- 对数据的检索结果也是关系
- 关系模型的存取路径对用户透明
- 具有更高的数据独立性,更好的安全保密性
- 简化了程序员的工作和数据库开发建立的工作
- 缺点:
- 存取路径对用户透明,查询效率往往不如格式化数据模型
- 为提高性能,必须对用户的查询请求进行优化,增加了开发数据库管理系统 的难度
- 定义:它是建立在严格的数学概念的基础上的
- 面向对象数据模型
- 对象关系数据模型
- 半结构化数据模型
- 格式化模型:
- 物理模型:
- 定义:是对数据底层的抽象
- 内容:描述数据在系统内部(磁盘上或磁带上)的表示方式和存取方式,是面向计算机系统的
- 实现:具体实现是数据库管理系统的任务
- 逻辑模型:
- 概念模型(信息模型):
参考-《数据系统概论(第五版)》-人民大学-王珊