数据库系统

zoukankan html css js c++ java

数据库系统

模型与语言

关系关系元祖属性------通过对生活中例子，理解对应的抽象概念，元组对用每一行，属性对应一列。

谓词演算关系代数-----交差并补笛卡尔积投影选择连接广义积

数据库系统的结构抽象与演变

数据库系统的标准结构

关系模型

关系

关系特性

候选码与外码

关系模型的完整性

关系模型之关系代数

theta连接操作及更名操作

自然连接操作

除操作外连接操作

关系模型之关系演算

关系元组演算

简单运用元组演算公式

存在量词与全称量词

等价变换

用元组演算实现关系代数操作

什么是域演算

什么是按示例查询-QBE

QBE应用训练

关系演算的安全性

三种关系运算之比较

SQL语言概述

利用SQL建立数据库

利用SQL进行基本查询

利用SQL进行多表联合查询

结合SELECT的INSERT语句

结合SELECT的DELETE与UPDATE语句

数据库定义的修正与撤销

用SQL Server进行练习

SQL语言之复杂查询与视图

IN子查询

ThetaSome子查询

Exists子查询

结果计算与聚集计算

分组聚集计算与分组过滤

用SQL表达并交差操作

用SQL处理空值

用SQL表达连接与外连接操作

SQL-SELECT小结

SQL视图

SQL语言与数据库完整性和安全性

数据库完整性概念及完整性约束规则

数据库完整性

SQL表完整性与列完整性

SQL的断言及其应用

SQL的触发器的概念

数据库安全性的概念

自主安全性机制

两种自主安全性控制

SQL安全性控制

自主安全性控制的问题

强制安全性机制

嵌入式SQL语言之基本技巧

嵌入式SQL语言

程序与数据库连接

需要提交和撤销

游标

可滚动游标

利用游标进行数据库增删改

利用游标编写的一个程序

异常状态捕获机制

动态SQL的概念和作用

动态SQL的两种执行方式

数据字典及其作用

SQLDA与数据字典的应用

ODBC

JDBC

建模与设计

ER图

函数依赖

模式分解

范式

逻辑数据库

管理与技术

物理存储

磁盘存储

索引 B树 B+树散列索引聚簇索引

事务

日志 UNDO REDO

并发控制

错误处理

事务并发控制

数据库之闭包，范式

.1 第一范式（1NF）无重复的列

　　所谓第一范式（1NF）是指数据库表的每一列都是不可分割的基本数据项，同一列中不能有多个值，即实体中的某个属性不能有多个值或者不能有重复的属性。如果出现重复的属性，就可能需要定义一个新的实体，新的实体由重复的属性构成，新实体与原实体之间为一对多关系。在第一范式（1NF）中表的每一行只包含一个实例的信息。简而言之，第一范式就是无重复的列。

　　说明：在任何一个关系数据库中，第一范式（1NF）是对关系模式的基本要求，不满足第一范式（1NF）的数据库就不是关系数据库。

　　1.2 第二范式（2NF）属性完全依赖于主键[消除部分子函数依赖]

　　第二范式（2NF）是在第一范式（1NF）的基础上建立起来的，即满足第二范式（2NF）必须先满足第一范式（1NF）。第二范式（2NF）要求数据库表中的每个实例或行必须可以被唯一地区分。为实现区分通常需要为表加上一个列，以存储各个实例的唯一标识。例如员工信息表中加上了员工编号（emp_id）列，因为每个员工的员工编号是唯一的，因此每个员工可以被唯一区分。这个唯一属性列被称为主关键字或主键、主码。

　　第二范式（2NF）要求实体的属性完全依赖于主关键字。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性，如果存在，那么这个属性和主关键字的这一部分应该分离出来形成一个新的实体，新实体与原实体之间是一对多的关系。为实现区分通常需要为表加上一个列，以存储各个实例的唯一标识。简而言之，第二范式就是属性完全依赖于主键。

　　1.3 第三范式（3NF）属性不依赖于其它非主属性[消除传递依赖]

　　满足第三范式（3NF）必须先满足第二范式（2NF）。简而言之，第三范式（3NF）要求一个数据库表中不包含已在其它表中已包含的非主关键字信息。例如，存在一个部门信息表，其中每个部门有部门编号（dept_id）、部门名称、部门简介等信息。那么在的员工信息表中列出部门编号后就不能再将部门名称、部门简介等与部门有关的信息再加入员工信息表中。如果不存在部门信息表，则根据第三范式（3NF）也应该构建它，否则就会有大量的数据冗余。简而言之，第三范式就是属性不依赖于其它非主属性。

　　II、范式应用实例剖析

　　下面以一个学校的学生系统为例分析说明，这几个范式的应用。首先第一范式（1NF）：数据库表中的字段都是单一属性的，不可再分。这个单一属性由基本类型构成，包括整型、实数、字符型、逻辑型、日期型等。在当前的任何关系数据库管理系统（DBMS）中，傻瓜也不可能做出不符合第一范式的数据库，因为这些DBMS不允许你把数据库表的一列再分成二列或多列。因此，你想在现有的DBMS中设计出不符合第一范式的数据库都是不可能的。

　　首先我们确定一下要设计的内容包括那些。学号、学生姓名、年龄、性别、课程、课程学分、系别、学科成绩，系办地址、系办电话等信息。为了简单我们暂时只考虑这些字段信息。我们对于这些信息，说关心的问题有如下几个方面。

　　学生有那些基本信息

　　学生选了那些课，成绩是什么

　　每个课的学分是多少

　　学生属于那个系，系的基本信息是什么。

　　2.1 第二范式（2NF）实例分析

　　首先我们考虑，把所有这些信息放到一个表中(学号，学生姓名、年龄、性别、课程、课程学分、系别、学科成绩，系办地址、系办电话)下面存在如下的依赖关系。

　　（学号）→ (姓名, 年龄，性别，系别，系办地址、系办电话)

　　(课程名称) → (学分)

　　（学号，课程）→ (学科成绩)

　　2.1.1 问题分析

　　因此不满足第二范式的要求，会产生如下问题

　　数据冗余：同一门课程由n个学生选修，"学分"就重复n-1次；同一个学生选修了m门课程，姓名和年龄就重复了m-1次。

　　更新异常：

　　1)若调整了某门课程的学分，数据表中所有行的"学分"值都要更新，否则会出现同一门课程学分不同的情况。

　　2)假设要开设一门新的课程，暂时还没有人选修。这样，由于还没有"学号"关键字，课程名称和学分也无法记录入数据库。

　　删除异常：假设一批学生已经完成课程的选修，这些选修记录就应该从数据库表中删除。但是，与此同时，课程名称和学分信息也被删除了。很显然，这也会导致插入异常。

　　2.1.2 解决方案

　　把选课关系表SelectCourse改为如下三个表：

　　学生：Student(学号，姓名, 年龄，性别，系别，系办地址、系办电话)；

　　课程：Course(课程名称, 学分)；

　　选课关系：SelectCourse(学号, 课程名称, 成绩)。

　　2.2 第三范式（3NF）实例分析

　　接着看上面的学生表Student(学号，姓名, 年龄，性别，系别，系办地址、系办电话)，关键字为单一关键字"学号"，因为存在如下决定关系：

　　（学号）→ (姓名, 年龄，性别，系别，系办地址、系办电话)

　　但是还存在下面的决定关系

　　(学号) → (所在学院)→(学院地点, 学院电话)

　　即存在非关键字段"学院地点"、"学院电话"对关键字段"学号"的传递函数依赖。

　　它也会存在数据冗余、更新异常、插入异常和删除异常的情况。 (数据的更新，删除异常这里就不分析了，可以参照2.1.1进行分析)

　　根据第三范式把学生关系表分为如下两个表就可以满足第三范式了：

　　学生：(学号, 姓名, 年龄, 性别，系别)；

　　系别：(系别, 系办地址、系办电话)。

　　总结

　　上面的数据库表就是符合I,II,III范式的，消除了数据冗余、更新异常、插入异常和删除异常

一、函数依赖概念

    函数依赖是从数学角度来定义的，在关系中用来刻画关系各属性之间相互制约而又相互依赖的情况。函数依赖普遍存在于现实生活中，比如，描述一个学生的关系，可以有学号、姓名、所在系等多个属性，由于一个学号对应一个且仅一个学生，一个学生就读于一个确定的系，因而当“学号”属性的值确定之后，“姓名”及“所在系”的值也就唯一地确定了，   此时，   就可以称“姓名”和“所在系”函数依赖于“学号”，或者说“学号”函数决定“姓名”和“所在系”，记作：学号→姓名、学号→所在系。下面对函数依赖给出确切的定义。
    定义：设U{A1，A2，…，An}是属性集合，R（U）是U上的一个关系，x、y是U的子集。若对于R（U）下的任何一个可能的关系，   均有x的一个值对应于y的唯一具体值，称y函数依赖于x，记作x→y。   其中x称为决定因素。进而若再有y→x，则称x与y相互依赖，记作x←→y。例如表1．2所示“系”关系中：如果系名值是唯一的，即各系名均不相同，那么有函数依赖集：
    系代码→系名，系代码→系地址，系代码→系电话，系代码→系专业设置。
    系名→系代码，系名→系地址，系名→系电话，系名→系专业设置。
    可见，系名与系代码相互依赖，记作系名←→系代码。
    函数依赖中还可细分为多种函数依赖，分别介绍如下：


二、部分函数依赖

    设R（U）是属性集U上的关系，x、y是U的子集，x’是x的真子集，若x→y且x’→y，则称y部分依赖x，记作X→PY。显然，当且仅当x为复合属性组时，才有可能出现部分函数依赖。
    例如表1.6中，   显然有课程号→课程名，课程号→开课教研室代码。从另一角度看，只要课程号一定，同时课程名确定，开课教研室也就唯一确定，因此课程号+课程名→开课教研室代码。   但它与前述课程号→开课教研室代码是不同的，因为｛课程号，课程名｝存在真子集：“课程号”，课程号→开课教研室代码，我们把课程号十课程名→开课教研室代码称为“开课教研室代码”部分函数依赖于课程号+课程名。

三、完全函数依赖

    设R（U）是属性集U上的关系，x、y是U的子集，x’是x的真子集。若对于R（U）的任何一个可能的关系，有x→y但x’→y，则称y完全函数依赖于x，记作X→FY。
    所谓完全依赖是说明在依赖关系的决定项（即依赖关系的左项）中没有多余属性，有多余属性就是部分依赖。
    例如设关系模式R，R＝R（学号，姓名，班号，课程号，成绩），易知：
    “（学号，班号，课程号）→成绩”是R的一个部分依赖关系。   因此有决定项的真子集（学号，课程号），使得“（学号，课程号）→成绩”成立，且“学号→成绩”或“课程号→成绩”成立，“（学号，课程号）→   成绩”是R的一个完全依赖关系。

四、传递函数依赖

    设R（U）是属性集U上的关系，x、y、z是U的子集，在R（U）中，若x→y，但y→x，若y→z，则x→z，称z传递函数依赖于x，记作X→TZ。
    例如在一个学校中，每门课均是某一位老师教，但有些老师可教多门课，则有关系“教学”如表3．1所示。
    由以上关系不难分析，课程名→职工号、职工号→课程名，但职工号和其他属性的函数关系中都是决定因素，即职工号→老师名、职工号→职称，在这种情况下，老师名、职称传递函数依赖于课程名。

表3．1   教学表

课程名
    职工号
    老师名
    性别
    出生日期
    职称

英语
    T1
    张平
    男
    55．6．3
    教授

数学
    T2
    王文
    女
    62．10．5
    副教授

C语言
    T3
    李迎
    女
    62．10．5
    副教授

数据库
    T2
    王文
    女
    62．10．5
    副教授

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

闭包概念

　　以下是写的比较科学规范的闭包求解方法，设X和Y均为关系R的属性集的子集，F是R上的函数依赖集，若对R的任一属性集B，一旦X→B，必有B⊆Y，且对R的任一满足以上条件的属性集Y1 ，必有Y⊆Y1，此时称Y为属性集X在函数依赖集F下的闭包，记作X^＋。

　　计算关系R的属性集X的闭包的步骤如下：

　　第一步：设最终将成为闭包的属性集是Y，把Y初始化为X；

　　第二步：检查F中的每一个函数依赖A→B，如果属性集A中所有属性均在Y中，而B中有的属性不在Y中，则将其加入到Y中；

　　第三步：重复第二步，直到没有属性可以添加到属性集Y中为止。最后得到的Y就是X^＋

      例（1）：   设有关系模式R(U，F)，其中U={A，B，C，D，E，I}，F={A→D，AB→E，BI→E，CD→I，E→C}，计算(AE)⁺

        解: (1) 令X={AE}，X(0)=AE

              (2)在F中寻找尚未使用过的左边是AE的子集的函数依赖，结果是: A→D， E→C；所以 X(1)=X(0)DC=ACDE，显然 X(1)≠X(0).

              (3) 在F中寻找尚未使用过的左边是ACDE的子集的函数依赖，结果是: CD→I；所以 X(2)=X(1)I=ACDEI。虽然X（2）≠X(1)，但F中寻找尚未使用过函数依赖的左边已经没有X（2）的子集，所以不必再计算下去，即(AE)⁺=ACDEI。

　　　说白话一点：闭包就是由一个属性直接或间接推导出的所有属性的集合。

         例如：f={a->b，b->c，a->d，e->f}；由a可直接得到b和d，间接得到c，则a的闭包就是{a，b，c，d}

候选码的求解理论和算法

　　对于给定的关系R（A1，A2，…An）和函数依赖集F，可将其属性分为4类：

　　　　L类仅出现在函数依赖左部的属性。

　　　　R 类仅出现在函数依赖右部的属性。

　　　　N 类在函数依赖左右两边均未出现的属性。

　　　　LR类在函数依赖左右两边均出现的属性。

　　定理：对于给定的关系模式R及其函数依赖集F，若X（X∈R）是L类属性，则X必为R的任一候选码的成员。

　　推论：对于给定的关系模式R及其函数依赖集F，若X（X∈R）是L类属性，且X⁺包含了R的全部属性；则X必为R的唯一候选码。

　　例（2）：设有关系模式R（A，B，C，D），其函数依赖集F={D→B，B →D，AD →B，AC →D}，求R的所有候选码。

　　       解：考察F发现，A，C两属性是L类属性，所以AC必是R的候选码成员，又因为（AC）⁺=ABCD，所以AC是R的唯一候选码。

　　定理：对于给定的关系模式R及其函数依赖集F，若X（X∈R）是R类属性，则X不在任何候选码中。

　　定理：对于给定的关系模式R及其函数依赖集F，若X（X∈R）是N类属性，则X必包含在R的任一候选码中。

　　推论：对于给定的关系模式R及其函数依赖集F，若X（X∈R）是L类和N类组成的属性集，且X⁺包含了R的全部属性；则X是R的唯一候选码。

查看全文

相关阅读:
Spark Interaction（特征交互-笛卡尔转换）
Spark DCT 离散余弦变换
 Spark polynomialExpansion 多项式扩展
 Spark PCA
Spark n-gram模型
 Spark OneHotEncoder
Spark 逻辑回归LogisticRegression
查看macOS下正在使用的zsh
Neovim中NERDTree等多处cursorline不高亮
 让pip使用python3而不是python2

原文地址：https://www.cnblogs.com/luxiaolong-lxl/p/database.html

数据库之闭包，范式