集合操作
常用的集合操作主要有三种:UNION(联合集)、INTERSECT(交叉集)、EXCEPT(求差集)。以上三种集合的操作都是直接作用在两个或者多个 SQL 查询语句之间,将所有的元组按照特定的要求筛选后拼接起来。SQL 查询后实际上是得到一个新的数据表的形式,因此所作用的数据表之间必须定义相同的属性,且属性定义的顺序相同。
举个例子,要获取所有拥有 gmail 或者 hotmail 邮箱账号的学生信息:
(SELECT * FROM Student WHERE Email like '%@gmail.com') UNION (SELECT * FROM Student WHERE Email like '%@hotmail.com');
但以下语句无法正常工作,因为所作用的两个表的属性不同:
(SELECT StudentID, Name FROM Student) UNION (SELECT Email FROM Student);
连接操作 JOIN
当我们想要查询得到的数据包含多个表的内容,也就是要同时获得不同表中属性数值的时候,常使用 JOIN 语句
内连接(INNER JOIN)
内连接是应用程序中用的普遍的"连接"操作,它一般都是默认连接类型。内连接基于连接谓词将两张表(如 A 和 B)的列组合在一起,产生新的结果表。查询会将 A 表的每一行和 B 表的每一行进行比较,并找出满足连接谓词的组合。当连接谓词被满足,A 和 B 中匹配的行会按列组合(并排组合)成结果集中的一行。
内连接可以进一步被分为:相等连接、自然连接、交叉连接
交叉连接 (CROSS JOIN)
交叉连接,又称为笛卡尔连接(Cartesian join)或者叉乘(Product),它是所有类型内连接的基础 。把表视为行记录的集合,交叉连接返回这两个集合的笛卡尔积。等价于连接条件永远为“真”。
如果 A 和 B 是两个集合,那么它们的交叉连接就记为:A x B。比如:
SELECT * FROM employee CROSS JOIN department; -- 隐式表达交叉连接 SELECT * FROM employee, department;
相等连接(equi-join,或 equijoin)
相等连接是比较连接的一种特例,它的连接谓词只用了相等比较。通常在 JOIN 语句后跟 ON 关键字补充相等比较语句。举个例子,找出所有至少存在一名学生注册的课程名字:
SELECT DISTINCT c.Cname FROM Course c INNER JOIN Enrol e ON c.No=e.CourseNo;
自然连接(NATURAL JOIN)
自然连接比相等连接的进一步特例化。两表做自然连接时,两表中的所有名称相同的列都将被比较,这是隐式的。自然连接得到的结果表中,两表中名称相同的列只出现一次。也就是说,通过相等连接得到的结果表中,用于比较的列可能会重复,而在自然连接中并不会出现。
SELECT * FROM Student s NATURAL JOIN Enrol1 e;
外连接(OUTER JOIN)
外连接与内连接最大的区别在于,外连接并不要求连接的两表的每一条记录在对方表中都一条匹配的记录。要保留所有记录(甚至这条记录没有匹配的记录也要保留)的表称为保留表,没有匹配的部分用 NULL 代替。
外连接可依据连接表保留左表,右表或全部表的行而进一步分为左外连接,右外连接和全连接。
需要注意一点,当外部连接既包含 ON 子句又包含 WHERE 子句时,应当只把表之间的连接条件写在 ON 子句中,对表中数据的筛选必须写在 WHERE 子句中。而内部连接的各条件表达式既可以放在 ON 子句又可以放在 WHERE 子句中。这是因为对于外部连接,保留表中被 ON 子句筛除掉的行要被添加回来,在此操作之后才会用 WHERE 子句去筛选连接结果中的各行。
左外连接(LEFT OUTER JOIN)
左外连接(left outer join),亦简称为左连接(left join),若 A 和 B 两表进行左外连接,那么结果表中将包含"左表"(即表 A)的所有记录,即使那些记录在"右表" B 没有符合连接条件的匹配。这意味着即使 ON 语句在 B 中的匹配项是0条,连接操作还是会返回一条记录,只不过这条记录中来自于 B 的每一列的值都为 NULL。这意味着左外连接会返回左表的所有记录和右表中匹配记录的组合(如果右表中无匹配记录,来自于右表的所有列的值设为 NULL)。如果左表的一行在右表中存在多个匹配行,那么左表的行会复制和右表匹配行一样的数量,并进行组合生成连接结果。
SELECT * FROM Student s LEFT JOIN Enrol1 e ON s.StudentID=e.StudentID;
右外连接(RIGHT OUTER JOIN)
右外连接(right outer join),亦简称右连接(right join),它与左外连接完全类似,只不过是作连接的表的顺序相反而已。如果 A 表右连接 B 表,那么"右表" B 中的每一行在连接表中至少会出现一次。如果 B 表的记录在"左表" A 中未找到匹配行,连接表中来源于 A 的列的值设为 NULL。
右连接操作返回右表的所有行和这些行在左表中匹配的行(没有匹配的,来源于左表的列值设为 NULL)。
SELECT * FROM Student s RIGHT JOIN Enrol1 e ON s.StudentID=e.StudentID;
子查询 Subqueries
子查询通常用在 FROM 子句或者 WHERE 子句当中。用于 FROM 子句的目的通常是从查询的到结果表中采取进一步的查询,比如调用内置函数,获取最大值、最小值、平均值、计数等等。用于 WHERE 子句的情况,通常会使用一下关键字:
- IN:检查某个元组是否存在于子查询结果中。
- EXISTS:检查子查询结果是否为空。
- ALL, SOME or ANY: 使用子查询结果前对该结果进行相应的比较。
- NOT:上述关键字前使用 NOT 是结果取反。
列出最少有10名学生参加的课程的所有学生信息以及该课程的名字:
SELECT s.*, e1.CourseNo FROM Student s NATURAL JOIN Enrol e1 WHERE e1.CourseNo IN (SELECT e2.CourseNo FROM Enrol e2 GROUP BY e2.CourseNo HAVING COUNT(*) < 10);
列出所有至少参加一门课程的学生信息:
SELECT s.* FROM Student s WHERE EXISTS (SELECT * FROM Enrol e WHERE s.StudentID=e.StudentID);
列出所有没有参加任何课程的学生信息:
SELECT s.* FROM Student s WHERE NOT EXISTS (SELECT * FROM Enrol e WHERE s.StudentID=e.StudentID);
列出在2016学年第二学期中,报名学生人数最多的课程:
SELECT e.CourseNo FROM (SELECT e1.CourseNo, COUNT(*) AS NoOfStudents FROM Enrol e1 WHERE e1.Semester = '2016 S2' GROUP BY e1.CourseNo) e WHERE e.NoOfStudents = (SELECT MAX(e2.NoOfStudents) FROM (SELECT e1.CourseNo, COUNT(*) AS NoOfStudents FROM Enrol e1 WHERE e1.Semester = '2016 S2' GROUP BY e1.CourseNo) e2);
列出在2016学年第二学期中,报名学生人数比至少一个其他课程要多的课程:
SELECT e.CourseNo FROM (SELECT e1.CourseNo, COUNT(*) AS NoOfStudents FROM Enrol e1 WHERE e1.Semester = '2016 S2' GROUP BY e1.CourseNo) e WHERE e.NoOfStudents > ANY (SELECT e2.NoOfStudents FROM (SELECT e1.CourseNo, COUNT(*) AS NoOfStudents FROM Enrol e1 WHERE e1.Semester = '2016 S2' GROUP BY e1.CourseNo) e2);
具体创建数据库的代码可以通过下面的链接得到:
https://github.com/OddUlrich/Experiment-Code/tree/master/SQL%20Select%20Practice
若想做更多关于查询的练习,可以访问下面的这个网站:
https://pgexercises.com/
参考资料:
连接 (join):https://zh.wikipedia.org/wiki/%E8%BF%9E%E6%8E%A5