转:https://www.jianshu.com/p/bbf79b23b377
前言
前两篇说完了索引底层数据结构、性能优化原理的基本概念。本篇将讲讲具体实践。对于一个以数据为中心的应用,数据库的好坏直接影响到程序的性能,因此数据库性能至关重要。一般来说,要保证数据库的效率,要做好以下四个方面的工作:
- 数据库表设计
- SQL语句优化
- 数据库参数配置
- 恰当的硬件资源和操作系统
此外,使用适当的存储过程,也能提升性能。这个顺序也表现了四个方面对性能影响的大小。
数据库表设计
通俗地理解三个范式,对于数据库设计大有好处。在数据库设计当中,为了更好地应用三个范式,就必须通俗地理解三个范式。
第一范式:1NF - 确保原子性
是对属性的原子性约束,要求属性(列)具有原子性,不可再分解;(只要是关系型数据库都满足 1NF)
第二范式:2NF - 确保表中每列都和主键相关
是对记录的唯一性约束,要求记录有唯一标识,即实体的唯一性;
先满足1NF,然后每张表要有主键,并且确保每一列都和主键相关,而不是主键的一部分(主要针对联合主键)。换言之,一个表中只保存一种数据而不是多种数据。
错误示范:商品订单信息错误设计
正确示范:商品订单信息正确设计
第三范式:3NF - 确保每列都和主键直接相关,而不是间接相关
3NF 是对字段冗余性的约束,它要求字段没有冗余。
第三范式需要确保数据表中的每一列数据都和主键直接相关,而不能间接相关。不能传递依赖,如非主键列A依赖非主键列B,非主键列B依赖主键。
关键字段 -> 非关键字段x -> 非关键字段y
案例1:
比如在设计一个订单数据表的时候,可以将客户编号作为一个外键和订单表建立相应的关系。而不可以在订单表中添加关于客户其它信息(比如姓名、所属公司等)字段。如下这两个表所示的设计就是一个满足第三范式的数据库表。
案例2:
假定学生关系表为 Student
(学号、姓名、年龄、所在学院、学院地点、学院电话),关键字为单一关键字“学号”,因为存在如下决定关系:
(学号)-> (姓名、年龄、所在学院、学院地点、学院电话)
即存在非关键字段“学院地点”、“学院电话”对关键字段“学号”的传递函数依赖。
它也会存在数据冗余,更新异常、插入异常和删除异常的情况。正确应把学生关系表分为如下两个表:
- 学生:(学号、姓名、年龄、所在学院)
- 学院:(学院、地点、电话)
范式化优缺点
范式化的优点:
- 重复数据少,不冗余;
- 维护更新快;
- 范式化的表更小,可在内存中运行。
范式化的缺点:
查询的时候经常需要很多关联,增加查询的代价。也可能使一些索引策略失效,因为范式化将列放在不同的表中,而这些列在一个表中本可以属于同一个索引。
反范式化的优缺点
反范式化的优点:
- 避免关联,几乎所有数据可以在一张表中显示。
- 可以设计有效的索引。
反范式化的缺点:
冗余数据多,更小维护麻烦,删除数据时也容易丢失重要信息。
数据表设计的建议
没有冗余的数据库设计可以做到,但是,没有冗余的数据库未必是最好的数据库,有时为列提高运行效率,就必须降低范式标准,适当保留冗余数据。具体做法:在概念数据模型设计时遵守第三范式,降低范式标准的工作放到物理数据模型设计时考虑。降低范式就是增加字段,允许冗余。
另外,《阿里巴巴Java开发手册》,数据库的表设计允许适当冗余,以提升SQL查询的性能,避免表的关联查询。
适度冗余,减少join的关联
冗余更新频率不高,但是查询频率极高的字段。如订单中的商品名称、微博发帖中的用户昵称。
大字段垂直拆分
如把博客列表中的内容拆分出去,访问列表的时候不读取博客内容,为纵深的逻辑关系。
大表水平拆分
举例说明:在一个论坛系统里,管理员经常会发一些帖子,这些帖子要求在每个分类列表里都要置顶。
- 设计方案一:在发帖表里增加一列用来标示是否是管理员发帖,这样在每个分类列表展示时就需要对发帖表查询两次,一次是置顶帖,一次是普通帖,然后将两次结果合并。如果发帖表内容较大时,查询置顶帖的性能开销会比较大。
- 设计方案二:将置顶帖存放在一个单独的置顶表里。因为置顶帖数量相比会很少,但访问频率很高,这样从发帖表里分拆开来,访问的性能开销会少很多。
合适的数据类型
如果数据量一样,但数据类型更小的话,数据存放同样的数据就会占用更少的空间,这样检索同样的数据所带来的IO 消耗自然会降低,性能也就很自然的得到提升。此外,MySQL 对不同类型的数据,处理方式也不一样,比如在运算或者排序操作中,越简单的数据类型操作性能越高,所以对于要频繁进行运算或者排序的字段尽量选择简单的数据类型。
SQL语句优化
SQL优化的一般步骤
- 通过
show status
命令了解各种SQL的执行频率; - 定位执行效率较低的SQL语句-(重点
select
); - 通过
explain
分析低效率的SQL; - 确定问题并采取相应的优化措施。
-- select语句分类
Select
Dml数据操作语言(insert update delete)
dtl 数据事物语言(commit rollback savepoint)
Ddl数据定义语言(create alter drop..)
Dcl(数据控制语言) grant revoke
-- Show status 常用命令
--查询本次会话
Show session status like 'com_%'; //show session status like 'Com_select'
--查询全局
Show global status like 'com_%';
-- 给某个用户授权
grant all privileges on *.* to 'abc'@'%';
--为什么这样授权 'abc' 表示用户名 '@' 表示host, 查看一下mysql->user表就知道了
--回收权限
revoke all on *.* from 'abc'@'%';
--刷新权限[也可以不写]
flush privileges;
SQL语句优化-show参数
MySQL客户端连接成功后,通过使用 show [session|global] status
命令可以提供服务器状态信息。其中的session
来表示当前的连接的统计结果,global
来表示自数据库上次启动至今的统计结果。默认是session级别的。
show status like 'Com_%';
其中, Com_XXX
表示 XXX
语句所执行的次数。
重点注意:Com_select
,Com_insert
,Com_update
,Com_delete
通过这几个参数,可以了解到当前数据库的应用是以插入更新为主还是以查询操作为主,以及各类的SQL大致的执行比例是多少。
还有几个常用的参数便于用户了解数据库的基本情况。Connections
:试图连接MySQL服务器的次数Uptime
:服务器工作的时间(单位秒)Slow_queries
:慢查询的次数 (默认是慢查询时间10s)
show status like 'Connections';
show status like 'Uptime';
show status like 'Slow_queries';
查询MySQL的慢查询时间
show variables like 'long_query_time';
修改MySQL慢查询时间
set long_query_time=2;
SQL语句优化-定位慢查询
上面我们介绍了获取MySQL数据库的一些运行状态是如何查询
- 比如当前MySQL运行的时间:
show status like 'Uptime';
- 一共执行了多少次
select/update/delete.. /
:show status like 'Com_%';
- 当前连接数
定位慢查询
如何从一个项目中快速定位执行速度慢的语句(定位慢查询)
show variables like '%query%';
slow_query_log
默认是off关闭的,使用时,需要改为on 打开slow_query_log_file
记录的是慢日志的记录文件long_query_time
默认是10S,每次执行的sql达到这个时长,就会被记录
查看慢查询状态
Slow_queries 记录的是慢查询数量 当有一条sql执行一次比较慢时,这个vlue就是1 (记录的是本次会话的慢sql条数)
show status like '%slow_queries%';
注意:
- 如何打开慢查询 : SET GLOBAL slow_query_log = ON;
- 将默认时间改为1S: SET GLOBAL long_query_time = 1;
(设置完需要重新连接数据库,PS:仅在这里改的话,当再次重启数据库服务时,所有设置又会自动恢复成默认值,永久改变需去my.ini中改)
SQL语句优化-Explain工具
使用EXPLAIN
关键字可以模拟优化器执行SQL语句,分析你的查询语句或是结构的性能瓶颈 在 select 语句之前增加 explain 关键字,MySQL 会在查询上设置一个标记,执行查询会返回执行计划的信息,而不是执行这条SQL。
注意:如果 from 中包含子查询,仍会执行该子查询,将结果放入临时表中
Explain分析示例
DROP TABLE IF EXISTS `actor`;
CREATE TABLE `actor` (
`id` int(11) NOT NULL,
`name` varchar(45) DEFAULT NULL, `update_time` datetime DEFAULT NULL, PRIMARY KEY (`id`)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
INSERT INTO `actor` (`id`,`name`,`update_time`) VALUES (1,'a','2020-09-16 14:26:11'), (2,'b','2020-09-16 14:26:11'), (3,'c','2020-09-16 14:26:11');
DROP TABLE IF EXISTS` film`;
CREATE TABLE`film`(
`id` int(11) NOT NULL AUTO_INCREMENT, `name` varchar(10) DEFAULT NULL, PRIMARY KEY (`id`),
KEY `idx_name` (`name`)
)ENGINE=InnoDB DEFAULT CHARSET=utf8;
INSERT INTO `film`(`id`,`name`) VALUES (3,'film0'),(1,'film1'),(2,'film2');
DROP TABLE IF EXISTS `film_actor`;
CREATE TABLE`film_actor`(
`id` int(11) NOT NULL,
`film_id` int(11) NOT NULL,
`actor_id` int(11) NOT NULL,
`remark` varchar(255) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `idx_film_actor_id` (`film_id`,`actor_id`)
)ENGINE=InnoDB DEFAULT CHARSET