一、大批量插入数据优化
使用load命令导入数据
1.1、对于MyISAM表
对于MyISAM存储引擎的表可以通过一下三条语句快速导入大量的数据
-- 关闭MyISAM表非唯一索引的更新
ALTER TABLE table_name DISABLE KEYS;
-- 从文件向表中导入数据
load data infile filepath into table table_name;
-- 打开MyISAM表非唯一索引的更新
ALTER TABLE table_name ENABLE KEYS;
对于向一个空的MyISAM表中导入数据,可以不用设置DISABLE KEYS和ENABLE KEYS,但是向一个非空的MyISAM表中导入数据需要手动设置这两个参数
1.2、对于InnoDB表
导入sql
-- 导入本地文件 ,每一列用逗号分隔,每一行使用换行符分隔
load data local infile 'F:/Program Files/sql1.log' into table tb_user_2 FIELDS TERMINATED by ',' LINES TERMINATED by '
'
-
因为InnoDB类型的表是按照主键的顺序保存的,所以将导入的数据按照主键的顺序排列,可以有效的提高导入数据的效率,如果InnoDB表没有主键,那么系统会自动默认创建一个内部列作为主键,所以如果可以给表创建一个主键,将可以利用这点,来提高导入数据的效率。
按主键顺序导入
不按主键顺序导入
-
在导入数据前执行SET UNIQUE_CHECKS = 0,关闭唯一性校验;再导入数据后执行SET UNIQUE_CHECKS = 1;恢复唯一性检验,可以提高导入的效率。
不关闭唯一性校验
关闭唯一性检验
-
如果使用自动提交的方式,建议在导入前执行 SET AUTOCOMMIT=0;关闭自动提交在导入数 据后在打开自动提交,可以提高导入速率。
这里就不演示了。
二、优化insert语句
当进行数据的insert操作的时候,可以考虑采用以下几种优化方案。
-
如果需要同时对一张表插入很多行数据时,应该尽量使用多个值表的insert语句,这种方式将大大的缩减客户端与数据库之间的连接、关闭等消耗。使得效率比分开执行的单个insert语句快。
示例, 原始方式为:
insert into tb_test values(1,'Tom'); insert into tb_test values(2,'Cat'); insert into tb_test values(3,'Jerry');
优化方式为
insert into tb_test values(1,'Tom'),(2,'Cat'),(3,'Jerry');
-
在事务中进行数据插入
start transaction; SET AUTOCOMMIT=0; insert into tb_test values(1,'Tom'); insert into tb_test values(2,'Cat'); insert into tb_test values(3,'Jerry'); commit;
-
数据有序的插入
insert into tb_test values(4,'Tim'); insert into tb_test values(1,'Tom'); insert into tb_test values(3,'Jerry'); insert into tb_test values(5,'Rose'); insert into tb_test values(2,'Cat');
优化后
insert into tb_test values(1,'Tom'); insert into tb_test values(2,'Cat'); insert into tb_test values(3,'Jerry'); insert into tb_test values(4,'Tim'); insert into tb_test values(5,'Rose');
-
如果是从文本文件中装载一个表时可以使用load data infile语句装载数据。
三、优化order by语句
3.1、环境准备
CREATE TABLE `emp` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(100) NOT NULL,
`age` int(3) NOT NULL,
`salary` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;
insert into `emp` (`id`, `name`, `age`, `salary`) values('1','Tom','25','2300');
insert into `emp` (`id`, `name`, `age`, `salary`) values('2','Jerry','30','3500');
insert into `emp` (`id`, `name`, `age`, `salary`) values('3','Luci','25','2800');
insert into `emp` (`id`, `name`, `age`, `salary`) values('4','Jay','36','3500');
insert into `emp` (`id`, `name`, `age`, `salary`) values('5','Tom2','21','2200');
insert into `emp` (`id`, `name`, `age`, `salary`) values('6','Jerry2','31','3300');
insert into `emp` (`id`, `name`, `age`, `salary`) values('7','Luci2','26','2700');
insert into `emp` (`id`, `name`, `age`, `salary`) values('8','Jay2','33','3500');
insert into `emp` (`id`, `name`, `age`, `salary`) values('9','Tom3','23','2400');
insert into `emp` (`id`, `name`, `age`, `salary`) values('10','Jerry3','32','3100');
insert into `emp` (`id`, `name`, `age`, `salary`) values('11','Luci3','26','2900');
insert into `emp` (`id`, `name`, `age`, `salary`) values('12','Jay3','37','4500');
create index idx_emp_age_salary on emp(age,salary);
3.2、MySQL中的两种排序方式
-
第一种通过有序索引顺序扫描直接返回有序数据,这种方式在使用explain分析查询时候显示为using index,不需要额外排序操作效率高
-
第二种方式是通过对返回数据进行排序,也就是通常说的using rilesort,所有不是通过索引直接返回排序结果的排序豆角Filesort排序.Filesort并不代表通过磁盘文件进行排序,而只是说明进行了一个排序操作。
3.3、order by的优化
1.查询的字段,应该只包含此次查询使用的索引字段和主键,其余的非索引字段和索引字段作为查询字段则不会使用索引。
select查询的字段有name这个字段没有索引,最终没有使用索引
select查询的字段只包含此次查询使用的索引字段和主键,使用了索引
2.排序字段通过两个不同的索引排序,会使用到filesort
id是主键索引,age和salary是一个符合索引,两个索引不是同一个索引
order by用到了两个字段,但是salay和age属于一个组合索引
3.排序字段顺序要与索引列顺序一致,否则无法利用索引排序
age,和salary同属于一个组合索引,但字段顺序和索引顺序不一致
4.order by的字段不仅有升序还有降序,最终会使用filesort排序
3.4、where + order by的优化
-
where 条件与order by使用相同的索引
我们为name字段新建一个索引,此时name,和age都有索引,但却是两个不同的索引,此时会用到filesort
总结:尽量减少额外的排序,通过索引直接返回有序数据。where 条件和Order by 使用相同的索引,并且Order By 的顺序和索引顺序相同, 并且Order by 的字段都是升序,或者都是降序。否则肯定需要额外的操作,这样就会出现FileSort。
3.5、对Filesort的优化
通过创建合适的索引,能够减少 Filesort 的出现,但是在某些情况下,条件限制不能让Filesort消失,那就需要加快 Filesort的排序操作。对于Filesort , MySQL 有两种排序算法:
-
两次扫描算法 :MySQL4.1 之前,使用该方式排序。首先根据条件取出排序字段和行指针信息,然后在排序区 sort buffer 中排序,如果sort buffer不够,则在临时表 temporary table 中存储排序结果。完成排序之后,再根据行指针回表读取记录,该操作可能会导致大量随机I/O操作。
-
一次扫描算法:一次性取出满足条件的所有字段,然后在排序区 sort buffer 中排序后直接输出结果集。排序时内存开销较大,但是排序效率比两次扫描算法要高。
MySQL 通过比较系统变量 max_length_for_sort_data 的大小和Query语句取出的字段总大小, 来判定是否那种排序算法,如果max_length_for_sort_data 更大,那么使用第二种优化之后的算法;否则使用第一种。
可以适当提高 sort_buffer_size 和 max_length_for_sort_data 系统变量,来增大排序区的大小,提高排序的效率。
参考链接:https://www.cnblogs.com/songwenjie/p/9418397.html
四、优化group by 语句
由于GROUP BY 实际上也同样会进行排序操作,与使用order by相似。
如果查询包含 group by 但是用户想要避免排序结果的消耗, 则可以执行order by null 禁止排序。如下 :
使用了filesort怕排序
使用order by null后,没有用到Filesort排序
五、优化嵌套查询
Mysql4.1版本之后,开始支持SQL的子查询。这个技术可以使用SELECT语句来创建一个单列的查询结果,然后把这个结果作为过滤条件用在另一个查询中。使用子查询可以一次性的完成很多逻辑上需要多个步骤才能完成的SQL操作,同时也可以避免事务或者表锁死,并且写起来也很容易。但是,有些情况下,子查询是可以被更高效的连接(JOIN)替代。
嵌套查询
explain select * from t_user where id in (select user_id from user_role );
连接查询
explain select * from t_user u , user_role ur where u.id = ur.user_id;
连接(Join)查询之所以更有效率一些 ,是因为MySQL不需要在内存中创建临时表来完成这个逻辑上需要两个步骤的查询工作。
总结:能使用连接查询就不要使用子查询
六、优化OR条件
对于含有or的查询语句,如果要利用索引,则or之间的每个条件都必须用到索引,否则索引会失效。
-
我们可以考虑为or的每个条件都增加索引
此时name没有索引,sql走的全表扫描
(为了方便我没有为name加一个所以而是换了一个带索引的age)此时or的每个条件都有所引,sql用到了索引
-
使用union代替or
使用or查询
使用union代替or查询
UNION 语句的 type 值为 const,OR 语句的 type 值为 range,可以看到这是一个很明显的差距.
UNION 语句的 ref 值为 const,OR 语句的 type 值为 null,const 表示是常量值引用,非常快.
七、优化分页查询
一般分页查询时,通过创建覆盖索引能够比较好地提高性能。一个常见又非常头疼的问题就是 limit 2000000,10 ,此时需要MySQL排序前2000010 记录,仅仅返回2000000 - 2000010 的记录,其他记录丢弃,查询排序的代价非常大 。
-
第一种优化思路:在索引上完成排序分页的操作,最后根据主表关联回原最后根据主键关联回原表查询所需要的其他列内容。
从查询的耗时来时这种方式快很多,值得注意的是id列一定要order by排序否则结果会不一样.如图
-
第二种优化思路:
该方案适用于主键自增的表(中间最好不要有重复或者断层)可以把Limit 查询转换成某个位置的查询 。
八、优化关联查询
mysql对任何关联都执行嵌套循环关联操作。即:mysql先在一个表中循环取出单条数据,然后再嵌套循环到下一个表中寻找匹配的行,依次下去,直到找到所有表中匹配的行为止。然后根据各个表匹配的行,返回查询中需要的各个列。如果mysql在最后一个关联表无法找到更多的行,它将返回上一层关联表,看看能否找到更多的匹配记录,以此类推迭代执行。
在做join的时候,原理为驱动表(主表)做全表扫描,对子表(被驱动表)可以利用索引进行优化,而驱动表的全表扫描是必须存在的。left join,左边的表示驱动表,right join右边的表是驱动表。inner joinmysql 会自动选择驱动表和被驱动表
在关联查询要注意一下几点:
-
保证被驱动表的join字段已经被索引,避免子表全表扫描
-
left join 时,选择小表作为驱动表,大表作为被驱动表。
-
inner join 时,mysql会自己帮你把小结果集的表选为驱动表。
-
子查询尽量不要放在被驱动表,有可能使用不到索引。
九、使用SQL提示
SQL提示,是优化数据库的一个重要手段,简单来说,就是在SQL语句中加入一些人为的提示来达到优化操作的目的。
-
USE INDEX:在查询语句中表名的后面,添加 use index 来提供希望MySQL去参考的索引列表,就可以让MySQL不再考虑其他可用的索引。
explain select count(*) from tb_user USE index(PRIMARY)
-
IGNORE INDEX:如果用户只是单纯的想让MySQL忽略一个或者多个索引,则可以使用 ignore index 作为 hint 。
explain select count(*) from tb_user IGNORE index(PRIMARY)
-
FORCE INDEX:为强制MySQL使用一个特定的索引,可在查询中使用 force index 作为hint 。
explain select count(*) from tb_user FORCE index(PRIMARY)