zoukankan      html  css  js  c++  java
  • MySQL中IN写法的一些改写技巧

    聊聊慢SQL中关于IN语法的优化分析过程。


    技术人人都可以磨炼,但处理问题的思路和角度各有不同,希望这篇文章可以抛砖引玉。
    以一个例子为切入点



    一、问题背景


    某业务模块反馈SQL慢,优化过程中的一些思考做个记录。
    基础环境:

    • 主机类型:阿里云 
    • 操作系统:CentOS release 7.4
    • 存储:Alibaba Cloud ECS    
    • 内存:64 G
    • CPU型号:Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz ( 1 U * 8 core) 
    • CPU核数:16CORE
    • 数据库环境:MySQL5.7.27
    • 存储引擎:InnoDB


    问题现象:慢SQL


    简单说明:

    在很多应用场景中,SQL 的性能直接决定了系统的性能。此外,查询速度慢并不只是因为 SQL 语句本身,还可能是因为内存分配不佳、文件结构不合理、刷脏页等其他原因。
    本文介绍一些通过调整 SQL 语句就能优化SQL的通用小技巧,优化 SQL 的方法不能解决所有的性能问题,但是却能处理很多因 SQL 写法不合理而产生的性能问题。


    二、分析说明

    • 通过分析慢日志定位慢SQL,分析慢SQL原因;
    • 追溯SQL执行历史数据,分析关键指标在SQL多次执行的波动,这些关键指标可以用来做为SQL健康度参考指标。
    • 用实际数据来验证推断,排除掉其它干扰因素,定位SQL慢的根本原因,帮助快速修复。


    三、疑问点排查及分析思路


    原SQL结构如下:

    SELECT * FROM tab_a  WHERE ID IN (SELECT c_id FROM tab_b);


    业务需求我看了一下,还真不能怪开发小哥这么写,我第一反应也是这么写,用IN的好处就是SQL比较直观,容易理解SQL逻辑。

    1、IN语法的SQL执行计划


    SQL如下:

    SELECT * FROM tab_a  WHERE ID IN (SELECT c_id FROM tab_b);


    执行计划如下:

    就这个SQL的执行计划本身来说还是不错的(MySQL查询转换做的不错),我想说的主要关注点在FirstMatch(tab_a)上。


    我们看到上面查询计划中,extra列可以看到 FirstMatch(tab_a) 。MySQL使用了连接来处理此查询,对于tab_a表的行,只要能在tab_b表中找到1条满足即可以不必再检索tab_a表。从语义角度来看,和IN-to-EXIST策略转换为Exist子句是相似的,区别就是FirstMath以连接形式执行查询,而不是子查询。


    FirstMatch策略背后的思想和in->exists转换思想相同。FirstMatch有以下的优点:

    • 等价传播可以跨越semi-join边界,但是不能跨越子查询边界。因此,使用FirstMatch将子查询转换成semi-join可以提供一个更好的执行计划;
    • 只有一种方式使用in->exists策略,mysql会无条件地使用。对于FirstMatch策略,优化器可以选择是否应该在子查询中使用的所有表都位于join前缀时运行FirstMatch策略,或者在稍后的某个时间点运行FirstMatch策略;


    FirstMatch策略意味着子查询的表必须在父查询中的表之后被引用,FirstMatch支持相关子查询;不能应用于子查询带有group by或聚合函数的场景。


    PS:是否开启FirstMatch是由系统变量optimizer_switch中的firstmatch=on|off设置的。


    2、exists语法的SQL执行计划


    SQL如下:

    SELECT a.* FROM tab_a  aWHERE exists (SELECT c_id FROM tab_b b where a.id=b.c_id);


    执行计划如下:


    通常来讲,EXISTS 比 IN 更快的原因有两个:

    • 如果连接列(cr_id)上建立了索引,那么查询 tab 时可以通过索引查询,而不是全表查询;
    • 使用 exists,一旦查到一行数据满足条件就会终止查询,不用像使用 IN 时一样进行扫描全表(NOT EXISTS 也一样)


    针对某一个查询,有时候会有多种 SQL 实现,例如 IN、EXISTS、连接之间的互相转换。从理论上来讲,得到相同结果的不同 SQL 语句应该有相同的性能,但遗憾的是,查询优化器生成的执行计划很大程度上要受到外部结构的影响。

    因此,如果想优化查询性能,必须知道如何写 SQL 语句才能使优化器生成更高效的执行计划。


    3、使用exists代替IN是否更好?


    如果 IN 的参数是 1,2,3 这样的数值列表,一般还不需要特别注意,但如果参数是子查询,那么就需要注意了;在大多时候, [NOT] IN 和 [NOT] EXISTS 返回的结果是相同的,但是两者用于子查询时,EXISTS 的速度会更快一些。
    当 IN 的参数是子查询时,数据库有可能首先会执行子查询(上述分析案例不是),然后将结果存储在一张临时表里(内联视图),然后扫描整个视图,很多情况下这种做法非常耗费资源。而使用 EXISTS 的话,数据库不会生成临时表。

    减少临时表也是在 SQL优化中需要注意的点,子查询的结果会被看成一张新表(临时表),这张新表与原始表一样,可以通过 SQL 进行操作。但是频繁使用临时表会带来两个问题:

    • 临时表相当于原表数据的一份备份,会耗费内存资源;

    • 很多时候(特别是聚合时),临时表没有继承原表的索引结构。

    因此,尽量减少临时表的使用也是提升性能的一个重要方法。

    4、其他代替IN的方案


    其实在平时工作当中,更多的是用连接代替 IN 来改善查询性能,而非 EXISTS,不是说连接更好,而是 EXISTS 很难掌握(SQL逻辑不够直白)。
    刚刚的SQL,如果用连接来实现,如何写?
    SQL如下:

    SELECT distinct a.* FROM tab_b b left join tab_a a on b.c_id=a.id


    执行计划如下:


    这种写法能充分利用索引;而且因为没有了子查询,所以数据库也不会生成中间表;所以,查询效率还是不错的。至于 JOIN 与 EXISTS 相比哪个性能更好,不太好说;如果没有索引,可能 EXISTS 会略胜一筹,有索引的话,两者差不多。
    执行计划里需要注意的一个点是Using temporary, 表示进行了排序或分组,显然这个 SQL 没有进行分组,而是进行了排序运算。

    为了排除重复数据, DISTINCT 也会进行排序,而排序操作一般是要避免的,怎么避免?

    5、使用 EXISTS 代替 DISTINCT


    还是刚刚的SQL,如果不用 DISTINCT 过滤数据,怎么写?

    用 EXISTS 来进行优化


    可以看到,已经规避了排序运算。

    总结

     

    文中虽然列举了几个要点,但其实优化的核心思想只有一个,那就是找出性能瓶颈所在,然后解决它。不管是减少排序还是使用索引,亦或是避免临时表的使用,其本质都是为了减少对硬盘的访问。
    小技巧:

    • 参数是子查询时,使用 EXISTS 或者 JOIN 代替 IN;

    • 在 SQL 中,很多运算都会暗中进行排序,尽量规避这些运算;

    • SQL 的书写,尽量往索引上靠,避免用不上索引的情况;

    • 尽量减少使用临时表。

    觉得本文有用,请转发、点赞或点击“在看”聚焦技术与人文,分享干货,共同成长更多内容请关注“数据与人”

  • 相关阅读:
    【华为云技术分享】ArcFace简介
    [学]PHP爬虫框架phpspider
    zend studio 自动注释、备注和常用有用快捷键
    mysql 为什么加了排序字段后不会自动按ID升序排序?
    【PHP转义字符】单引号双引号以及转义字符【原创】
    Javascript小结(四)----包装对象
    JavaScript小结(三)----字符串操作
    JavaScript小结(二)-----Date()函数
    Javascript小结(一)----prototype对象
    PHP底层原理分析和底层扩展编写
  • 原文地址:https://www.cnblogs.com/shujuyr/p/15060005.html
Copyright © 2011-2022 走看看