zoukankan      html  css  js  c++  java
  • sql优化之大数据量分页查询(mysql)

    当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时就需要使用分页查询。对于数据库分页查询,也有很多种方法和优化的点。

    谈优化前的准备工作

    为了对下面列举的一些优化进行测试,需要使用已有的一张表作为实际例子。

    表名:order_history。

    描述:某个业务的订单历史表。

    主要字段:unsigned int id,tinyint(4) int type。

    字段情况:该表一共37个字段,不包含text等大型数据,最大为varchar(500),id字段为索引,且为递增。

    数据量:5百万+。

    MySQL版本:5.7.16。

    线下找一张百万级的测试表可不容易,如果需要自己测试的话,可以写shell脚本什么的插入数据进行测试。

    一次查询出所有记录

    不使用分页查询的情况下,一次查询出表中的所有记录,也就是全表扫描:

    select count(*) from orders_history; -- 5094032

    执行三次查询的时间分别是8023ms、8122ms和8329ms。

    实际的项目当然是不可能进行全表扫描的一次性查询出所有记录的做法,这样会因为数据的响应、传输和装载过慢而影响页面渲染的性能,严重影响用户体验。

    一般的分页查询

    一般的分页查询使用简单的limit子句就可以实现。limit子句的声明如下:

    select * from table limit [offset,] rows | rows offset offset

    limit子句可以被用于指定select语句返回的记录数,以下是使用limit子句的注意事项:

    1.第一个参数指定第一个返回记录行的偏移量,注意从0开始。

    2.第二个参数指定返回记录行的最大数目。

    3.如果只给定一个参数,这个参数表示返回的最大记录行数目。

    4.如果第二个参数值为-1,那么就表示检索从某一个偏移量到记录集的结束所有的记录行。

    5.初始记录行的偏移量是0,而不是1。

    select * from orders_history where type = 8 limit 1000,10;

    上面这条语句会从orders_history表中查询offset:1000开始之后的10条记录,也就是第1001条记录到第1010条记录的数据(1001<=记录行数<=1010)。

    执行三次查询的时间分别是3022ms、3032ms和3019ms。

    数据表中的记录默认使用主键(一般是id)排序,因此上面的查询相当于:

    select * from orders_history where type = 8 order by id limit 1000,10;

    针对这种查询方式,通过改变limit的第二个参数来测试查询记录量对查询时间的影响:

    select * from orders_history where type = 8 limit 10000,1;
    select * from orders_history where type = 8 limit 10000,10;
    select * from orders_history where type = 8 limit 10000,100;
    select * from orders_history where type = 8 limit 10000,1000;
    select * from orders_history where type = 8 limit 10000,10000;

    执行三处查询的时间分别如下:

    查询1条记录:3072ms 3092ms 3002ms。

    查询10条记录:3081ms 3077ms 3032ms。

    查询100条记录:3118ms 3200ms 3128ms。

    查询1000条记录:3412ms 3468ms 3394ms。

    查询10000条记录:3749ms 3802ms 3696ms。

    从查询结果(查询时间)上来看,基本上可以得出得出一个结论就是,在查询记录量小于100的时候,查询时间基本没有差距,但是随着查询记录量越来越大,所花费的时间就会越来越多(不明显)。

    针对这种查询方式,通过改变limit的第一个参数来测试查询偏移量对查询时间的影响:

    select * from orders_history where type = 8 limit 100,100;
    select * from orders_history where type = 8 limit 1000,100;
    select * from orders_history where type = 8 limit 10000,100;
    select * from orders_history where type = 8 limit 100000,100;
    select * from orders_history where type = 8 limit 1000000,100;

    执行三次查询的时间分别如下:

    查询100偏移:25ms 24ms 24ms

    查询1000偏移:78ms 76ms 77ms

    查询10000偏移:3092ms 3212ms 3128ms

    查询100000偏移:3878ms 3812ms 3798ms

    查询1000000偏移:14608ms 14062ms 14700ms

    从查询结果(查询时间)来看,随着查询偏移量的增大,尤其查询偏移量大于10万之后,查询的时间明显增加。

    因为这种分页查询方式会从数据库的第一条记录开始扫描,因此记录越往后,查询的速度就会越慢,而且查询的数据越多,也会拖慢整体的总查询速度。

    使用子查询优化大数据量分页查询

    这种方式的做法是先定位偏移位置的id,然后再往后查询,适用于id递增的情况。

    select * from orders_history where type = 8 limit 100000,1;
    
    select id from orders_history where type = 8 limit 100000,1;
    
    select * from orders_history where type = 8 and id >= (
        select id from orders_history where type = 8 limit 100000,1
    ) limit 100;
    
    select * from orders_history where type = 8 limit 100000,100;

    上面4条语句的查询时间如下:

    第1条语句:3674ms。

    第2条语句:1315ms。

    第3条语句:1327ms。

    第4条语句:3710ms。

    针对上面的查询需要注意:

    1.比较第1条语句和第2条语句:使用select id代替select *速度增加了3倍。

    2.比较第2条语句和第3条语句:速度相差几十毫秒。

    3.比较第3条语句和第4条语句:得益于select id速度增加,第3条语句查询速度增加了3倍。

    4.这种方式相较于原始一般的查询方法,将会增快数倍。

    使用id限定优化大数据量分页查询

    使用这种方式需要先假设数据表的id是连续递增的,我们根据查询的页数和查询的记录数可以算出查询的id的范围,可以使用 id between and 来查询:

    select * 
    from orders_history 
    where type = 2
        and (id between 1000000 and 1000100)
    limit 100;

    执行三次查询的时间分别是15ms、12ms和10ms。

    这种查询方式能够极大地优化查询速度,基本能够在几十毫秒之内完成。限制是只能使用于明确知道id的情况,不过一般建立表的时候,都会添加基本的id字段,这为分页查询带来很多便利。

    还可以有另外一种写法:

    select * from orders_history where id >= 1000001 limit 100;

    当然了,也可以使用in的方式来进行查询,这种方式经常用在多表关联的情况下,使用其他表查询的id集合来进行查询:

    select * from orders_history where id in (
        select order_id from trade where good_name = 'apple'
    ) limit 100;

    但是使用这种in查询方式的时候要注意的是,某些MySQL版本并不支持在in子句中使用limit子句。

    使用临时表优化大数据量分页查询

    对于使用id限定优化中的问题,需要id是连续递增的,但是在一些场景下,比如使用历史表的时候,或者出现过数据缺失问题时,可以考虑使用临时存储的表来记录分页的id,使用分页的id来进行in查询。

    这样能够极大的提高传统的分页查询速度,尤其是数据量上千万的时候。

    关于数据表id的扩展说明

    一般情况下,在数据库中建立表的时候,会强制为每一张表添加id递增字段,这样方便查询。

    而如果像是订单库等数据量非常庞大,一般会进行分库分表。这个时候就不建议使用数据表的id作为唯一标识,而应该使用分布式的高并发唯一id生成器来生成,并在数据表中使用另外的字段来存储这个唯一标识。

    查询的方法是先使用范围查询定位id(或者索引),然后再使用索引进行定位数据,就能够提高好几倍查询速度。即先select id,然后再select *。

    "从前车马很慢,书信很远,一生只够爱一人。"

  • 相关阅读:
    [MacOS]Sublime text3 安装(一)
    [RHEL8]开启BBR
    PAT Advanced 1136 A Delayed Palindrome (20分)
    PAT Advanced 1144 The Missing Number (20分)
    PAT Advanced 1041 Be Unique (20分)
    PAT Advanced 1025 PAT Ranking (25分)
    PAT Advanced 1022 Digital Library (30分)
    PAT Advanced 1019 General Palindromic Number (20分)
    PAT Advanced 1011 World Cup Betting (20分)
    PAT Advanced 1102 Invert a Binary Tree (25分)
  • 原文地址:https://www.cnblogs.com/yanggb/p/11058707.html
Copyright © 2011-2022 走看看