zoukankan      html  css  js  c++  java
  • MySQL 分区表实践

    1、分区表

    官方手册:
    https://dev.mysql.com/doc/refman/5.7/en/partitioning.html

    对用户来说,分区表是一个独立的逻辑表,但是底层由多个物理子表组成。实现分区的代码实际上是对一组底层表的句柄对象(Handler Object)的封装。对分区表的请求,都会通过句柄对象转化成对存储引擎的接口调用。所以分区表对于 SQL 层来说是一个完全封装底层实现的黑盒子,对应用是透明的,但是从底层的文件系统来看就很容易发现,每个分区表都有一个使用 # 分隔命名的表文件。

    MySQL 实现分区表的方式——对底层表的封装——意味着索引页是按照分区的子表定义的,而没有全局索引。

    MySQL 在创建表时使用 PARTITION BY 子句定义每个分区存放的数据。在执行查询的时候,优化器会根据分区定义过滤那些没有我们需要数据的分区,这样查询就无须扫描所有分区。

    分区的一个主要目的是将数据按照一个较粗的粒度分在不同的表中。这样做可以将相关的数据存放在一起,另外,如果想一次批量删除整个分区的数据也会变得很方便。

    应用场景:

    表非常大以至于无法全部都放在内存中,或者只在表的最后部分有热点数据,其他均是历史数据。
    分区表的数据更容易维护。分区独立优化,检查,修复等。
    分区表的数据可以分布在不同的物理设备上,从而高效地利用多个硬件设备。
    可以使用分区表来避免某些特殊的瓶颈。例如 InnoDB 的单个索引的互斥访问、ext3 文件系统的 inode 锁竞争等。
    如果需要,还可以备份和恢复独立的分区,这在非常大的数据集的场景下效果非常好。
    可以阅读 MySQL 官方手册中的 “ 分区 ” 一节:

    https://dev.mysql.com/doc/refman/5.7/en/partitioning.html

    分区表本身的一些限制:

    一个表最多只能有 1024 个分区。
    在 MySQL 5.1 中,分区表达式必须是整数,或者是返回整数的表达式。在 MySQL 5.5 中,某些场景中可以直接使用列来进行分区。
    如果分区字段中有主键或者唯一索引的列,那么所有主键列和唯一索引列都必须包含进来。
    分区表中无法使用外键约束。
    1.1、分区表的原理
    如前所述,分区表由多个相关的底层表实现,这些底层表也是由句柄对象(Handler Object)表示,所以我们也可以直接访问各个分区。

    存储引擎管理分区的各个底层表和管理普通表一样(所有的底层表都必须使用相同的存储引擎),分区表的索引只是在各个底层表上各自加上一个完全相同的索引。

    从存储引擎的角度来看,底层表和普通表没有任何不同,存储引擎也无须知道这是一个普通表还是一个分区表的一部分。

    分区表上的操作按照下面的操作逻辑进行:

    SELECT 查询

    当查询一个分区表的时候,分区层先打开并锁住所有的底层表,优化器先判断是否可以过滤部分分区,然后再调用对应的存储引擎接口访问各个分区的数据。

    INSERT 操作

    当写入一条记录时,分区层先打开并锁住所有的底层表,然后确定哪个分区接收这条记录,再将记录写入对应底层表。

    DELETE 操作

    当删除一条记录时,分区层先打开并锁住所有的底层表,然后确定数据对应的分区,最后对相应底层表进行删除操作。

    UPDATE 操作

    当更新一条记录时,分区层先打开并锁住所有的底层表,MySQL 先确定需要更新的记录在哪个分区,然后取出数据并更新,再判断更新后的数据应该放在哪个分区,最后对底层表进行写入操作,并对原数据所在的底层表进行删除操作。

    有些操作是可以支持过滤的。

    例如,当删除一条记录时,MySQL 需要先找到这条记录,如果 WHERE 条件恰好和分区表达式匹配,就可以将所有不包含着条记录的分区都过滤掉。这个对 UPDATE 语句同样有效。如果是 INSERT 操作,则本身就是只命中一个分区,其他分区都会过滤掉。MySQL 先确定这条记录属于哪个分区,再将记录写入对应的底层分区表,无须对任何其他分区进行操作。

    虽然每个操作都会 “ 先打开并锁住所有的底层表 ”,但这并不是说分区表在处理过程中是锁住全表的。如果存储引擎能够自己实现行级锁,例如 InnoDB,则会在分区层释放对应表锁。这个加锁和解锁过程与普通 InnoDB 上的查询相似。

    1.2、分区表的类型
    官方手册文档 :

    https://dev.mysql.com/doc/refman/5.7/en/partitioning-types.html

    MySQL 支持多种分区表。

    我们看到最多的是根据范围进行分区,每个分区表存储落在某个范围的记录,分区表达式可以是列,也可以是包含列的表达式。

    CREATE TABLE members (
        firstname VARCHAR(25) NOT NULL,
        lastname VARCHAR(25) NOT NULL,
        username VARCHAR(16) NOT NULL,
        email VARCHAR(35),
        joined DATE NOT NULL
    )
    PARTITION BY RANGE( YEAR(joined) ) (
        PARTITION p0 VALUES LESS THAN (1960),
        PARTITION p1 VALUES LESS THAN (1970),
        PARTITION p2 VALUES LESS THAN (1980),
        PARTITION p3 VALUES LESS THAN (1990),
        PARTITION p4 VALUES LESS THAN MAXVALUE
    );

    PARTITION 分区子句中可以使用各种函数。但是返回必须是一个明确的整数,不能是常数。

    MySQL 还支持键值、哈希和列表分区,这其中有些还支持子分区,不过我们在生产环境中很少见到。

    我们还看到的一些其他的分区技术包括:

    根据键值进行分区,来减少 InnoDB 的互斥量竞争。
    使用数学模函数来进行分区,然后将数据轮询放入不同的分区。
    假设表有一个自增的主键列 id,系统根据时间将最近的热点数据集中存放。那么必须将时间戳包含在主键当中才行,而这和主键本身的意义相矛盾。这种情况下也可以使用这样的分区表达式来实现相同的目的:HASH(id DIV 1000000) ,这将为100万数据建立一个分区。这样一方面实现了当初的分区目的,另一方面比起使用时间范围分区还避免了一个问题,就是超过一定阈值时,如果使用时间范围分区就必须新增分区。
    1.3、如何使用分区表
    数据量巨大,肯定不能在每次查询的说话都扫描全表。

    在数据量超大的时候,B-Tree 索引就无法起作用了。除非是索引覆盖查询,否则数据库服务器需要根据索引扫描的结果回表,查询所有符合条件的记录,如果数据量巨大,这将产生大量随机 I/O ,随之,数据库的响应时间将大到不可接收的成都。另外,索引维护(磁盘空间、I/O 操作)的代价也非常高。

    理解分区时还可以将其当作索引的最初形态,以代价非常小的方式定位到需要的数据在哪一片 “ 区域 ”。在这片 “ 区域 ” 中,你可以做顺序扫描,可以建索引,还可以将数据缓存大内存,等等。因为分区无须额外的数据结构记录每个分区有哪些数据——分区不需要精确定位每条数据的位置,也就无须额外的数据结构——所以其代价非常低。只需要一个简单的表达式就可以表达每个分区存放的是什么数据。

    为了保证大数据量的可扩展性,一般有下面两个策略:

    全量扫描数据,不要任何索引。

    可以使用简单的分区方式存放表,不要任何索引,根据分区的规则大致定位需要的数据位置。只要能够使用 WHERE 条件,将需要的数据限制在少数分区中,则效率是很高的。当然,也需要做一些简单的保证查询的响应时间能够满足需要。使用该策略假设不用讲数据完全放入到内存中,同时还假设选哟的数据全都在磁盘上,因为内存相对很小,数据很快会被挤出内存,所以缓存起不了任何作用。这个策略使用于以正常的方式访问大量数据的时候。警告:必须将查询需要扫描的分区个数限制在一个很小的数据。
    索引数据,并分离热点。

    如果数据有明显的 “ 热点 ”,而且除了这部分数据,其他数据很少被访问到,那么可以将这部分热点数据单独放在一个分区中,让这个分区的数据能够有机会都缓存在内存中。这样查询就可以只访问一个很小的分区表,能够使用索引,也能够有效地使用缓存。
    仅仅知道这些还不够,MySQL 的分区表实现还有很多陷阱。

    1.4、什么情况下会出问题
    上面我们介绍的两个分区策略都基于两个非常重要的假设:查询都能够过滤(prunning)掉很多额外的分区、分区本身并不会带来很多额外的代价。而事实证明,这两个假设在某些情况下会有问题。

    下面介绍一些可能会遇到的问题:

    NULL 值会使分区过滤无效
    分区列和索引列不匹配
    选择分区的成本可能很高
    打开并锁住所有底层表的成本可能很高
    维护分区的成本可能很高
    如上所述,分区表不是什么 “ 银弹 ”。下面是目前(5.5)分区实现中的一些其他限制:

    所有分区都必须使用相同的存储引擎。
    分区函数中可以使用的函数和表达式也有一些限制。
    某些存储引擎不支持分区。
    对于 MyISAM 的分区表,不能使用 LOAD INDEX INTO CACHE 操作。
    对于 MyISAM 表,使用分区表时需要打开更多的文件描述符。
    1.5、查询优化
    引入分区给查询优化带来了一个些新的思路(同时也带来新的bug)。分区最大的有点就是优化器可以根据分区函数来过滤一些分区。根据粗粒度索引的优势,通过分区过滤通常可以让查询扫描更少的数据(在某些场景下)。

    所以,对于访问分区表来说,很重要的一点是要在 WHERE 条件中带入分区列,有时候即使看似多余的也要带上,这样就可以让优化器能够过滤掉无须访问的分区。如果没有这些条件,MySQL 就需要让对应存储引擎访问这个表的所有分区,如果表非常大的话,就可能会非常慢。

    使用 EXPLAIN PARTITIONS 可以观察优化器是否执行了分区过滤。

    MySQL 只能在使用分区函数的列本身进行比较时才能过滤分区,而不能根据表达式的值来过滤分区,即使这个表达式就是分区函数也不行。

    1.6、合并表
    合并表(Merge table)是一种早期的、简单的分区实现,和分区表相比有一些不同的限制,并且缺乏优化。分区表严格来说是一个逻辑上的概念,用户无法访问底层的各个分区,对用户来说分区是透明的。但是合并表允许用户单独访问各个子表。合并表是一种被淘汰的技术。

    1.7 分表分库的区别

    引用:
    https://www.cnblogs.com/GrimMjx/p/11772033.html

    本文来自博客园,作者:古道轻风,转载请注明原文链接:https://www.cnblogs.com/88223100/p/MySQL_PARTITION_Practice.html

  • 相关阅读:
    I00038 自守数(Automorphic number)
    I00036 盈数(Abundant number)
    I00036 盈数(Abundant number)
    I00037 亏数(Deficient number)
    I00037 亏数(Deficient number)
    I00035 完美数(Perfect number)
    I00035 完美数(Perfect number)
    I00034 累加与累乘
    I00034 累加与累乘
    codeforces589J 简单dfs,队列
  • 原文地址:https://www.cnblogs.com/88223100/p/MySQL_PARTITION_Practice.html
Copyright © 2011-2022 走看看