zoukankan      html  css  js  c++  java
  • MySQL分区

    分区概述

    数据库分区是一种物理数据库设计技术。虽然分区技术可以实现很多效果,但其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减sql语句的响应时间,同时对于应用来说分区完全是透明的。分区表在物理上表现为多个文件,在逻辑上表现为一个表。谨慎选择分区键,跨分区查询效率可能更低。对分区表进行查询最好在where从句中包含分区键。mysql从5.1版本开始支持分区。每个分区的名称是不区分大小写。同个表中的分区表名称要唯一。

    可以用  show variables like '%partition%'命令查询当前的mysql数据库版本是否支持分区。

    mysql> show variables like "%partition%";
    +-------------------+-------+
    | Variable_name     | Value |
    +-------------------+-------+
    | have_partitioning | YES   |
    +-------------------+-------+
    1 row in set (0.01 sec)

    RANGE分区

    基于属于一个给定连续区间的列值,把多行分配给分区

    优点:适合日期类型,支持复合分区复合(子)分区

    缺点:有限的分区

    共性:一般只针对某一列

    每个分区包含那些分区表达式的值位于一个给定的连续区间内的行。这些区间要连续且不能相互重叠,使用VALUES LESS THAN操作符来进行定义。在下面的几个例子中,假定你创建了一个如下的一个表,该表保存有20家音像店的职员记录,这20家音像店的编号从1到20。

    这个表可以有多种方式来按照区间进行分区。一种方式是使用store_id 列。例如,你可能决定通过添加一个PARTITION BY RANGE子句把这个表分割成4个区间,如下所示: 

    create table employees(
    id int not null,
    start_time date not null default '1970-01-01',
    end_time date not null default '9999-12-31',
    type int not null
    )
    partition by range (type)(
    partition t0 values less than (6),
    partition t1 values less than (11),
    partition t2 values less than (17),
    partition t3 values less than (23)
    )

    按照这种分区方案,在商店1到5工作的雇员相对应的所有行被保存在分区P0中,商店6到10的雇员保存在P1中,依次类推。注意,每个分区都是按顺序进行定义,从最低到最高。这是PARTITION BY RANGE 语法的要求;在这点上,它类似于C或Java中的“switch ... case”语句。 

    对于包含数据(72, 'Michael', 'Widenius', '1998-06-25', NULL, 13)的一个新行,可以很容易地确定它将插入到p2分区中,但是如果增加了一个编号为第21的商店,将会发生什么呢?在这种方案下,由于没有规则把store_id大于20的商店包含在内,服务器将不知道把该行保存在何处,将会导致错误。 要避免这种错误,可以通过在CREATE TABLE语句中使用一个“catchall” VALUES LESS THAN子句,该子句提供给所有大于明确指定的最高值的值:

    create table employees(
    id int not null,
    start_time date not null default '1970-01-01',
    end_time date not null default '9999-12-31',
    type int not null
    )
    partition by range (type)(
    partition t0 values less than (6),
    partition t1 values less than (11),
    partition t2 values less than (17),
    partition t3 values less than maxvalue
    )

    MAXVALUE 表示最大的可能的整数值。现在,store_id 列值大于或等于16(定义了的最高值)的所有行都将保存在分区p3中。在将来的某个时候,当商店数已经增长到25, 30, 或更多 ,可以使用ALTER TABLE语句为商店21-25, 26-30,等等增加新的分区

    除了可以根据商店编号分割表数据外,你还可以使用一个基于两个DATE (日期)中的一个的表达式来分割表数据。例如,假定你想基于每个雇员离开公司的年份来分割表,也就是说,YEAR(separated)的值。实现这种分区模式的CREATE TABLE 语句的一个例子如下所示:

    CREATE TABLE employees (
        id INT NOT NULL,
        fname VARCHAR(30),
        lname VARCHAR(30),
        hired DATE NOT NULL DEFAULT '1970-01-01',
        separated DATE NOT NULL DEFAULT '9999-12-31',
        job_code INT,
        store_id INT
    )
    PARTITION BY RANGE (YEAR(separated)) (
        PARTITION p0 VALUES LESS THAN (1991),
        PARTITION p1 VALUES LESS THAN (1996),
        PARTITION p2 VALUES LESS THAN (2001),
        PARTITION p3 VALUES LESS THAN MAXVALUE
    );

    当需要删除“旧的”数据时。如果你使用上面最近的那个例子给出的分区方案,你只需简单地使用 “ALTER TABLE employees DROP PARTITION p0;”来删除所有在1991年前就已经停止工作的雇员相对应的所有行。

    LIST分区

    类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择

    优点:适合固定取值的列,支持复合分区复合(子)分区

    缺点:有限的分区,插入记录在这一列的值,不在list中,则数据丢失

    共性:一般只针对某一列

    MySQL中的LIST分区在很多方面类似于RANGE分区。和按照RANGE分区一样,每个分区必须明确定义。它们的主要区别在于,LIST分区中每个分区的定义和选择是基于某列的值从属于一个值列表集中的一个值,而RANGE分区是从属于一个连续区间值的集合。LIST分区通过使用“PARTITION BY LIST(expr)”来实现,其中“expr” 是某列值或一个基于某个列值、并返回一个整数值的表达式,然后通过“VALUES IN (value_list)”的方式来定义每个分区,其中“value_list”是一个通过逗号分隔的整数列表。

    注释:在MySQL 5.1中,当使用LIST分区时,有可能只能匹配整数列表。 

    CREATE TABLE employees (
    
    id </span><span style="color: #0000ff;">INT</span> <span style="color: #808080;">NOT</span> <span style="color: #0000ff;">NULL</span><span style="color: #000000;">,
    
    fname </span><span style="color: #0000ff;">VARCHAR</span>(<span style="color: #800000; font-weight: bold;">30</span><span style="color: #000000;">),
    
    lname </span><span style="color: #0000ff;">VARCHAR</span>(<span style="color: #800000; font-weight: bold;">30</span><span style="color: #000000;">),
    
    hired DATE </span><span style="color: #808080;">NOT</span> <span style="color: #0000ff;">NULL</span> <span style="color: #0000ff;">DEFAULT</span> <span style="color: #ff0000;">'</span><span style="color: #ff0000;">1970-01-01</span><span style="color: #ff0000;">'</span><span style="color: #000000;">,
    
    separated DATE </span><span style="color: #808080;">NOT</span> <span style="color: #0000ff;">NULL</span> <span style="color: #0000ff;">DEFAULT</span> <span style="color: #ff0000;">'</span><span style="color: #ff0000;">9999-12-31</span><span style="color: #ff0000;">'</span><span style="color: #000000;">,
    
    job_code </span><span style="color: #0000ff;">INT</span><span style="color: #000000;">,
    
    store_id </span><span style="color: #0000ff;">INT</span><span style="color: #000000;">
    

    );

    (这和“RANGE分区” 中的例子中使用的是同一个表)。  

    假定有20个音像店,分布在4个有经销权的地区,如下表所示: 

    地区

     商店ID 号

    北区

     3, 5, 6, 9, 17

    东区

     1, 2, 10, 11, 19, 20

    西区

     4, 12, 13, 14, 18

    中心区

     7, 8, 15, 16

    要按照属于同一个地区商店的行保存在同一个分区中的方式来分割表,可以使用下面的“CREATE TABLE”语句:

    CREATE TABLE employees (
    
    id </span><span style="color: #0000ff;">INT</span> <span style="color: #808080;">NOT</span> <span style="color: #0000ff;">NULL</span><span style="color: #000000;">,
    
    fname </span><span style="color: #0000ff;">VARCHAR</span>(<span style="color: #800000; font-weight: bold;">30</span><span style="color: #000000;">),
    
    lname </span><span style="color: #0000ff;">VARCHAR</span>(<span style="color: #800000; font-weight: bold;">30</span><span style="color: #000000;">),
    
    hired DATE </span><span style="color: #808080;">NOT</span> <span style="color: #0000ff;">NULL</span> <span style="color: #0000ff;">DEFAULT</span> <span style="color: #ff0000;">'</span><span style="color: #ff0000;">1970-01-01</span><span style="color: #ff0000;">'</span><span style="color: #000000;">,
    
    separated DATE </span><span style="color: #808080;">NOT</span> <span style="color: #0000ff;">NULL</span> <span style="color: #0000ff;">DEFAULT</span> <span style="color: #ff0000;">'</span><span style="color: #ff0000;">9999-12-31</span><span style="color: #ff0000;">'</span><span style="color: #000000;">,
    
    job_code </span><span style="color: #0000ff;">INT</span><span style="color: #000000;">,
    
    store_id </span><span style="color: #0000ff;">INT</span><span style="color: #000000;">
    

    )

    PARTITION BY LIST(store_id)

    PARTITION pNorth </span><span style="color: #0000ff;">VALUES</span> <span style="color: #808080;">IN</span> (<span style="color: #800000; font-weight: bold;">3</span>,<span style="color: #800000; font-weight: bold;">5</span>,<span style="color: #800000; font-weight: bold;">6</span>,<span style="color: #800000; font-weight: bold;">9</span>,<span style="color: #800000; font-weight: bold;">17</span><span style="color: #000000;">),
    
    PARTITION pEast </span><span style="color: #0000ff;">VALUES</span> <span style="color: #808080;">IN</span> (<span style="color: #800000; font-weight: bold;">1</span>,<span style="color: #800000; font-weight: bold;">2</span>,<span style="color: #800000; font-weight: bold;">10</span>,<span style="color: #800000; font-weight: bold;">11</span>,<span style="color: #800000; font-weight: bold;">19</span>,<span style="color: #800000; font-weight: bold;">20</span><span style="color: #000000;">),
    
    PARTITION pWest </span><span style="color: #0000ff;">VALUES</span> <span style="color: #808080;">IN</span> (<span style="color: #800000; font-weight: bold;">4</span>,<span style="color: #800000; font-weight: bold;">12</span>,<span style="color: #800000; font-weight: bold;">13</span>,<span style="color: #800000; font-weight: bold;">14</span>,<span style="color: #800000; font-weight: bold;">18</span><span style="color: #000000;">),
    
    PARTITION pCentral </span><span style="color: #0000ff;">VALUES</span> <span style="color: #808080;">IN</span> (<span style="color: #800000; font-weight: bold;">7</span>,<span style="color: #800000; font-weight: bold;">8</span>,<span style="color: #800000; font-weight: bold;">15</span>,<span style="color: #800000; font-weight: bold;">16</span><span style="color: #000000;">)
    

    );

    这使得在表中增加或删除指定地区的雇员记录变得容易起来。例如,假定西区的所有音像店都卖给了其他公司。那么与在西区音像店工作雇员相关的所有记录(行)可以使用查询“ALTER TABLE employees DROP PARTITION pWest;”来进行删除,它与具有同样作用的DELETE (删除)查询“DELETE query DELETE FROM employees WHERE store_id IN (4,12,13,14,18);”比起来,要有效得多。 

    要点:如果试图插入列值(或分区表达式的返回值)不在分区值列表中的一行时,那么“INSERT”查询将失败并报错。例如,假定LIST分区的采用上面的方案,下面的查询将失败: 

    INSERT INTO employees VALUES  (224, 'Linus', 'Torvalds', '2002-05-01', '2004-10-12', 42, 21);

    这是因为“store_id”列值21不能在用于定义分区pNorth, pEast, pWest,或pCentral的值列表中找到。要重点注意的是,LIST分区没有类似如“VALUES LESS THAN MAXVALUE”这样的包含其他值在内的定义。将要匹配的任何值都必须在值列表中找到。 

    LIST分区除了能和RANGE分区结合起来生成一个复合的子分区,与HASH和KEY分区结合起来生成复合的子分区也是可能的。

     HASH分区

    基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进行计算,这个函数可以包含MySQL中有效的、产生非负整数值的任何表达式
    优点:线性HASH使增加、删除、合并分区更快捷
    缺点:线性HASH的数据分布不均匀,而一般HASH的数据分布较均匀
    共性:一般只针对某一列

    HASH分区主要用来确保数据在预先确定数目的分区中平均分布。在RANGE和LIST分区中,必须明确指定一个给定的列值或列值集合应该保存在哪个分区中;而在HASH分区中,MySQL 自动完成这些工作,你所要做的只是基于将要被哈希的列值指定一个列值或表达式,以及指定被分区的表将要被分割成的分区数量。

    要使用HASH分区来分割一个表,要在CREATE TABLE 语句上添加一个“PARTITION BY HASH (expr)”子句,其中“expr”是一个返回一个整数的表达式。它可以仅仅是字段类型为MySQL 整型的一列的名字。此外,你很可能需要在后面再添加一个“PARTITIONS num”子句,其中num 是一个非负的整数,它表示表将要被分割成分区的数量。

    例如,下面的语句创建了一个使用基于“store_id”列进行 哈希处理的表,该表被分成了4个分区:

    CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
    )
    PARTITION BY HASH(store_id)
    PARTITIONS 4;

    如果没有包括一个PARTITIONS子句,那么分区的数量将默认为1。 例外: 对于NDB Cluster(簇)表,默认的分区数量将与簇数据节点的数量相同,这种修正可能是考虑任何MAX_ROWS 设置,以便确保所有的行都能合适地插入到分区中。

    如果在关键字“PARTITIONS”后面没有加上分区的数量,将会出现语法错误。

    “expr”还可以是一个返回一个整数的SQL表达式。例如,也许你想基于雇用雇员的年份来进行分区。这可以通过下面的语句来实现:

    CREATE TABLE employees (
    id INT NOT NULL,
    fname VARCHAR(30),
    lname VARCHAR(30),
    hired DATE NOT NULL DEFAULT '1970-01-01',
    separated DATE NOT NULL DEFAULT '9999-12-31',
    job_code INT,
    store_id INT
    )
    PARTITION BY HASH(YEAR(hired))
    PARTITIONS 4

    “expr”还可以是MySQL 中有效的任何函数或其他表达式,只要它们返回一个既非常数、也非随机数的整数。(换句话说,它既是变化的但又是确定的)。但是应当记住,每当插入或更新(或者可能删除)一行,这个表达式都要计算一次;这意味着非常复杂的表达式可能会引起性能问题,尤其是在执行同时影响大量行的运算(例如批量插入)的时候。

    最有效率的哈希函数是只对单个表列进行计算,并且它的值随列值进行一致地增大或减小,因为这考虑了在分区范围上的“修剪”。也就是说,表达式值和它所基于的列的值变化越接近,MySQL就可以越有效地使用该表达式来进行HASH分区。

    例如,“date_col” 是一个DATE(日期)类型的列,那么表达式TO_DAYS(date_col)就可以说是随列“date_col”值的变化而发生直接的变化,因为列“date_col”值的每个变化,表达式的值也将发生与之一致的变化。而表达式YEAR(date_col)的变化就没有表达式TO_DAYS(date_col)那么直接,因为不是列“date_col”每次可能的改变都能使表达式YEAR(date_col)发生同等的改变。即便如此,表达式YEAR(date_col)也还是一个用于 哈希函数的、好的候选表达式,因为它随列date_col的一部分发生直接变化,并且列date_col的变化不可能引起表达式YEAR(date_col)不成比例的变化。

    作为对照,假定有一个类型为整型(INT)的、列名为“int_col”的列。现在考虑表达式“POW(5-int_col,3) + 6”。这对于哈希函数就是一个不好的选择,因为“int_col”值的变化并不能保证表达式产生成比例的变化。列 “int_col”的值发生一个给定数目的变化,可能会引起表达式的值产生一个很大不同的变化。例如,把列“int_col”的值从5变为6,表达式的值将产生“-1”的改变,但是把列“int_col”的值从6变为7时,表达式的值将产生“-7”的变化。

    换句话说,如果列值与表达式值之比的曲线图越接近由等式“y=nx(其中n为非零的常数)描绘出的直线,则该表达式越适合于 哈希。这是因为,表达式的非线性越严重,分区中数据产生非均衡分布的趋势也将越严重。

    理论上讲,对于涉及到多列的表达式,“修剪(pruning)”也是可能的,但是要确定哪些适于 哈希是非常困难和耗时的。基于这个原因,实际上不推荐使用涉及到多列的哈希表达式。

    当使用了“PARTITION BY HASH”时,MySQL将基于用户函数结果的模数来确定使用哪个编号的分区。换句话,对于一个表达式“expr”,将要保存记录的分区编号为N ,其中“N = MOD(expr, num)”。例如,假定表t1 定义如下,它有4个分区:

    CREATE TABLE t1 (col1 INT, col2 CHAR(5), col3 DATE)
    PARTITION BY HASH( YEAR(col3) )
    PARTITIONS 4

    如果插入一个col3列值为'2005-09-15'的记录到表t1中,那么保存该条记录的分区确定如下:

    MOD(YEAR('2005-09-01'),4)
    = MOD(2005,4)
    = 1
    MySQL 5.1 还支持一个被称为“linear hashing(线性哈希功能)”的变量,它使用一个更加复杂的算法来确定新行插入到已经分区了的表中的位置。

    每当插入或更新一条记录,用户函数都要计算一次。当删除记录时,用户函数也可能要进行计算,这取决于所处的环境。

    注释:如果将要分区的表有一个唯一的键,那么用来作为HASH用户函数的自变数或者主键的column_list的自变数的任意列都必须是那个键的一部分。

    KEY分区

    类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL服务器提供自身的哈希函数,必须有一列或多列包含整数值
    优点:列可以为字符型等其他非int类型
    缺点:效率较之前的低,因为函数为复杂的函数(MD5或SHA函数)
    共性:一般只针对某一列

    按照KEY进行分区类似于按照HASH分区,除了HASH分区使用的用户定义的表达式,而KEY分区的 哈希函数是由MySQL 服务器提供。MySQL 簇(Cluster)使用函数MD5()来实现KEY分区;对于使用其他存储引擎的表,服务器使用其自己内部的 哈希函数,这些函数是基于与PASSWORD()一样的运算法则。

    “CREATE TABLE ... PARTITION BY KEY”的语法规则类似于创建一个通过HASH分区的表的规则。它们唯一的区别在于使用的关键字是KEY而不是HASH,并且KEY分区只采用一个或多个列名的一个列表。

    通过线性KEY分割一个表也是可能的。下面是一个简单的例子:

    CREATE TABLE tk (
    col1 INT NOT NULL,
    col2 CHAR(5),
    col3 DATE
    ) 
    PARTITION BY LINEAR KEY (col1)
    PARTITIONS 3;

    在KEY分区中使用关键字LINEAR和在HASH分区中使用具有同样的作用,分区的编号是通过2的幂(powers-of-two)算法得到,而不是通过模数算法。

    无论使用何种类型的分区,分区总是在创建时就自动的顺序编号,且从0开始记录,记住这一点非常重要。当有一新行插入到一个分区表中时,就是使用这些分区编号来识别正确的分区。例如,如果你的表使用4个分区,那么这些分区就编号为0, 1, 2, 和3。对于RANGE和LIST分区类型,确认每个分区编号都定义了一个分区,很有必要。对HASH分区,使用的用户函数必须返回一个大于0的整数值。对于KEY分区,这个问题通过MySQL服务器内部使用的 哈希函数自动进行处理。

    分区的名字基本上遵循其他MySQL 标识符应当遵循的原则,例如用于表和数据库名字的标识符。但是应当注意,分区的名字是不区分大小写的。例如,下面的CREATE TABLE语句将会产生如下的错误:

    mysql> CREATE TABLE t2 (val INT)
    -> PARTITION BY LIST(val)(
    -> PARTITION mypart VALUES IN (1,3,5),
    -> PARTITION MyPart VALUES IN (2,4,6)
    -> );

    错误1488 (HY000): 表的所有分区必须有唯一的名字。
    这是因为MySQL认为分区名字mypart和MyPart没有区别。

    分区test 

    查看MySQL版本

    mysql> s
    --------------
    /usr/local/mysql/bin/mysql  Ver 14.14 Distrib 5.5.23, for Linux (i686) using readline 5.1
    

    Connection id: 2
    Current database:
    Current user: root@localhost
    SSL:
    Not in use
    Current pager: stdout
    Using outfile:
    ''
    Using delimiter: ;
    Server version:
    5.5.23-log Source distribution >=5.1
    Protocol version:
    10
    Connection: Localhost via UNIX socket
    Server characterset: utf8
    Db characterset: utf8
    Client characterset: utf8
    Conn. characterset: utf8
    UNIX socket:
    /tmp/mysql.sock
    Uptime:
    3 hours 32 min 29 sec

    Threads: 1 Questions: 7 Slow queries: 0 Opens: 33 Flush tables: 1 Open tables: 26 Queries per second avg: 0.000
    --------------

  • 相关阅读:
    HDU 5671 矩阵
    HDU 5670
    UVA 11995 STL 使用
    VK Cup 2016
    字段定义
    apache用户
    apache
    使用第三方登录
    setex()
    如果客户端禁用了cookie,如何实现session
  • 原文地址:https://www.cnblogs.com/yhq-qhh/p/10374512.html
Copyright © 2011-2022 走看看