(1)建索引
(2)表分区
(3)存储过程
用mysql表分区来优化大数据量的表
mysql分区功能详细介绍,以及实例
一,什么是数据库分区
前段时间写过一篇关于mysql分表的的文章,下面来说一下什么是数据库分区,以mysql为例。mysql数据库中的数据是以文件的形势存在磁盘上的,默认放在/mysql/data下面(可以通过my.cnf中的datadir来查看),一张表主要对应着三个文件,一个是frm存放表结构的,一个是myd存放表数据的,一个是myi存表索引的。如果一张表的数据量太大的话,那么myd,myi就会变的很大,查找数据就会变的很慢,这个时候我们可以利用mysql的分区功能,在物理上将这一张表对应的三个文件,分割成许多个小块,这样呢,我们查找一条数据时,就不用全部查找了,只要知道这条数据在哪一块,然后在那一块找就行了。如果表的数据太大,可能一个磁盘放不下,这个时候,我们可以把数据分配到不同的磁盘里面去。
分区的二种方式
1,横向分区
什么是横向分区呢?就是横着来分区了,举例来说明一下,假如有100W条数据,分成十份,前10W条数据放到第一个分区,第二个10W条数据放到第二个分区,依此类推。也就是把表分成了十分,根用merge来分表,有点像哦。取出一条数据的时候,这条数据包含了表结构中的所有字段,也就是说横向分区,并没有改变表的结构。
2,纵向分区
什么是纵向分区呢?就是竖来分区了,举例来说明,在设计用户表的时候,开始的时候没有考虑好,而把个人的所有信息都放到了一张表里面去,这样这个表里面就会有比较大的字段,如个人简介,而这些简介呢,也许不会有好多人去看,所以等到有人要看的时候,在去查找,分表的时候,可以把这样的大字段,分开来。
感觉数据库的分区好像是切苹果,到底是横着切呢,还是竖着切,根据个人喜好了,mysql提供的分区属于第一种,横向分区,并且细分成很多种方式。下面将举例说明一下。
二,mysql的分区
我觉着吧,mysql的分区只有一种方式,只不过运用不同的算法,規则将数据分配到不同的区块中而已。
1,mysql5.1及以上支持分区功能
安装安装的时候,我们就可以查看一下
- [root@BlackGhost mysql-5.1.50]# ./configure --help |grep -A 3 Partition
- === Partition Support ===
- Plugin Name: partition
- Description: MySQL Partitioning Support
- Supports build: static
- Configurations: max, max-no-ndb
查看一下,如果发现有上面这个东西,说明他是支持分区的,默认是打开的。如果你已经安装过了mysql的话
- mysql> show variables like "%part%";
- +-------------------+-------+
- | Variable_name | Value |
- +-------------------+-------+
- | have_partitioning | YES |
- +-------------------+-------+
- 1 row in set (0.00 sec)
查看一下变量,如果支持的话,会有上面的提示的。
2,range分区
按照RANGE分区的表是通过如下一种方式进行分区的,每个分区包含那些分区表达式的值位于一个给定的连续区间内的行
- //创建range分区表
- mysql> CREATE TABLE IF NOT EXISTS `user` (
- -> `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '用户ID',
- -> `name` varchar(50) NOT NULL DEFAULT '' COMMENT '名称',
- -> `sex` int(1) NOT NULL DEFAULT '0' COMMENT '0为男,1为女',
- -> PRIMARY KEY (`id`)
- -> ) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
- -> PARTITION BY RANGE (id) (
- -> PARTITION p0 VALUES LESS THAN (3),
- -> PARTITION p1 VALUES LESS THAN (6),
- -> PARTITION p2 VALUES LESS THAN (9),
- -> PARTITION p3 VALUES LESS THAN (12),
- -> PARTITION p4 VALUES LESS THAN MAXVALUE
- -> );
- Query OK, 0 rows affected (0.13 sec)
- //插入一些数据
- mysql> INSERT INTO `test`.`user` (`name` ,`sex`)VALUES ('tank', '0')
- -> ,('zhang',1),('ying',1),('张',1),('映',0),('test1',1),('tank2',1)
- -> ,('tank1',1),('test2',1),('test3',1),('test4',1),('test5',1),('tank3',1)
- -> ,('tank4',1),('tank5',1),('tank6',1),('tank7',1),('tank8',1),('tank9',1)
- -> ,('tank10',1),('tank11',1),('tank12',1),('tank13',1),('tank21',1),('tank42',1);
- Query OK, 25 rows affected (0.05 sec)
- Records: 25 Duplicates: 0 Warnings: 0
- //到存放数据库表文件的地方看一下,my.cnf里面有配置,datadir后面就是
- [root@BlackGhost test]# ls |grep user |xargs du -sh
- 4.0K user#P#p0.MYD
- 4.0K user#P#p0.MYI
- 4.0K user#P#p1.MYD
- 4.0K user#P#p1.MYI
- 4.0K user#P#p2.MYD
- 4.0K user#P#p2.MYI
- 4.0K user#P#p3.MYD
- 4.0K user#P#p3.MYI
- 4.0K user#P#p4.MYD
- 4.0K user#P#p4.MYI
- 12K user.frm
- 4.0K user.par
- //取出数据
- mysql> select count(id) as count from user;
- +-------+
- | count |
- +-------+
- | 25 |
- +-------+
- 1 row in set (0.00 sec)
- //删除第四个分区
- mysql> alter table user drop partition p4;
- Query OK, 0 rows affected (0.11 sec)
- Records: 0 Duplicates: 0 Warnings: 0
- /**存放在分区里面的数据丢失了,第四个分区里面有14条数据,剩下的3个分区
- 只有11条数据,但是统计出来的文件大小都是4.0K,从这儿我们可以看出分区的
- 最小区块是4K
- */
- mysql> select count(id) as count from user;
- +-------+
- | count |
- +-------+
- | 11 |
- +-------+
- 1 row in set (0.00 sec)
- //第四个区块已删除
- [root@BlackGhost test]# ls |grep user |xargs du -sh
- 4.0K user#P#p0.MYD
- 4.0K user#P#p0.MYI
- 4.0K user#P#p1.MYD
- 4.0K user#P#p1.MYI
- 4.0K user#P#p2.MYD
- 4.0K user#P#p2.MYI
- 4.0K user#P#p3.MYD
- 4.0K user#P#p3.MYI
- 12K user.frm
- 4.0K user.par
- /*可以对现有表进行分区,并且会按規则自动的将表中的数据分配相应的分区
- 中,这样就比较好了,可以省去很多事情,看下面的操作*/
- mysql> alter table aa partition by RANGE(id)
- -> (PARTITION p1 VALUES less than (1),
- -> PARTITION p2 VALUES less than (5),
- -> PARTITION p3 VALUES less than MAXVALUE);
- Query OK, 15 rows affected (0.21 sec) //对15数据进行分区
- Records: 15 Duplicates: 0 Warnings: 0
- //总共有15条
- mysql> select count(*) from aa;
- +----------+
- | count(*) |
- +----------+
- | 15 |
- +----------+
- 1 row in set (0.00 sec)
- //删除一个分区
- mysql> alter table aa drop partition p2;
- Query OK, 0 rows affected (0.30 sec)
- Records: 0 Duplicates: 0 Warnings: 0
- //只有11条了,说明对现有的表分区成功了
- mysql> select count(*) from aa;
- +----------+
- | count(*) |
- +----------+
- | 11 |
- +----------+
- 1 row in set (0.00 sec)
3,list分区
LIST分区中每个分区的定义和选择是基于某列的值从属于一个值列表集中的一个值,而RANGE分 区是从属于一个连续区间值的集合。
- //这种方式失败
- mysql> CREATE TABLE IF NOT EXISTS `list_part` (
- -> `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '用户ID',
- -> `province_id` int(2) NOT NULL DEFAULT 0 COMMENT '省',
- -> `name` varchar(50) NOT NULL DEFAULT '' COMMENT '名称',
- -> `sex` int(1) NOT NULL DEFAULT '0' COMMENT '0为男,1为女',
- -> PRIMARY KEY (`id`)
- -> ) ENGINE=INNODB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
- -> PARTITION BY LIST (province_id) (
- -> PARTITION p0 VALUES IN (1,2,3,4,5,6,7,8),
- -> PARTITION p1 VALUES IN (9,10,11,12,16,21),
- -> PARTITION p2 VALUES IN (13,14,15,19),
- -> PARTITION p3 VALUES IN (17,18,20,22,23,24)
- -> );
- ERROR 1503 (HY000): A PRIMARY KEY must include all columns in the table's partitioning function
- //这种方式成功
- mysql> CREATE TABLE IF NOT EXISTS `list_part` (
- -> `id` int(11) NOT NULL COMMENT '用户ID',
- -> `province_id` int(2) NOT NULL DEFAULT 0 COMMENT '省',
- -> `name` varchar(50) NOT NULL DEFAULT '' COMMENT '名称',
- -> `sex` int(1) NOT NULL DEFAULT '0' COMMENT '0为男,1为女'
- -> ) ENGINE=INNODB DEFAULT CHARSET=utf8
- -> PARTITION BY LIST (province_id) (
- -> PARTITION p0 VALUES IN (1,2,3,4,5,6,7,8),
- -> PARTITION p1 VALUES IN (9,10,11,12,16,21),
- -> PARTITION p2 VALUES IN (13,14,15,19),
- -> PARTITION p3 VALUES IN (17,18,20,22,23,24)
- -> );
- Query OK, 0 rows affected (0.33 sec)
上面的这个创建list分区时,如果有主銉的话,分区时主键必须在其中,不然就会报错。如果我不用主键,分区就创建成功了,一般情况下,一个张表肯定会有一个主键,这算是一个分区的局限性吧。
如果对数据进行测试,请参考range分区的测试来操作
4,hash分区
HASH分区主要用来确保数据在预先确定数目的分区中平均分布,你所要做的只是基于将要被哈希的列值指定一个列值或表达式,以 及指定被分区的表将要被分割成的分区数量。
- mysql> CREATE TABLE IF NOT EXISTS `hash_part` (
- -> `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '评论ID',
- -> `comment` varchar(1000) NOT NULL DEFAULT '' COMMENT '评论',
- -> `ip` varchar(25) NOT NULL DEFAULT '' COMMENT '来源IP',
- -> PRIMARY KEY (`id`)
- -> ) ENGINE=INNODB DEFAULT CHARSET=utf8 AUTO_INCREMENT=1
- -> PARTITION BY HASH(id)
- -> PARTITIONS 3;
- Query OK, 0 rows affected (0.06 sec)
测试请参考range分区的操作
5,key分区
按照KEY进行分区类似于按照HASH分区,除了HASH分区使用的用 户定义的表达式,而KEY分区的 哈希函数是由MySQL 服务器提供。
- mysql> CREATE TABLE IF NOT EXISTS `key_part` (
- -> `news_id` int(11) NOT NULL COMMENT '新闻ID',
- -> `content` varchar(1000) NOT NULL DEFAULT '' COMMENT '新闻内容',
- -> `u_id` varchar(25) NOT NULL DEFAULT '' COMMENT '来源IP',
- -> `create_time` DATE NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '时间'
- -> ) ENGINE=INNODB DEFAULT CHARSET=utf8
- -> PARTITION BY LINEAR HASH(YEAR(create_time))
- -> PARTITIONS 3;
- Query OK, 0 rows affected (0.07 sec)
测试请参考range分区的操作
6,子分区
子分区是分区表中每个分区的再次分割,子分区既可以使用HASH希分区,也可以使用KEY分区。这 也被称为复合分区(composite partitioning)。
1,如果一个分区中创建了子分区,其他分区也要有子分区
2,如果创建了了分区,每个分区中的子分区数必有相同
3,同一分区内的子分区,名字不相同,不同分区内的子分区名子可以相同(5.1.50不适用)
- mysql> CREATE TABLE IF NOT EXISTS `sub_part` (
- -> `news_id` int(11) NOT NULL COMMENT '新闻ID',
- -> `content` varchar(1000) NOT NULL DEFAULT '' COMMENT '新闻内容',
- -> `u_id` int(11) NOT NULL DEFAULT 0s COMMENT '来源IP',
- -> `create_time` DATE NOT NULL DEFAULT '0000-00-00 00:00:00' COMMENT '时间'
- -> ) ENGINE=INNODB DEFAULT CHARSET=utf8
- -> PARTITION BY RANGE(YEAR(create_time))
- -> SUBPARTITION BY HASH(TO_DAYS(create_time))(
- -> PARTITION p0 VALUES LESS THAN (1990)(SUBPARTITION s0,SUBPARTITION s1,SUBPARTITION s2),
- -> PARTITION p1 VALUES LESS THAN (2000)(SUBPARTITION s3,SUBPARTITION s4,SUBPARTITION good),
- -> PARTITION p2 VALUES LESS THAN MAXVALUE(SUBPARTITION tank0,SUBPARTITION tank1,SUBPARTITION tank3)
- -> );
- Query OK, 0 rows affected (0.07 sec)
官方网站说不同分区内的子分区可以有相同的名字,但是mysql5.1.50却不行会提示以下错误
ERROR 1517 (HY000): Duplicate partition name s1
三,分区管理
1,删除分区
- mysql> alter table user drop partition p4;
2,新增分区
- //range添加新分区
- mysql> alter table user add partition(partition p4 values less than MAXVALUE);
- Query OK, 0 rows affected (0.06 sec)
- Records: 0 Duplicates: 0 Warnings: 0
- //list添加新分区
- mysql> alter table list_part add partition(partition p4 values in (25,26,28));
- Query OK, 0 rows affected (0.01 sec)
- Records: 0 Duplicates: 0 Warnings: 0
- //hash重新分区
- mysql> alter table hash_part add partition partitions 4;
- Query OK, 0 rows affected (0.12 sec)
- Records: 0 Duplicates: 0 Warnings: 0
- //key重新分区
- mysql> alter table key_part add partition partitions 4;
- Query OK, 1 row affected (0.06 sec) //有数据也会被重新分配
- Records: 1 Duplicates: 0 Warnings: 0
- //子分区添加新分区,虽然我没有指定子分区,但是系统会给子分区命名的
- mysql> alter table sub1_part add partition(partition p3 values less than MAXVALUE);
- Query OK, 0 rows affected (0.02 sec)
- Records: 0 Duplicates: 0 Warnings: 0
- mysql> show create table sub1_partG;
- *************************** 1. row ***************************
- Table: sub1_part
- Create Table: CREATE TABLE `sub1_part` (
- `news_id` int(11) NOT NULL COMMENT '新闻ID',
- `content` varchar(1000) NOT NULL DEFAULT '' COMMENT '新闻内容',
- `u_id` varchar(25) NOT NULL DEFAULT '' COMMENT '来源IP',
- `create_time` date NOT NULL DEFAULT '0000-00-00' COMMENT '时间'
- ) ENGINE=InnoDB DEFAULT CHARSET=utf8
- !50100 PARTITION BY RANGE (YEAR(create_time))
- SUBPARTITION BY HASH (TO_DAYS(create_time))
- (PARTITION p0 VALUES LESS THAN (1990)
- (SUBPARTITION s0 ENGINE = InnoDB,
- SUBPARTITION s1 ENGINE = InnoDB,
- SUBPARTITION s2 ENGINE = InnoDB),
- PARTITION p1 VALUES LESS THAN (2000)
- (SUBPARTITION s3 ENGINE = InnoDB,
- SUBPARTITION s4 ENGINE = InnoDB,
- SUBPARTITION good ENGINE = InnoDB),
- PARTITION p2 VALUES LESS THAN (3000)
- (SUBPARTITION tank0 ENGINE = InnoDB,
- SUBPARTITION tank1 ENGINE = InnoDB,
- SUBPARTITION tank3 ENGINE = InnoDB),
- PARTITION p3 VALUES LESS THAN MAXVALUE
- (SUBPARTITION p3sp0 ENGINE = InnoDB, //子分区的名子是自动生成的
- SUBPARTITION p3sp1 ENGINE = InnoDB,
- SUBPARTITION p3sp2 ENGINE = InnoDB))
- 1 row in set (0.00 sec)
3,重新分区
- //range重新分区
- mysql> ALTER TABLE user REORGANIZE PARTITION p0,p1,p2,p3,p4 INTO (PARTITION p0 VALUES LESS THAN MAXVALUE);
- Query OK, 11 rows affected (0.08 sec)
- Records: 11 Duplicates: 0 Warnings: 0
- //list重新分区
- mysql> ALTER TABLE list_part REORGANIZE PARTITION p0,p1,p2,p3,p4 INTO (PARTITION p0 VALUES in (1,2,3,4,5));
- Query OK, 0 rows affected (0.28 sec)
- Records: 0 Duplicates: 0 Warnings: 0
- //hash和key分区不能用REORGANIZE,官方网站说的很清楚
- mysql> ALTER TABLE key_part REORGANIZE PARTITION COALESCE PARTITION 9;
- ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'PARTITION 9' at line 1
四,分区优点
1,分区可以分在多个磁盘,存储更大一点
2,根据查找条件,也就是where后面的条件,查找只查找相应的分区不用全部查找了
3,进行大数据搜索时可以进行并行处理。
4,跨多个磁盘来分散数据查询,来获得更大的查询吞吐量
----------------------------------------------------
MySQL5.1 引入表分区功能,使得MySQL在处理大表的能力上得到增强。使用过表分区功能的朋友应该知道,MySQL5.1中使用表分区的时候,对字段是有要求的,那就是必须是整数型,或者可以将其他类型的字段通过函数转换成整数型才可以。
CREATE TABLE mysqlab_net
(
ivan DATE
)
PARTITION BY RANGE (TO_DAYS(ivan))
(
PARTITION p01 VALUES LESS THAN (TO_DAYS(’2007-08-08′)),
PARTITION p02 VALUES LESS THAN (TO_DAYS(’2008-08-08′)),
PARTITION p03 VALUES LESS THAN (TO_DAYS(’2009-08-08′)),
PARTITION p04 VALUES LESS THAN (MAXVALUE));
SHOW CREATE TABLE mysqlab_netG
*************************** 1. row ***************************
TABLE: mysqlab_net
CREATE TABLE: CREATE TABLE `mysqlab_net` (
`ivan` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
/*!50100 PARTITION BY RANGE (TO_DAYS(ivan))
(PARTITION p01 VALUES LESS THAN (733261) ENGINE = InnoDB,
PARTITION p02 VALUES LESS THAN (733627) ENGINE = InnoDB,
PARTITION p03 VALUES LESS THAN (733992) ENGINE = InnoDB,
PARTITION p04 VALUES LESS THAN MAXVALUE ENGINE = InnoDB) */
怎么样?读取的时候谁知道那个数字是多少?(不过也可以通过自定义函数实现还原)
MySQL5.5中加入了columns关键字,使得可读性好多了。看例子
CREATE TABLE `mysqlab.net`
(
ivan DATE
)
PARTITION BY RANGE COLUMNS(ivan)
(
PARTITION p01 VALUES LESS THAN (’2007-08-08′),
PARTITION p02 VALUES LESS THAN (’2008-08-08′),
PARTITION p03 VALUES LESS THAN (’2009-08-08′),
PARTITION p04 VALUES LESS THAN (MAXVALUE);
SHOW CREATE TABLE `mysqlab.net`G
*************************** 1. row ***************************
TABLE: mysqlab.net
CREATE TABLE: CREATE TABLE `mysqlab.net` (
`ivan` date DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
/*!50500 PARTITION BY RANGE COLUMNS(ivan)
(PARTITION p01 VALUES LESS THAN (’2007-08-08′) ENGINE = InnoDB,
PARTITION p02 VALUES LESS THAN (’2008-08-08′) ENGINE = InnoDB,
PARTITION p03 VALUES LESS THAN (’2009-08-08′) ENGINE = InnoDB,
PARTITION p04 VALUES LESS THAN (MAXVALUE) ENGINE = InnoDB) */
另外MySQL5.5表分区(partition) columns关键字还支持多字段,比如 partition by range columns(a,b);将支持清空指定的分区TRUNCATE PARTITION。MySQL5.5有望在明年(2010)夏季GA。另外MySQL5.5支持的半同步功能在高可用上的使用,让人非常期待!
---------------------------------------------------------------表分区的方法
- RANGE分区:基于属于一个给定连续区间的列值,把多行分配给分区。
- LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹配一个离散值集合中的某个值来进行选择。
- HASH分区:基于用户定义的表达式的返回值来进行选择的分区,该表达式使用将要插入到表中的这些行的列值进 行计算。这个函数可以包含MySQL 中有效的、产生非负整数值的任何表达式。
- KEY分区:类似于按HASH分区,区别在于KEY分区只支持计算一列或多列,且MySQL 服务器提供其自身的哈希函数。必须有一列或多列包含整数值。
分区表的适用场景
分区是很有好处的,特别是一些特定的场景:
- 当表非常大,或者表中有大量的历史记录,而“热数据”却位于表的末尾。
- 分区与不使用分区相比,能够更好的维护数据。比如,你可以很快的通过删除分区来移除旧数据。你还可以优化、检查、修复个别分区。
- 分区的数据可以分布导不同的物理磁盘中,使得服务器可以高效的利用多个磁盘。
- 如果有必要,你可以单独的备份和恢复指定的分区,这对于大数据来说是非常有用处的。
分区表的局限
分区表也有一些局限性,以下是几点需要特别注意的:
- 每张表最大分区数为1024。
- 在MySQL 5.1中,分区表达式必须是整型或者表达式返回整型值。在MySQL 5.5中,你可以通过具体某字段值进行分区。
- 所有的主键或者唯一索引必须被保存在分区表达式中。
- 不能使用任何外间约束。
根据公司数据库实际情况,订单表有可能会比预想中扩张速度快,这里可能需要预先准备下优化方案,传统方案是分表或者分库,不过目前最好的方案是使用mysql的表分区来优化。不过需要注意的是在表分区建立后mysql查询缓存会失效,那么可以说暂时分表带来的好处在于更新、删除以及锁处理的时间会减少,但是如果查询并非针对表分区字段进行,那么查询的时间由于查询缓存失效反而会增加,这点需要取舍。
第一步:由于表分区必须在表建立的时候创建规则,而已经存在的没有创建过表分区规则的表需要重新做导入处理。方法如下:
- #这里使用HASH表分区,mysql会根据HASH字段来自动分配数据到不同的表分区,这种情况适用于没有表分区规则但是有需要分表来进行查询优化的情况。这里根据id字段hash规则创建2个表分区
- CREATE TABLE `creater_bak` (
- `id` int(11) NOT NULL,
- `name` varchar(100) DEFAULT NULL,
- PRIMARY KEY (`id`)
- ) ENGINE=InnoDB DEFAULT CHARSET=utf8
- PARTITION BY HASH(id) PARTITIONS 2
创建完成后开始导入原表数据:
- insert into creater_bak select * from creater;
导入以后的新表数据就是分布在不同的2个表分区中了。
如果数据量非常大,觉得预设的表分区数量太少,那么可以新增表分区,mysql会自动重新分配:
- #这里新增8个表分区,加上新建表时候的2个,一共10个表分区了
- ALTER TABLE `creater_bak` ADD PARTITION PARTITIONS 8;
最后修改表名为原表名即可。
PS:下面是使用RANGE形式表分区,其中一些注意点HASH表分区也一样要注意:
1.如果使用RANGE形式进行表分区,必须设定规则,例如:
- CREATE TABLE `creater_bak` (
- `id` int(11) NOT NULL,
- `name` varchar(100) DEFAULT NULL,
- PRIMARY KEY (`id`)
- ) ENGINE=InnoDB DEFAULT CHARSET=utf8
- PARTITION BY RANGE(id) (
- PARTITION p0 VALUES LESS THAN (500),
- PARTITION p1 VALUES LESS THAN (1000),
- PARTITION p2 VALUES LESS THAN MAXVALUE
- )
2.如果想修改有规则的表分区,注意只能新增,不要随意删除,这里删除表分区会造成该表分区内部数据也一起被删除掉,千万注意。另外如果设定了MAXVALUE那么是不能新增的,虽然删除MAXVALUE那条表分区后可以新增,但是依然注意删除的MAXVALUE分区是否有数据,如果有则不能随意删除,最好的办法依然是重建一张新表,表在创建时候重新制定规则后把旧表导入新表,这样能保证不会丢失数据。虽然最好不要删除分区,但是依然下面介绍如何删除表分区以及新增表分区:
- #删除上面的MAXVALUE规则表分区(如果该表分区有数据,请勿随便使用此操作)
- ALTER TABLE `creater_bak` drop PARTITION p2;
- #新增规则表分区,注意按规则步长来新增,否则会报错,这里步长为500
- ALTER TABLE `creater_bak` add PARTITION(PARTITION p2 VALUES LESS THAN (1500))
- ALTER TABLE `creater_bak` add PARTITION(PARTITION p3 VALUES LESS THAN MAXVALUE)
最后使用下面的语句可以查看分区搜索情况:
- EXPLAIN PARTITIONS select * from `creater_bak` b1 where b1.`id`=11
最后附上官方中文文档:
http://dev.mysql.com/doc/refman/5.1/zh/partitioning.html
//------------------------------------------------------------
区表是一种粗粒度,简易的索引策略,适用于大数据的过滤场景.最适合的场景是,没有合适的索引时,对其中几个分区表进行全表扫描.或者只有一个分区表和索引是热点,而且这个分区和索引能够全部存储在内存中.限制单表分区数不要超过150个,并且注意某些导致无法做分区过滤的细节,分区表对于单条记录的查询没有优势,需要注意这类查询的性能.
分区表语法
分区表分为RANGE,LIST,HASH,KEY四种类型,并且分区表的索引是可以局部针对分区表建立的
创建分区表
CREATE TABLE sales (
id INT AUTO_INCREMENT,
amount DOUBLE NOT NULL,
order_day DATETIME NOT NULL,
PRIMARY KEY(id, order_day)
) ENGINE=Innodb PARTITION BY RANGE(YEAR(order_day)) (
PARTITION p_2010 VALUES LESS THAN (2010),
PARTITION p_2011 VALUES LESS THAN (2011),
PARTITION p_2012 VALUES LESS THAN (2012),
PARTITION p_catchall VALUES LESS THAN MAXVALUE);
这段语句表示将表内数据按照order_dy的年份范围进行分区,2010年一个区,2011一个,2012一个,剩下的一个.
要注意如果这么做,则order_day必须包含在主键中,且会产生一个问题,就是当年份超过阈值,到了2013,2014时,需要手动创建这些分区
替代方法就是使用HASH
CREATE TABLE sales (
id INT PRIMARY KEY AUTO_INCREMENT,
amount DOUBLE NOT NULL,
order_day DATETIME NOT NULL
) ENGINE=Innodb PARTITION BY HASH(id DIV 1000000);
这种分区表示每100W条数据建立一个分区,且没有阈值范围的影响
对于大数据而言
对于大数据(如10TB)而言,索引起到的作用相对小,因为索引的空间与维护成本很高,另外如果不是索引覆盖查询,将导致回表,造成大量磁盘IO.那么对于这种情况的解决策略是:
1.全量扫描数据,不要任何索引
通过分区表表达式将数据定位在少量的分区表,然后正常访问这些分区表的数据
2.分离热点,索引数据
将热点数据分离出来在一个小的分区,并对分区建立索引,对热点数据的查询提高效率.
分区表的问题
1.NULL值使分区过滤无效
假设按照RANGE YEAR(order_date)分区,那么如果这个表达式计算出来的时NULL值,记录就会被存放到第一个分区.所以在查询时加入查询条件有可能出现NULL值,那么就会去检查第一个分区.解决的方法可以是将第一个分区建立为NULL分区 PARTITION p_nulls VALUES LESS THAN (0),或者在MySQL5.5以后,直接使用COLUMN建立分区 PARTITION BY RANGE COLUMNS(order_date)
2. 选择分区的成本
每插入一行数据都需要按照表达式筛选插入的分区地址
3. 分区列和索引列不匹配
如果索引列和分区列不匹配,且查询中没有包含过滤分区的条件,会导致无法进行分区过滤,那么将会导致查询所有分区.
4. 打开并锁住所有底层表
分区表的的查询策略是在分区过滤之前,打开并锁住所有底层表,这会造成额外的开销,解决问题的方法是尽量使用批量操作,例如LOAD DATA INFILE,或者一次删除多行数据.
过滤分区表的要点
过滤分区表的WHERE条件必须是切分分区表的列,而不能带有函数,例如只能是order_day赤裸列,而不能是YEAR(order_day)
关于Partitioning Keys, Primary Keys, and Unique Keys的限制
在5.1中分区表对唯一约束有明确的规定,每一个唯一约束必须包含在分区表的分区键(也包括主键约束)。
这句话也许不好理解,我们做几个实验:
CREATE TABLE t1
( id INT NOT NULL,
uid INT NOT NULL,
PRIMARY KEY (id)
)
PARTITION BY RANGE (id)
(PARTITION p0 VALUES LESS THAN(5) ENGINE = INNODB,
PARTITION p1 VALUES LESS THAN(10) ENGINE = INNODB
);
CREATE TABLE t1
( id INT NOT NULL,
uid INT NOT NULL,
PRIMARY KEY (id)
)
PARTITION BY RANGE (id)
(PARTITION p0 VALUES LESS THAN(5) ENGINE = MyISAM DATA DIRECTORY='/tmp' INDEX DIRECTORY='/tmp',
PARTITION p1 VALUES LESS THAN(10) ENGINE = MyISAM DATA DIRECTORY='/tmp' INDEX DIRECTORY='/tmp'
);
mysql> CREATE TABLE t1
-> ( id INT NOT NULL,
-> uid INT NOT NULL,
-> PRIMARY KEY (id),
-> UNIQUE KEY (uid)
-> )
-> PARTITION BY RANGE (id)
-> (PARTITION p0 VALUES LESS THAN(5),
-> PARTITION p1 VALUES LESS THAN(10)
-> );
ERROR 1503 (HY000): A UNIQUE INDEX must include all columns in the table's partitioning function
关于存储引擎的限制
2.1 MERGE引擎不支持分区,分区表也不支持merge。
2.2 FEDERATED引擎不支持分区。这限制可能会在以后的版本去掉。
2.3 CSV引擎不支持分区
2.4 BLACKHOLE引擎不支持分区
2.5 在NDBCLUSTER引擎上使用分区表,分区类型只能是KEY(or LINEAR KEY) 分区。
2.6 当升级MYSQL的时候,如果你有使用了KEY分区的表(不管是什么引擎,NDBCLUSTER除外),那么你需要把这个表dumped在 reloaded。
2.7 分区表的所有分区或者子分区的存储引擎必须相同,这个限制也许会在以后的版本取消。
不指定任何引擎(使用默认引擎)。
所有分区或者子分区指定相同引擎。
关于函数的限制
在mysql5.1中建立分区表的语句中,只能包含下列函数(5.5版本的限制没这么严格了,可以是非整型列):
ABS()
CEILING() and FLOOR() (在使用这2个函数的建立分区表的前提是使用函数的分区键是INT类型),例如
mysql> CREATE TABLE t (c FLOAT) PARTITION BY LIST( FLOOR(c) )(
-> PARTITION p0 VALUES IN (1,3,5),
-> PARTITION p1 VALUES IN (2,4,6)
-> );;
ERROR 1491 (HY000): The PARTITION function returns the wrong type
mysql> CREATE TABLE t (c int) PARTITION BY LIST( FLOOR(c) )(
-> PARTITION p0 VALUES IN (1,3,5),
-> PARTITION p1 VALUES IN (2,4,6)
-> );
Query OK, 0 rows affected (0.01 sec)
DAY()
DAYOFMONTH()
DAYOFWEEK()
DAYOFYEAR()
DATEDIFF()
EXTRACT()
HOUR()
MICROSECOND()
MINUTE()
MOD()
MONTH()
QUARTER()
SECOND()
TIME_TO_SEC()
TO_DAYS()
WEEKDAY()
YEAR()
YEARWEEK()
其他限制
4.1 对象限制
下面这些对象在不能出现在分区表达式
Stored functions, stored procedures, UDFs, or plugins.
Declared variables or user variables.
4.2 运算限制
支持加减乘等运算出现在分区表达式,但是运算后的结果必须是一个INT或者NULL。 |, &, ^, <<, >>, , ~ 等不允许出现在分区表达式中
4.3 sql_mode限制
官方强烈建议你在创建分区表后,永远别改变mysql的sql_mode。因为在不同的模式下,某些函数或者运算返回的结果可能会不一样。
4.4 Performance considerations.(省略)
4.5 最多支持1024个分区,包括子分区。
当你建立分区表包含很多分区但没有超过1024限制的时候,如果报错 Got error 24 from storage engine,那意味着你需要增大open_files_limit参数。
4.6 不支持外键。MYSQL中,INNODB引擎才支持外键。
4.7 不支持FULLTEXT indexes(全文索引),包括MYISAM引擎。
mysql> CREATE TABLE articles (
-> id INT UNSIGNED AUTO_INCREMENT NOT NULL PRIMARY KEY,
-> title VARCHAR(200),
-> body TEXT,
-> FULLTEXT (title,body)
-> )
-> PARTITION BY HASH(id)
-> PARTITIONS 4;
ERROR 1214 (HY000): The used table type doesn't support FULLTEXT indexes
4.8 不支持spatial column types。
4.9 临时表不能被分区。
mysql> CREATE Temporary TABLE t1
-> ( id INT NOT NULL,
-> uid INT NOT NULL,
-> PRIMARY KEY (id)
-> )
-> PARTITION BY RANGE (id)
-> (PARTITION p0 VALUES LESS THAN(5) ENGINE = MyISAM,
-> PARTITION p1 VALUES LESS THAN(10) ENGINE = MyISAM
-> );
ERROR 1562 (HY000): Cannot create temporary table with partitions
4.10 log table不支持分区。
mysql> alter table mysql.slow_log PARTITION BY KEY(start_time) PARTITIONS 2;
ERROR 1221 (HY000): Incorrect usage of PARTITION and log table
4.11 分区键必须是INT类型,或者通过表达式返回INT类型,可以为NULL。唯一的例外是当分区类型为KEY分区的时候,可以使用其他类型的列作为分区键( BLOB or TEXT 列除外)。
mysql> CREATE TABLE tkc (c1 CHAR)
-> PARTITION BY KEY(c1)
-> PARTITIONS 4;
Query OK, 0 rows affected (0.00 sec)
mysql> CREATE TABLE tkc2 (c1 CHAR)
-> PARTITION BY HASH(c1)
-> PARTITIONS 4;
ERROR 1491 (HY000): The PARTITION function returns the wrong type
mysql> CREATE TABLE tkc3 (c1 INT)
-> PARTITION BY HASH(c1)
-> PARTITIONS 4;
Query OK, 0 rows affected (0.00 sec)
4.12 分区键不能是一个子查询。 A partitioning key may not be a subquery, even if that subquery resolves to an integer value or NULL
4.13 只有RANG和LIST分区能进行子分区。HASH和KEY分区不能进行子分区。
4.14 分区表不支持Key caches。
SQL代码
mysql> SET GLOBAL keycache1.key_buffer_size=128*1024;
Query OK, 0 rows affected (0.00 sec)
mysql> CACHE INDEX login,user_msg,user_msg_p IN keycache1;
+-----------------+--------------------+----------+---------------------------------------------------------------------+
| Table | Op | Msg_type | Msg_text |
+-----------------+--------------------+----------+---------------------------------------------------------------------+
| test.login | assign_to_keycache | status | OK |
| test.user_msg | assign_to_keycache | status | OK |
| test.user_msg_p | assign_to_keycache | note | The storage engine for the table doesn't support assign_to_keycache |
+-----------------+--------------------+----------+---------------------------------------------------------------------+
3 rows in set (0.00 sec)
4.15 分区表不支持INSERT DELAYED.
mysql> insert DELAYED into user_msg_p values(18156629,0,0,0,0,0,0,0,0,0);
ERROR 1616 (HY000): DELAYED option not supported for table 'user_msg_p'
4.16 DATA DIRECTORY 和 INDEX DIRECTORY 参数在分区表将被忽略。
这个限制应该不存在了:
SQL代码
mysql> CREATE TABLE t1
-> ( id INT NOT NULL,
-> uid INT NOT NULL,
-> PRIMARY KEY (id)
-> )
-> PARTITION BY RANGE (id)
-> (PARTITION p0 VALUES LESS THAN(5) ENGINE = MyISAM DATA DIRECTORY='/tmp' INDEX DIRECTORY='/tmp',
-> PARTITION p1 VALUES LESS THAN(10) ENGINE = MyISAM DATA DIRECTORY='/tmp' INDEX DIRECTORY='/tmp'
-> );
Query OK, 0 rows affected (0.01 sec)
4.17 分区表不支持mysqlcheck和myisamchk
在5.1.33版本中已经支持mysqlcheck和myisamchk
SQL代码
./mysqlcheck -u -p -r test user_msg_p;
test.user_msg_p OK
./myisamchk -i /u01/data/test/user_msg_p#P#p0.MYI
Checking MyISAM file: /u01/data/test/user_msg_p#P#p0.MYI
Data records: 4423615 Deleted blocks: 0
- check file-size
- check record delete-chain
- check key delete-chain
- check index reference
- check data record references index: 1
Key: 1: Keyblocks used: 98% Packed: 0% Max levels: 4
Total: Keyblocks used: 98% Packed: 0%
User time 0.97, System time 0.02
Maximum resident set size 0, Integral resident set size 0
Non-physical pagefaults 324, Physical pagefaults 0, Swaps 0
Blocks in 0 out 0, Messages in 0 out 0, Signals 0
Voluntary context switches 1, Involuntary context switches 5
4.18 分区表的分区键创建索引,那么这个索引也将被分区。分区键没有全局索引一说。
5.19 在分区表使用ALTER TABLE … ORDER BY,只能在每个分区内进行order by。