数据库分区是一种物理数据库设计技术。其主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减sql语句的响应时间,同时对于应用来说分区完全是透明的。
分区的作用:数据库性能的提升和简化数据管理。
在扫描操作中MySQL优化器只扫描数据的那个分区以减少扫描范围获得性能的提高。分区技术使得数据管理变得简单,删除某个分区不会对另外的分区造成影响。MySQL从5.1版本开始支持分区,同个表中的分区表名称要唯一。
MYSQL的分区形式,主要有两种形式:水平分区和垂直分区。
一、水平分区(按行分)
这种形式的分区是根据表的行进行分区,通过这样的方式不同分组里面的物理列分割的数据集得以组合,从而进行个体分割(单分区)或集体分割(1个或多个分区)。所有在表中定义的列在每个数据集中都能找到,所以表的特性依然得以保持。水平分区一定要通过某个属性列来分割。常见的比如年份,日期等。
水平分区:根据列属性按行分。
举个简单例子:一个包含十年发票记录的表可以被分区为十个不同的分区,每个分区包含的是其中一年的记录。
水平分区的模式:
Range(范围) – 这种模式允许DBA将数据划分不同范围。例如DBA可以将一个表通过年份划分成三个分区,80年代(1980's)的数据,90年代(1990's)的数据以及任何在2000年(包括2000年)后的数据。
Hash(哈希) – 这种模式允许DBA通过对表的一个或多个列的Hash Key进行计算,最后通过这个Hash码不同数值对应的数据区域进行分区。例如DBA可以建立一个对表主键进行分区的表。
Key(键值) – Hash模式的一种延伸,这里的Hash Key是MySQL系统产生的。
List(预定义列表) – 这种模式允许系统通过DBA定义的列表的值所对应的行数据进行分割。例如:DBA建立了一个横跨三个分区的表,分别根据2004年2005年和2006年值所对应的数据。
Composite(复合模式) - 其实是以上模式的组合使用而已,就不解释了。举例:在初始化已经进行了Range范围分区的表上,我们可以对其中一个分区再进行hash哈希分区。
二、垂直分区(按列分)
这种分区方式一般来说是通过对表的垂直划分来减少目标表的宽度,使某些特定的列被划分到特定的分区,每个分区都包含了其中的列所对应所有行。
举个简单例子:一个包含了大text和BLOB列的表,这些text和BLOB列又不经常被访问,这时候就要把这些不经常使用的text和BLOB了划分到另一个分区,在保证它们数据相关性的同时还能提高访问速度。
也就是说把经常使用的信息做一张表,不经常使用的信息做另外一张表。
三、分区实验与结论
分区实验:
1、分区和未分区占用文件空间大致相同 (数据和索引文件)
2、如果查询语句中有未建立索引字段,分区时间远远优于未分区时间
3、如果查询语句中字段建立了索引,分区和未分区的差别缩小,分区略优于未分区。
结论建议:
1、对于大数据量,建议使用分区功能。
2、去除不必要的字段。
3、根据手册, 增加myisam_max_sort_file_size 会增加分区性能(mysql重建索引时允许使用的临时文件最大大小)。
其他具体如何分区的功能可以看这篇文章:MySQL的分区表(Partitioned Table)功能详解