高性能索引（1）

zoukankan html css js c++ java

高性能索引（1）
　　索引（也叫做“键（key）”）是存储引擎用于快速找到记录的一种数据结构。索引对于良好的性能非常关键，尤其是当表中的数据量非常大时。索引可以包含一个或者多个列的值。如果索引包含多个列，那么列的顺序十分重要，因为MySQL只能使用索引的最左前缀列。

1.索引的创建和删除

　　在执行CREATE TABLE语句时可以创建索引，也可以单独用CREATE INDEX或ALTER TABLE来为表增加索引。
　　ALTER TABLE用来创建普通索引、UNIQUE索引或PRIMARY KEY索引的实例如下：
ALTER TABLE table_name ADD INDEX index_name (column_list) ALTER TABLE table_name ADD UNIQUE (column_list) ALTER TABLE table_name ADD PRIMARY KEY (column_list)

View Code
　　其中table_name是要增加索引的表名，column_list指出对哪些列进行索引，多列时各列之间用逗号分隔。索引名index_name可选，缺省时，MySQL将根据第一个索引列赋一个名称。另外，ALTER TABLE允许在单个语句中更改多个表，因此可以在同时创建多个索引。
　　CREATE INDEX可对表增加普通索引或UNIQUE索引。
CREATE INDEX index_name ON table_name (column_list) CREATE UNIQUE INDEX index_name ON table_name (column_list)

View Code
　　table_name、index_name和column_list具有与ALTER TABLE语句中相同的含义，索引名不可选。另外，不能用CREATE INDEX语句创建PRIMARY KEY索引。
　　在创建索引时，可以规定索引能否包含重复值。如果不包含，则索引应该创建为PRIMARY KEY或UNIQUE索引。对于单列惟一性索引，这保证单列不包含重复的值。对于多列惟一性索引，保证多个值的组合不重复。PRIMARY KEY索引和UNIQUE索引非常类似。事实上，PRIMARY KEY索引仅是一个具有名称PRIMARY的UNIQUE索引。这表示一个表只能包含一个PRIMARY KEY，因为一个表中不可能具有两个同名的索引。下面的SQL语句对students表在sid上添加PRIMARY KEY索引。
ALTER TABLE students ADD PRIMARY KEY (sid)

View Code
　　可利用ALTER TABLE或DROP INDEX语句来删除索引。类似于CREATE INDEX语句，DROP INDEX可以在ALTER TABLE内部作为一条语句处理，语法如下。
DROP INDEX index_name ON talbe_name ALTER TABLE table_name DROP INDEX index_name ALTER TABLE table_name DROP PRIMARY KEY

View Code
　　其中，前两条语句是等价的，删除掉table_name中的索引index_name。第3条语句只在删除PRIMARY KEY索引时使用，因为一个表只可能有一PRIMARY KEY索引，因此不需要指定索引名。如果没有创建PRIMARY KEY索引，但表具有一个或多个UNIQUE索引，则MySQL将删除第一个UNIQUE索引。如果从表中删除了某列，则索引会受到影响。对于多列组合的索引，如果删除其中的某列，则该列也会从索引中删除。如果删除组成索引的所有列，则整个索引将被删除。

2.索引的类型

　　在MySql中索引是在存储引擎层实现，所以并没有统一的索引标准：不同的存储引擎的索引工作方式不一样。

2.1 B-Tree索引

　　B-Tree索引使用B-Tree数据结构来存储数据。实际上在很多存储引擎使用的是B+Tree（每一个叶子节点都包含指向下一个叶子节点的指针，从而方便叶子节点的范围查询）。不同的存储引擎以不同的方式使用B-Tree索引，MyISAM使用前缀压缩技术使索引更小，但InnoDB则按照原数据格式进行存储。MyISAM索引通过数据的物理位置引用被索引的行，而InnoDB则根据主键引用被索引的行。

　　B-Tree索引通常意味着所有值都是按顺序存储点，并且每一个叶子节点到跟的距离相同。下图反应了InnoDB的索引是如何工作的。

　　B-Tree索引能够加快访问数据的速度，因为存储引擎不再需要进行全表扫描来获取需要的数据。B-Tree索引对列是顺序组织的，所以很适合范围查询。如下数据表：
CREATE TABLE Peaple ( last_name VARCHAR (50) NOT NULL, first_name VARCHAR (50) NOT NULL, dob DATE NOT NULL, gender ENUM ('m', 'f') NOT NULL, KEY (last_name, first_name, dob) );

View Code
　　其索引是如下图组织数据存储的：

　　索引对多个值进行排序的依据是CREATE TABLE语句中定义索引时列的顺序 B-Tree索引对如下类型的查询有效：
- 全值匹配：指和索引中所有列进行匹配。
- 匹配最左前缀。
- 匹配列前缀：只匹配某一列的值的开头部分。
- 匹配范围值。
- 精确匹配某一列并范围匹配另外一列。
- 只访问索引的查询。
　　索引树中的节点是有序的，除了按值查找外，索引还可以用户查询中的Order BY操作。

　　B-Tree索引使用的限制：
- 如果不是按照索引的最左列开始查找，则无法使用索引。
- 不能跳过索引中的列。
- 如果查询中有某个列的范围查询，则其右边所有列都无法使用索引优化查找。
2.2Hash索引

　　哈希索引基于哈希表实现，只能精确匹配索引所有列的查询才有效。在MySQL中，只有Memory引擎显示支持哈希索引。哈希索引存在以下限制：
- 哈希索引只包含哈希值和行指针，而不存储字段值，所以不能使用索引中的值来避免读取行。
- 哈希索引数据不是按照索引值进行顺序存储的所以无法用于排序。
- 哈希索引不支持部分索引列匹配查找。
- 哈希索引只支持等值比较查询，包括=、IN()、和<==>,不支持任何范围查询。
- 存在哈希冲突现象。
　　InnoDB引擎有一个特殊的“自适应哈希索引”。当InnoDB注意到某些索引值被频繁使用时，它会在内存中基于B-Tree索引之上再创建一个Hash索引。这个行为是完全自动的、内部行为，用户无法配置或者控制，如果有必要可以关闭该功能。

2.3自定义哈希索引

　　如果存储引擎不支持哈希索引，则可以自己定义哈希索引。具体思路是：在B-Tree基础之上创建一个伪哈希索引。这和真正的哈希所用不完全相同，因为还是使用B-Tree进行查找，但是它使用哈希值而不是键本身进行索引查找。你需要做的就是在查询的Where字句中手动指定使用哈希函数。

例如需要存储大量的URL，并需要根据URL进行搜索查找。如果使用B-Tree来存在URL，存储的内容就很大。例如如下查询：
MySql>SELECT id FROM url WHERE url='http://www.mysql.com';

View Code
　　若删除删除原来URL列上的索引，而新增一个被索引的url_crc列，使用CRC32做哈希，就可以使用下面的方式查询:
MySql>SELECT id FROM url WHERE url='http://www.mysql.com' AND url_crc=CRC32('http://www.mysql.com');

View Code
　　对于这种实现的缺陷是需要维护哈希值，哈希值可以使用触发器实现。同时为了处理哈希冲突，当使用哈希索引进行查找时，必须在WHERE子句中包含常量值。

3.索引的优点

　　索引可以让服务器快速定位到表指定的位置，但这不是索引唯一的作用。
- 索引大大减少了服务器需要扫描的数据量
- 索引可以帮助服务器避免排序和临时表
- 索引可以将随机I/O变为顺序I/O
查看全文

相关阅读:
postman: 字符串与数字的转换
 postman：截取字符串字符
 postman：获取txt变量中数据
 postman：参数化外部文件txt、csv、json
postman：全局变量、环境变量、collection模块变量
 windows下更新python报错permission denied
vertica 7.0 使用kafka
Kafka报错-as it has seen zxid 0x83808 our last zxid is 0x0 client must try another server
vertica 8.0 新特性
 mysql source导入报错ERROR 1366的解决方法

原文地址：https://www.cnblogs.com/wxgblogs/p/6212638.html

高性能索引（1）

1.索引的创建和删除

2.索引的类型

2.1 B-Tree索引

2.2Hash索引

2.3自定义哈希索引

3.索引的优点