zoukankan      html  css  js  c++  java
  • SQL索引一步到位

    本文转自 :SQL索引一步到位

    SQL索引在数据库优化中占有一个非常大的比例, 一个好的索引的设计,可以让你的效率提高几十甚至几百倍,在这里将带你一步步揭开他的神秘面纱。

      1.1 什么是索引?

      SQL索引有两种,聚集索引和非聚集索引,索引主要目的是提高了SQL Server系统的性能,加快数据的查询速度与减少系统的响应时间 

    下面举两个简单的例子:

    图书馆的例子:一个图书馆那么多书,怎么管理呢?建立一个字母开头的目录,例如:a开头的书,在第一排,b开头的在第二排,这样在找什么书就好说了,这个就是一个聚集索引,可是很多人借书找某某作者的,不知道书名怎么办?图书管理员在写一个目录,某某作者的书分别在第几排,第几排,这就是一个非聚集索引

    字典的例子:字典前面的目录,可以按照拼音和部首去查询,我们想查询一个字,只需要根据拼音或者部首去查询,就可以快速的定位到这个汉字了,这个就是索引的好处,拼音查询法就是聚集索引,部首查询就是一个非聚集索引.

        看了上面的例子,下面的一句话大家就很容易理解了:聚集索引存储记录是物理上连续存在,而非聚集索引是逻辑上的连续,物理存储并不连续。就像字段,聚集索引是连续的,a后面肯定是b,非聚集索引就不连续了,就像图书馆的某个作者的书,有可能在第1个货架上和第10个货架上。还有一个小知识点就是:聚集索引一个表只能有一个,而非聚集索引一个表可以存在多个。

    1.2 索引的存储机制

        首先,无索引的表,查询时,是按照顺序存续的方法扫描每个记录来查找符合条件的记录,这样效率十分低下,举个例子,如果我们将字典的汉字随即打乱,没有前面的按照拼音或者部首查询,那么我们想找一个字,按照顺序的方式去一页页的找,这样效率有多底,大家可以想象。

           聚集索引和非聚集索引的根本区别是表记录的排列顺序和与索引的排列顺序是否一致,其实理解起来非常简单,还是举字典的例子:如果按照拼音查询,那么都是从a-z的,是具有连续性的,a后面就是b,b后面就是c, 聚集索引就是这样的,他是和表的物理排列顺序是一样的,例如有id为聚集索引,那么1后面肯定是2,2后面肯定是3,所以说这样的搜索顺序的就是聚集索引。非聚集索引就和按照部首查询是一样是,可能按照偏房查询的时候,根据偏旁‘弓’字旁,索引出两个汉字,张和弘,但是这两个其实一个在100页,一个在1000页,(这里只是举个例子),他们的索引顺序和数据库表的排列顺序是不一样的,这个样的就是非聚集索引。

          原理明白了,那他们是怎么存储的呢?在这里简单的说一下,聚集索引就是在数据库被开辟一个物理空间存放他的排列的值,例如1-100,所以当插入数据时,他会重新排列整个整个物理空间,而非聚集索引其实可以看作是一个含有聚集索引的表,他只仅包含原表中非聚集索引的列和指向实际物理表的指针。他只记录一个指针,其实就有点和堆栈差不多的感觉了

    1.3 什么情况下设置索引 


    建立索引的原则:

    1) 定义主键的数据列一定要建立索引。

    2) 定义有外键的数据列一定要建立索引。

    3) 对于经常查询的数据列最好建立索引。

    4) 对于需要在指定范围内的快速或频繁查询的数据列;

    5) 经常用在WHERE子句中的数据列。

    6) 经常出现在关键字order by、group by、distinct后面的字段,建立索引。如果建立的是复合索引,索引的字段顺序要和这些关键字后面的字段顺序一致,否则索引不会被使用。

    7) 对于那些查询中很少涉及的列,重复值比较多的列不要建立索引。

    8) 对于定义为textimagebit的数据类型的列不要建立索引。

    9) 对于经常存取的列避免建立索引 

    9) 限制表上的索引数目。对一个存在大量更新操作的表,所建索引的数目一般不要超过3个,最多不要超过5个。索引虽说提高了访问速度,但太多索引会影响数据的更新操作。

    10) 对复合索引,按照字段在查询条件中出现的频度建立索引。在复合索引中,记录首先按照第一个字段排序。对于在第一个字段上取值相同的记录,系统再按照第二个字段的取值排序,以此类推。因此只有复合索引的第一个字段出现在查询条件中,该索引才可能被使用,因此将应用频度高的字段,放置在复合索引的前面,会使系统最大可能地使用此索引,发挥索引的作用。

     

      1.4 如何创建索引

      1.41 创建索引的语法:

    CREATE [UNIQUE][CLUSTERED | NONCLUSTERED]  INDEX  index_name  

    ON {table_name | view_name} [WITH [index_property [,....n]]

    说明:

    UNIQUE: 建立唯一索引。

    CLUSTERED: 建立聚集索引。

    NONCLUSTERED: 建立非聚集索引。

    Index_property: 索引属性。

     UNIQUE索引既可以采用聚集索引结构,也可以采用非聚集索引的结构,如果不指明采用的索引结构,则SQL Server系统默认为采用非聚集索引结构。

    1.42 删除索引语法:

    DROP INDEX table_name.index_name[,table_name.index_name]

    说明:table_name: 索引所在的表名称。

    index_name : 要删除的索引名称。

    1.43 显示索引信息:

    使用系统存储过程:sp_helpindex 查看指定表的索引信息。

    执行代码如下:

    Exec sp_helpindex book1;

     

      1.5 索引使用次数、索引效率、占用CPU检测、索引缺失

      当我们明白了什么是索引,什么时间创建索引以后,我们就会想,我们创建的索引到底效率执行的怎么样?好不好?我们创建的对不对?

      首先我们来认识一下DMV,DMV (dynamic management view)动态管理视图和函数返回特定于实现的内部状态数据。推出SQL Server 2005时,微软介绍了许多被称为dmvs的系统视图,让您可以探测SQL Server 的健康状况,诊断问题,或查看SQL Server实例的运行信息。统计数据是在SQL Server运行的时候开始收集的,并且在SQL Server每次启动的时候,统计数据将会被重置。当你删除或者重新创建其组件时,某些dmv的统计数据也可以被重置,例如存储过程和表,而其它的dmv信息在运行dbcc命令时也可以被重置。

      当你使用一个dmv时,你需要紧记SQL Server收集这些信息有多长时间了,以确定这些从dmv返回的数据到底有多少可用性。如果SQL Server只运行了很短的一段时间,你可能不想去使用一些dmv统计数据,因为他们并不是一个能够代表SQL Server实例可能遇到的真实工作负载的样本。另一方面,SQL Server只能维持一定量的信息,有些信息在进行SQL Server性能管理活动的时候可能丢失,所以如果SQL Server已经运行了相当长的一段时间,一些统计数据就有可能已被覆盖。

      因此,任何时候你使用dmv,当你查看从SQL Server 2005dmvs返回的相关资料时,请务必将以上的观点装在脑海中。只有当你确信从dmvs获得的信息是准确和完整的,你才能变更数据库或者应用程序代码。

    下面就看一下dmv到底能带给我们那些好的功能呢?

    1.51 索引使用次数

    我们下看一下下面两种查询方式返回的结果(这两种查询的查询用途一致)

    ----

    declare @dbid int
    
    select @dbid = db_id()
    
    select objectname=object_name(s.object_id), s.object_id, indexname=i.name, i.index_id
    
                , user_seeks, user_scans, user_lookups, user_updates
    
    from sys.dm_db_index_usage_stats s,
    
                sys.indexes i
    
    where database_id = @dbid and objectproperty(s.object_id,'IsUserTable') = 1
    
    and i.object_id = s.object_id
    
    and i.index_id = s.index_id
    
    order by (user_seeks + user_scans + user_lookups + user_updates) asc


    返回查询结果


    ②:使用多的索引排在前面

    SELECT  objects.name ,
    
            databases.name ,
    
            indexes.name ,
    
            user_seeks ,
    
            user_scans ,
    
            user_lookups ,
    
            partition_stats.row_count
    
    FROM    sys.dm_db_index_usage_stats stats
    
            LEFT JOIN sys.objects objects ON stats.object_id = objects.object_id
    
            LEFT JOIN sys.databases databases ON databases.database_id = stats.database_id
    
            LEFT JOIN sys.indexes indexes ON indexes.index_id = stats.index_id
    
                                             AND stats.object_id = indexes.object_id
    
            LEFT  JOIN sys.dm_db_partition_stats partition_stats ON stats.object_id = partition_stats.object_id
    
                                                                  AND indexes.index_id = partition_stats.index_id
    
    WHERE   1 = 1
    
    --AND databases.database_id = 7
    
            AND objects.name IS NOT NULL
    
            AND indexes.name IS NOT NULL
    
            AND user_scans>0
    
    ORDER BY user_scans DESC ,
    
            stats.object_id ,
    
            indexes.index_id

    返回查询结果



    user_seeks : 通过用户查询执行的搜索次数。 
     个人理解: 此统计索引搜索的次数

    user_scans: 通过用户查询执行的扫描次数。 
      个人理解:此统计表扫描的次数,无索引配合
    user_lookups: 通过用户查询执行的查找次数。 
     个人理解:用户通过索引查找,在使用RID或聚集索引查找数据的次数,对于堆表或聚集表数据而言和索引配合使用次数
    user_updates:  通过用户查询执行的更新次数。 
      个人理解:索引或表的更新次数

    我们可以清晰的看到,那些索引用的多,那些索引没用过,大家可以根据查询出来的东西去分析自己的数据索引和表

    1.52 索引提高了多少性能

    新建了索引到底增加了多少数据的效率呢?到底提高了多少性能呢?运行如下SQL可以返回连接缺失索引动态管理视图,发现最有用的索引和创建索引的方法: 

    SELECT  
    
    avg_user_impact AS average_improvement_percentage,  
    
    avg_total_user_cost AS average_cost_of_query_without_missing_index,  
    
    'CREATE INDEX ix_' + [statement] +  
    
    ISNULL(equality_columns, '_') + 
    
    ISNULL(inequality_columns, '_') + ' ON ' + [statement] +  
    
    ' (' + ISNULL(equality_columns, ' ') +  
    
    ISNULL(inequality_columns, ' ') + ')' +  
    
    ISNULL(' INCLUDE (' + included_columns + ')', '')  
    
    AS create_missing_index_command 
    
    FROM sys.dm_db_missing_index_details a INNER JOIN  
    
    sys.dm_db_missing_index_groups b ON a.index_handle = b.index_handle 
    
    INNER JOIN sys.dm_db_missing_index_group_stats c ON  
    
    b.index_group_handle = c.group_handle 
    
    WHERE avg_user_impact > = 40

    返回结果


    虽然用户能够修改性能提高的百分比,但以上查询返回所有能够将性能提高40%或更高的索引。你可以清晰的看到每个索引提高的性能和效率了

    1.53 :最占用CPU、执行时间最长命令

    这个和索引无关,但是还是在这里提出来,因为他也属于DMV带给我们的功能吗,他可以让你轻松查询出,那些sql语句占用你的cpu最高

    SELECT TOP 100 execution_count,
    
               total_logical_reads /execution_count AS [Avg Logical Reads],
    
               total_elapsed_time /execution_count AS [Avg Elapsed Time],
    
                    db_name(st.dbid) as [database name],
    
               object_name(st.dbid) as [object name],
    
               object_name(st.objectid) as [object name 1],
    
               SUBSTRING(st.text, (qs.statement_start_offset / 2) + 1, 
    
               ((CASE statement_end_offset WHEN - 1 THEN DATALENGTH(st.text) ELSE qs.statement_end_offset END - qs.statement_start_offset) 
    
                 / 2) + 1) AS statement_text
    
      FROM sys.dm_exec_query_stats AS qs CROSS APPLY sys.dm_exec_sql_text(qs.sql_handle) AS st
    
     WHERE execution_count > 100
    
     ORDER BY 1 DESC;

    返回结果:

     

    执行时间最长的命令

    SELECT TOP 10 COALESCE(DB_NAME(st.dbid),
    
    DB_NAME(CAST(pa.value as int))+'*',
    
    'Resource') AS DBNAME,
    
    SUBSTRING(text,
    
    -- starting value for substring
    
            CASE WHEN statement_start_offset = 0
    
    OR statement_start_offset IS NULL
    
    THEN 1
    
    ELSE statement_start_offset/2 + 1 END,
    
    -- ending value for substring
    
            CASE WHEN statement_end_offset = 0
    
    OR statement_end_offset = -1
    
    OR statement_end_offset IS NULL
    
    THEN LEN(text)
    
    ELSE statement_end_offset/2 END -
    
    CASE WHEN statement_start_offset = 0
    
    OR statement_start_offset IS NULL
    
    THEN 1
    
    ELSE statement_start_offset/2  END + 1
    
    )  AS TSQL,
    
    total_logical_reads/execution_count AS AVG_LOGICAL_READS
    
    FROM sys.dm_exec_query_stats
    
    CROSS APPLY sys.dm_exec_sql_text(sql_handle) st
    
    OUTER APPLY sys.dm_exec_plan_attributes(plan_handle) pa
    
    WHERE attribute = 'dbid'
    
    ORDER BY AVG_LOGICAL_READS DESC ;


     

     

    看到了吗?直接可以定位到你的sql语句,优化去吧。还等什么呢?

    1.54:缺失索引

    缺失索引就是帮你查找你的数据库缺少什么索引,告诉你那些字段需要加上索引,这样你就可以根据提示添加你数据库缺少的索引了

    SELECT TOP 10
    
    [Total Cost] = ROUND(avg_total_user_cost * avg_user_impact * (user_seeks + user_scans),0)
    
    , avg_user_impact
    
    , TableName = statement
    
    , [EqualityUsage] = equality_columns
    
    , [InequalityUsage] = inequality_columns
    
    , [Include Cloumns] = included_columns
    
    FROM    sys.dm_db_missing_index_groups g
    
    INNER JOIN sys.dm_db_missing_index_group_stats s
    
    ON s.group_handle = g.index_group_handle
    
    INNER JOIN sys.dm_db_missing_index_details d
    
    ON d.index_handle = g.index_handle
    
    ORDER BY [Total Cost] DESC;

    查询结果如下:

     

     

     

      1.6  适当创建索引覆盖

      假设你在Sales(SelesID,SalesDate,SalesPersonID,ProductID,Qty)的外键列(ProductID)上创建了一个索引,假设ProductID列是一个高选中性列,那么任何在where子句中使用索引列(ProductID)select查询都会更快,如果在外键上没有创建索引,将会发生全部扫描,但还有办法可以进一步提升查询性能。

      假设Sales表有10,000行记录,下面的SQL语句选中400(总行数的4%): 

    SELECT SalesDate, SalesPersonID FROM Sales WHERE ProductID = 112

      我们来看看这条SQL语句在SQL执行引擎中是如何执行的:

      1)Sales表在ProductID列上有一个非聚集索引,因此它查找非聚集索引树找出ProductID=112的记录;

      2)包含ProductID = 112记录的索引页也包括所有的聚集索引键(所有的主键键值,即SalesID);

      3)针对每一个主键(这里是400)SQL Server引擎查找聚集索引树找出真实的行在对应页面中的位置;

      SQL Server引擎从对应的行查找SalesDateSalesPersonID列的值。

      在上面的步骤中,对ProductID = 112的每个主键记录(这里是400)SQL Server引擎要搜索400次聚集索引树以检索查询中指定的其它列(SalesDateSalesPersonID)

      如果非聚集索引页中包括了聚集索引键和其它两列(SalesDate,SalesPersonID)的值,SQL Server引擎可能不会执行上面的第34步,直接从非聚集索引树查找ProductID列速度还会快一些,直接从索引页读取这三列的数值。

      幸运的是,有一种方法实现了这个功能,它被称为覆盖索引,在表列上创建覆盖索引时,需要指定哪些额外的列值需要和聚集索引键值(主键)一起存储在索引页中。下面是在Sales ProductID列上创建覆盖索引的例子: 

    CREATE INDEX NCLIX_Sales_ProductID--Index name

      ON dbo.Sales(ProductID)--Column on which index is to be created
      INCLUDE(SalesDate, SalesPersonID)--Additional column values to include

      应该在那些select查询中常使用到的列上创建覆盖索引,但覆盖索引中包括过多的列也不行,因为覆盖索引列的值是存储在内存中的,这样会消耗过多内存,引发性能下降。

      

    1.7 索引碎片

    在数据库性能优化一:数据库自身优化一文中已经讲到了这个问题,再次就不做过多的重复地址:http://blog.csdn.net/xintingandzhouyang/article/details/45022917


  • 相关阅读:
    从头带你撸一个Springboot Starter
    Spring Cache 带你飞(二)
    2021年终总结
    数据中台(介绍篇)
    NetCore实现全局模型绑定异常信息统一处理
    [源码解析] PyTorch 分布式之弹性训练(2)启动&单节点流程
    [源码解析] PyTorch 分布式(18) 使用 RPC 的分布式管道并行
    [源码解析] PyTorch 分布式之弹性训练(1) 总体思路
    [源码解析] PyTorch 分布式之弹性训练(3)代理
    [源码解析] PyTorch 分布式之弹性训练(5)Rendezvous 引擎
  • 原文地址:https://www.cnblogs.com/xinting/p/12536167.html
Copyright © 2011-2022 走看看