zoukankan      html  css  js  c++  java
  • [转]SQLSERVER数据存储内幕

    版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。http://alligator.blog.51cto.com/36993/79685

      SQLSERVER数据库中数据如何存储是SQLSERVER数据库核心的知识,同时网络上相关的参考资料也比较少!近段时间通过学习相关知识,将自己对SQLSERVER数据库在数据存储方面的理解整理下来,一方面希望能加深自己的印象,另一方面也希望能给其他的朋友提供相关的参考!
    一:存储文件类型
    SQLSERVER有两种数据存储文件,分别是数据文件和日志文件。
    其中:数据文件是以8K(=8192Byte)的页面(Page)作为存储单元的。
    而日志文件是以日志记录作为存储单元。

    本文只讨论数据文件的存储方式,不涉及到日志文件存储方式。

    数据文件以页面做为存储单元存储数据,要理解数据文件的存储方式,必须了解SQLSERVER中定义的页面类型种类。
    二:页面类型
       SQLSERVER中页面类型有8种,具体每种类型的详细说明,见下图:
    image

    用户的数据一般存放在数据页面中,由上图可以看出,数据页包含数据行中除 text、ntext 和 image 数据外的所有数据,text、ntext 和 image 数据存储在单独的页中。那么在一个数据页面中,数据是如何存放,SQLSERVER又是根据什么来定位页面与页面上的数据呢。要回答这个问题,有必要先了解数据页面的具体结构。

    三:数据页面结构

    在数据页上,数据行紧接着页首按顺序放置。在页尾有一个行偏移表。在行偏移表中,页上的每一行都有一个条目,每个条目记录那一行的第一个字节与页首的距离。行偏移表中的条目序列与页中行的序列相反。数据页面结构如下图所示,下面将详细解释

    image

    其中:数据页面页首:96个字节,保存着页面的系统信息,如页的类型、页的可用空间量、拥有页的对象的对象 ID 以及该页面所属于哪个物理文件。
    数据区:对应于上图中所有数据行的总区域,存放真正的数据,是以Slot为单位。一个Slot就是对应于一条数据记录行,从0开始编号,以16进制反序保存,Slot0,  Slot1....。
    行偏移数组:用于记录该数据页面中每个Slot在数据页面所处的相对位置,便于定位和检索每个Slot在数据页面中的位置,数组中每个记录占两个字节。

    四:存储分配单位:盘区(扩展 Extend)
    虽然SQLSERVER中数据文件存储单位是页面(Page),但实际SQLSERVE并不是为页面为单位给数据分配空间,SQLSERVER默认的存储分配单位是盘区。这样做的主要原因是为了提高性能。为了避免频繁的读写IO,在表或其它对象分配存储空间,不是直接分配一个8K的页面,而是以一个盘区(Extend)为存储分配单位,一个盘区为8个页面(=8*8K=64K)。

    但是这样做虽然减少了频繁的IO读写,提高的数据库性能,但却导致出一个新问题,那就是在存储那些只有少量数据,不足8K的对象,如果也是分配给一个盘区,就会存在存储空间上的浪费,降低了空间分配效率。

    为解决上述问题,SQLSERVER提供了一种解决方案,定义了两种盘区类型,统一盘区和混合盘区。
    其中:统一盘区只能存放同一个对象,该对象拥有这个盘区的所有页面
    混合盘区:由多个对象共同拥有该盘区。
    在实际为对象分配存储盘区时,为了提高空间利用率,默认的情况下,如果一个对象一开始大小小于8个页面,就尽量放在混合盘区中,如果该对象大小增加到8个页面后,SQLSERVER会为这个对象重新分配一个统一盘区。

    为了能够通过上述策略来实现为对象分配存储盘区,SQLSERVER提供了GAM/SGAM机制来管理和维护数据文件的盘区信息。

    其中:

    • 全局分配映射表 (GAM)

    GAM 页记录已分配的盘区,包括统一盘区和混合盘区。每个GAM 包含 64,000 个盘区,将近 4 GB 的数据。GAM 对所涵盖区间内的每个盘区都有一位。如果这个位是 1,则盘区未分配(可用);如果这个位是 0,则盘区已分配。

    • 共享全局分配映射表 (SGAM)

    SGAM 页只记录混合盘区,这些盘区当前用作混合盘区而且至少有一个未使用的页。每个 SGAM 包含 64,000 个扩展盘区,将近 4 GB 的数据。SGAM 对所涵盖区间内的每个扩展盘区都有一位。如果这个位是 1,则该扩展盘区就用作混合扩展盘区且有可用的页;如果这个位是 0,则该扩展盘区不用作混合扩展盘区,或者虽然用作混合扩展盘区但其所有页都正在使用中。

    根据扩展盘区的当前使用情况,每个扩展盘区在 GAM 和 SGAM 中有以下位模式设置。

    image

    通过这样的策略简化了盘区管理算法。若要分配统一盘区,SQL Server 在 GAM 中搜索是 1 的位,然后将它设成 0。若要查找有可用页的混合盘区,SQL Server 在 SGAM 中搜索是 1 的位。若要分配混合盘区,SQL Server 在 GAM 中搜索是 1 的位,并将它设置为 0,然后将 SGAM 中相应的位也设置为 1。若要释放盘区,SQL Server 应确保 GAM 位设置为 1 而且 SGAM 位设置为 0。SQL Server 内部实际使用的算法比这里叙述的算法要复杂(SQL Server 在数据库中均匀分布数据),,但道理大致如此。

    五:查看实际的数据页面信息

    数据存储相关的知识大致如上所述,理论性较强,但我们可以通过未公开的DBCC命令,直接查看某个数据页面的内容,得到直观上的数据存储信息。
    具体是通过使用DBCC命令:DBCC PAGE.
    简单的使用例子如下:
       //查看数据页面的内容的方法
    --打开查看数据页面的开关
        dbcc traceon(3604) //打开跟踪标记
        dbcc Page(northwind,1,100,1) //打开northwind数据库,第101个页面的信息

    至于如何通过DBCC PAGE命令查看某个页面信息,以及页面信息如何查看,请参考以下链接:

    http://boyi55.blog.51cto.com/4345/26959

    本文出自 “我儿子真帅!” 博客,请务必保留此出处http://alligator.blog.51cto.com/36993/79685

  • 相关阅读:
    “老人之心”
    封装,策略模式,Asp换脸
    简单随机
    “辜新星”
    储存出题改进
    git
    读“徐宥”
    太白非技术类随笔(猛击这里!!!)
    python_模块
    python_day7学习笔记
  • 原文地址:https://www.cnblogs.com/laoyumi/p/1564526.html
Copyright © 2011-2022 走看看