zoukankan      html  css  js  c++  java
  • Redis设计与实现第一部分:第2章:简单动态字符串SDS

      Redis没有直接使用C语言传统的字符串表示(以空字符结尾的字符数组),而是自己构建了一种名为简单动态字符串(SDS)的抽象类型,并将SDS用作Redis的默认字符串表示。

      Redis不是不用C字符串,而是只是会用到i一些无需对字符串值进行修改的地方,例如,打印日志:

       rediLog("REDIS_WARNING","Redis is now ready to exit,bye bye..."); 

      在Redis里面,C字符串只会作为字符串字面量(string literal)用在一些无需对字符串值进行修改的地方。但Redis需要的不仅仅是一个字符串字面量,而是一个可以被修改的字符串值时,Redis就会使用SDS来标识字符串值,比如在Redis数据库里面,包含字符串值的键值对的底层就是使用SDS实现的

      SDS的用途:

      1.用来保存数据库中的字符串值。

      

      上面图片的键和值都是字符串对象,对象的底层实现就是一个包含着对应字符串的SDS.

      

      上述图片的键是一个字符串对象,对象的底层实现就是一个包含“fruits”的字符串对象。

      值位一个列表对象,列表对象又包含了7个字符串对象,每个字符串对象也都是由SDS实现的。

      2.SDS被用作缓冲区(buffer):AOF模块中的AOF缓冲区,以及客户端状态中的输入缓冲区,都是使用SDS实现的。

      SDS的定义:每个sds.h/sdshdr表示一个SDS值

    struct sdshdr{
    //记录buf数组中已使用字节的数量 //等于SDS所保存字符串的长度 int len; //记录buf数组中未使用字节的数量 int free; //字节数组,用于保存字符串 char buf[]; }

      SDS示例:

      

      根据SDS的定义,上述示例:

      1. free属性值为0,表示这个SDS没有分配任何未使用空间;

      2. len属性值为5,表示这个SDS保存了一个5字节长的字符串。

      3. buf属性是一个char类型的数组,前5个字节分别保存了redis五个字节,最后一个字节保存了一个空字符串  

      SDS遵循以空字符串结尾的惯例保存空字符串的1字节空间不计算在SDS的len属性值里面,但是会为空字符串额外分配一个字节空间,为每个SDS分配这个额外的1字节空间

      的操作是由SDS的函数进行的。

      为什么要遵循以空字符串结尾的这一惯例呢,因为这样的话SDS可以直接重用一部分C字符串函数库里面呢函数。

      SDS与C字符串的区别(解释为什么Redis要使用SDS而不是C字符串):

      首先,C字符串并不能满足Redis对字符串在安全性以及功能方面的要求。

      下面使它们之间的区别:

      1.常数复杂度获取字符串长度

        由于C字符串并不记录自身的长度信息,所以获取C字符串长度的操作的时间复杂度为O(N);SDS在len属性中记录了长度,所以时间复杂度为O(1);这确保了获取字符串长度的工作不会成为Redis的性能瓶颈。所以即使对一个非常长的字符串键反复执行STRLEN命令,也不会对性能有任何的影响,因为STRLEN命令的复杂度仅为O(1)。

        备注:设置和更新SDS长度的工作是由SDS的API在执行时自动完成的,使用SDS无须进行任何手动修改长度的工作。

      2.杜绝缓冲区溢出

        C字符串不记录自身长度带来的问题是造成缓冲区溢出(buffer overflow)。

        SDS的空间分配策略完全杜绝了缓冲区溢出的可能性:当SDS API需要对SDS进行修改时,API会检查SDS的空间是否满足修改所需要的要求,如果不满足的话,API会自动将SDS的空间扩展至需要的大小,然后才执行实际的修改操作。

      3.减少修改字符串时带来的内存重新分配次数

      SDS空间分配策略:

        1.如果程序执行的是增长字符串的操作,比如拼接操作(append),在执行之前,程序需要通过内存重分配扩展底层数组的空间大小,如果忘了就会导致内存溢出。

        2.如果程序执行的缩短字符串的操作,比如截断操作(trim),在执行之后,程序需要通过内存重分配释放字符串不再使用的那部分空间,如果忘了就会导致内存泄漏。

      因为内存重分配涉及到复杂的算法,甚至可能需要执行系统调用,所以它是一个比较耗时的操作:

      1. 在一般的程序中,如果修改字符串长度的情况不太出现,那么每次修改都执行一次内存重新分配操作是可以接受的;

      2. 但是Redis作为数据库,经常被用于速度要求严苛、数据频繁修改的场合,如果每次修改字符串的长度都需要执行一次内存重分配的话,那么光是执行内存重分配的时间就会占去修改字符串所用时间的一大部分,如果这种操作频繁的话,就会对性能造成影响。

      故SDS通过未使用空间,实现了空间预分配和惰性空间释放两种优化策略。

      在SDS中,buf数组长度不一定就是字符串数量+1,数组里面还可以包含未使用的字节,而这些未使用的字节的数量就是有SDS的free属性记录。

        1.空间预分配:

          用于优化SDS的字符串增长操作。当SDS的一个API对一个SDS进行修改,并且需要对SDS进行空间扩展的时候,程序不仅会为SDS分配修改所必须要的空间,还会为SDS分配额外的未使用空间。

          其中,额外分配的未使用空间的数量由以下公式决定:

          1. 如果对SDS修改之后,SDS的长度(len属性值)小于1MB,那么程序分配和len属性值相同大小的未使用空间,这时len属性值和free属性值大小相等。

          2. 如果对SDS修改之后,SDS的长度大于1MB,那么程序会分配1MB的未使用空间;

          通过空间预分配策略,Redis可以减少连续执行字符串增长操作所需要的内存重分配次数。

        在扩展SDS使用空间的时候,不是说每次增长操作都会为free属性分配空间,SDS API会先检查未使用空间是否足够,如果足够的话,API会直接使用未使用空间,而无须执行内存重分配。

        2.惰性空间释放

          用于优化SDS字符串的缩短操作。当SDS的API需要缩短SDS保存的字符串时,程序不会立即使用内存充分配来收回缩短后多出来的字节,而是使用free属性将这些字节的数量记录起来,并等待将来使用。

          通过惰性空间释放策略,SDS避免了缩短字符串时所需的内存重分配操作,并未将来有可能的增长操作提供了优化。

        备注:与此同时,SDS也提供了相应的API,让我们可以在有需要时,真正释放SDS的未使用空间,所以完全不用担心惰性空间释放策略会造成内存浪费。

      4.二进制安全

        C字符串中的字符必须符合某种编码(如ASCII),并且处理字符串的末尾之外,字符串里面不能包含空字符,否则最先被程序读入的空字符会被误认为是字符串结尾。这样限制使得C字符串只能包含文本数据,不能保存像图片、音频、视频、压缩文件等二进制数据。

        Redis为了确保可以适用于各种不同的使用场景,SDS的API都是二进制安全的,所有的SDS API都会以处理二进制的方式来处理SDS存放在buf数组的数据,程序不会对其中的数据做任何的限制、过滤。

        虽然SDS的API都是二进制安全的,但它们一样遵循C字符串以空字符结尾的惯例,SDS的API会将SDS保存的数据的末尾设置为空字符,并且总会在为buf数组分配空间时多分配一个字节来容纳这个空字符,这有利于Redis可以重用C <String.h>库定义的函数。

        C字符串和SDS之间的区别总结

      C字符串 SDS
    1 获取字符串长度的时间复杂度为O(N) 获取字符串长度的时间复杂度为O(1)
    2 API是不安全的,可能会造成缓冲区溢出 API是安全的,不会造成缓冲区溢出。
    3 修改字符串长度N次必然需要执行N此内存分配 修改字符串长度N次最多需要执行N次内存分配
    4 只能保存文本数据 可以保存文本数据和二进制数据
    5 可以使用<string.h>库中的函数 可以使用一部分<string.h>库中的函数
  • 相关阅读:
    poj 1088 滑雪
    位运算与bitset
    hdu 4607 Park Visit
    树的直径
    codeforces 495D Sonya and Matrix
    German Collegiate Programming Contest 2015(第三场)
    BAPC 2014 Preliminary(第一场)
    Benelux Algorithm Programming Contest 2014 Final(第二场)
    E. Reachability from the Capital(tarjan+dfs)
    poj2104 K-th Number(划分树)
  • 原文地址:https://www.cnblogs.com/luoshengjie/p/10184973.html
Copyright © 2011-2022 走看看