zoukankan html css js c++ java

Redis进阶三之底层存储数据结构及内存优化

前言

Redis作为高性能缓存中间件，除了拥有高性能的特点之后，相比于其他缓存而言还支持多种数据结构，而如String、List、Set、SortedSet和Hash都是redis对外支持的数据结构，而内部存储时实际上和传统理解上的String、List、Set、SortedSet以及Hash都有所不同。Redis针对不同类型的数据结构底层都进行了优化，会根据不同的数据采用不同的数据结构来进行存储。

一、Redis对象（RedisObject）

Redis中所有的key都是字符串，但是所有的value存储的时候实际上都不是直接采用String、List、Set、SortedSet和Hash这些结构来存储的，而是封装成了RedisObejct对象。相当于Redis就是一个庞大的<String, RedisObejct>集合

Redis每次新建一个键值对时都会创建两个RedisObject对象，一个是键的对象，一个是值的对象。

RedisObject数据结构如下所示：

type: 表示value代表的数据类型，取值范围为String、List、Set、SortedSet、Hash等五种类型

encoding：表示value的编码格式，包括int、embstr、raw、ziplist、linkedList、ht、intset、skipList等等

refCount：表示value对象引用计数，当refCount值为0的时候则表示可以被回收了

ptr: 指向底层数据的指针

lru: 上一次被访问的时间

其中不同类型的数据结构可能会对应多种不同的编码方式，通过采用不同编码方式的方法可以达到优化内存的效果。另外相同的数据类型同样也可能会有不同的编码方式来优化内存。

二、Redis的编码机制

Redis针对不同数据结构类型采用了多种编码方式，分别如下：

编码方式	描述
int	long类型的整数
embstr	embstr编码的简单动态字符串
raw	简单动态字符串
ziplist	压缩列表
linkedlist	双向链表
intset	整数集合
skiplist	跳跃表
hashtable	字典

ziplist是压缩的列表，存储数据的内存空间是连续的，占用空间比较少但是处理数据需要耗时，相当于用时间代替了空间

主要数据结构不同情况下的编码方式分别如下：

数据类型	编码方式	使用条件
String	int	值为8个字节的整数类型
	embstr	长度小于39个字节的字符串
	raw	长度大于39个字节的字符串
List	ziplist	当List元素个数小于list-max-ziplist-entries(默认为512个)且所有的元素值大小都小于list-max-ziplist-value(默认为64个字节)时
List	linkedlist	无法满足ziplist的条件时则直接使用LinkedList，且只能升级不能降级为zipList
Set	intset	当Set元素个数小于set-max-intset-entries(默认为512个)且所有的元素都是整数类型时
Set	hashtable	无法满足intset的条件时直接使用hashtable，且只能升级不能降级为intset
SortedSet	ziplist	当有序集合元素个数小于zset-max-ziplist-entries(默认为512个)且所有的元素值大小都小于zset-max-ziplist-value(默认为64个字节)时
SortedSet	skiplist	无法满足ziplist的条件时直接使用skiplist，且只能升级不能降级为ziplist
Hash	ziplist	当哈希表元素个数小于hash-max-ziplist-entries(默认为512个)且所有的元素值大小都小于hash-max-ziplist-value(默认为64个字节)时
Hash	hashtable	无法满足ziplist的条件时直接使用hashtable，且只能升级不能降级为ziplist

redis在不同的数据情况下采用不同的编码方式，采用占用内存小的数据结构来达到内存优化的效果。

2.1、字符串编码方式

1、int编码

int编码仅仅用于字符串的value，当字符串的value为整数类型时，此时就用int编码

2、embstr编码

embstr是简单动态字符串（SDS）的一种编码，专门用于保存长度比较短的字符串。Redis存储数据都会创建一个RedisObject，RedisObject中有一个属性ptr是指向具体数据的指针。而保存字符串的数据结构时SDS，也就是sdshdr数据结构

采用embstr编码方式时，会调用一次内存分配函数分配连续的内存空间同时分配给RedisObject和sdshdr两个结构。

另外embstr编码的字符串是只读的，一旦发生修改就会升级为raw编码方式。

3、raw编码

raw也是简单动态字符串（SDS）的一种编码，当字符串的长度较长时就采用raw编码方式。raw编码方式和embstr编码方式的区别是raw只需要调用一次内存分配函数，而raw需要分别为RedisObject和sdshdr各申请一次内存分配函数。

raw和embstr保存字符串的效果完全一样，只不过raw在分配内存时需要多申请，同时释放内存时也需要比embstr多释放一次。

2.2、列表编码方式

列表对象的编码方式有ziplist和linkedlist两种

ziplist编码底层是通过压缩列表实现，压缩列表的每个节点保存一个列表的元素。列表value的RedisObject对象的ptr指向ziplist对象，

linkedlist编码底层是通过双向链表实现，链表的每个节点保存列表的一个元素。列表value的RedisObject对象的ptr执行linkedlist对象，

当列表的元素同时满足以下两个条件时才使用ziplist，否则就使用linkedlist

1、列表的元素个数不能超过512个，可以自定义具体的值

2、列表中所有元素的大小不能超过64个字节，可以自定义具体的值

2.3、集合编码方式

集合的编码方式有intset和hashtable两种

intset编码底层实现就是整数集合，集合中存储的数据全部是整数类型。

hashtable编码底层实现就是一个字典，集合的所有元素就存在字典的键值对的键中，而字典的所有键的值都为NULL

当集合的元素同时满足以下两个条件时采使用intset，否则就使用hashtable

1、集合的元素个数不能超过512个，可以自定义具体的值

2、集合的所有元素都是整数类型

2.4、有序集合编码方式

有序集合的编码方式有ziplist和skiplist两种，有序集合的元素都有两个属性，一个是具体的值，一个是用于排序的分数。

ziplist编码底层是压缩列表，每个有序集合的元素都需要两个连续的压缩列表的节点存储，一个存储元素的值一个存储元素的分数。

另外压缩列表会将集合元素按分数进行排序，分数较小的排在靠近表头的位置，分数较大的排在靠近表尾的位置。

skiplist编码底层采用zset来实现，一个zset同时包含一个字典和一个跳跃表。

当有序集合的元素同时满足以下两个条件时采用ziplist，否则采用skiplist

1、当有序集合元素个数小于zset-max-ziplist-entries(默认为512个)且

2、所有的元素值大小都小于zset-max-ziplist-value(默认为64个字节)时

2.5、哈希对象编码方式

哈希对象的编码方式分为ziplist和hashtable两种

ziplist编码底层实现也是一个压缩列表，当哈希对象存储新的键值对时，先将键的节点插入到压缩列表的尾部，然后再将值的节点插入到列表的尾部，所以每一个键值对的键和值会生成两个压缩列表的节点连续存储在列表中的。并且后插入的节点会在列表尾部；

hashtable编码底层实现是字典结构，哈希对象的键值对就对应了字典中的键值对，且键和值都是字符串结构。

当哈希对象的元素同时满足以下两个条件时才使用ziplist，否则就使用hashtable

1、哈希保存的键值对数量不能超过512个，可以自定义具体的值

2、哈希保存的所有键值对的值的大小都不可以超过64个字节，可以自定义具体的值

三、Redis的底层数据结构

3.1、简单动态字符串（SDS）

虽然redis由C语言实现，但是redis没有使用C语言的字符串来用，而是采用了简单动态字符串简称SDS的数据结构来存储字符串，包括字符串类型的key和value

SDS定义如下：

struct sdshdr{

    /** 记录buf数组已使用字节数*/
    int len;
  
    /** 记录buf数组未使用字节数*/
    int free;

    /** 字节数组,用于保存字符串数据*/
    char buf[];
}

SDS除了有字节数组之外，还有两个int类型变量分别记录已使用和未使用的字节数。这样可以很方便的读取字符串的长度

另外由于C语言中的字符串不会存储自身的长度，底层实现是一个长度为N+1个字符长的数组（1个字符空间保存空字符表示结束标志），所以一旦字符串发生改变，无论是增长或者是缩短都需要重新进行一次内存分配。如果不重新分配内存，那么当字符串增长时会出现内存溢出，当字符串缩短时会造成内存泄露，都是会出现对内存不友好的结果，所以需要对字符串的内存进行重新分配。

而SDS就在C语言字符串实现的基础之上增加了两种优化策略，分别是空间预先分配和空间惰性释放

1、空间预先分配策略

当SDS的len长度小于1M时，预分配的空间和已使用的空间一样大，比如字符串增长之后len长度为100个字节，那么扩容之后SDS缓冲区的总长度会分配201个字节，其中100个字节已用，另外100个字节作为空闲空间，当后续字符串再增长时，可能就不需要再分配

当SDS的len长度大于1M时，预分配的空间始终保持是1M的空间，比如字符串长度为30M，那么扩容之后空间大小为31M，多余1M保留给后续字符串增长时使用。

所以通过内存预分配策略，当字符串经过N次增长之后，最多只会产生N次内存重新分配，而不是C语言字符串的必然N次内存重新分配，一定程度上是通过牺牲一部分的内存空间代价换来减少内存重新分配带来的效率提高的结果，相当于空间换时间

案例如下图示，原SDS保存了字符串“ABC”，后将字符串修改为“ABCDE”，扩容结果如下

2、空间惰性释放策略

空间惰性释放策略和空间预分配策略目的一致，同样是为了减少内存重新分配的次数，当字符串缩短之后，并不会立即将空闲的内存空间释放，而是仅仅修改free的值表示有空闲空间，并不会将当前空闲的空间立即释放，以便后续字符串增长时不需重新分配内存。

比如原先SDS值为“ABCDE”，此时free=0，len=6，此时将字符串值修改为“ABC”，那么不会将多余的空间释放，而是修改free=2，表示有2个字节空间

当然SDS也提高了API，用于显示的释放空闲空间，所以无需担心太多的空闲空间导致的内存泄露问题

总计下SDS相比于C语言字符串的优点

1、O(1)复杂度获取字符串的长度

2、避免了缓冲区溢出的问题

3、大幅度降低了当字符串修改时导致的内存重新分配次数

4、二进制安全，SDS缓冲区可以保存任意格式的二进制数据，而不是C字符串的仅能保存文本数据

5、SDS兼容了部分C字符串的函数，提高了代码复用率

3.2、链表

redis中链表的实现和其他高级语言的链表实现逻辑基本上一致，主要有链表节点和链表类组成，定义分别如下：

/** 链表节点结构定义 */
struct listNode{

   /** 前置节点*/
   struct listNode *prev;

   /** 后置节点*/
   struct listNode *next;

   /** 节点的值*/
   void *value;

}

/** 链表结构定义*/
struct list{

   /** 头节点*/
   listNode *head;

   /** 尾节点*/
   listNode *tail;

   /** 节点个数*/
   unsigned long len;
}

总结

1、链表主要用于redis的列表键，发布与订阅、慢查询、监视器等；

2、每个链表节点都包含前置节点和后置节点的指针，所以是双端链表；

3、头节点的前置节点和尾节点的后置节点都为空，所以链表是无环链表；

3.3、字典

字典是一种保存键值对的抽象数据结构，在Java语言中字典的实现就是Map，但是C语言中没有Map数据结构，所以redis需要自行实现字典数据结构，功能和Java中的Map类似。

redis的数据库底层就是通过字典实现，redis的key和value操作实际就是基于字典的key和value操作。另外redis的哈希数据结构底层也是通过字典实现的。

3.4、跳跃表

跳跃表（SkipList）是一种有序数据结构，通过多个节点同时维持其他多个节点的指针，从而达到快速访问节点的目的。

跳跃表是redis有序集合的底层实现方案之一，当redis的有序集合数据量达到默认的512个时或者某个key的值的大小达到64K时，就采用跳跃表来实现。

在同一个跳跃表中，每个节点的分数值可以相同，但是节点的成员对象必须是唯一的。优先按分数进行排序，分数相同的情况下按成员对象的值进行排序

3.5、整数集合

整数集合（intset）是redis用于保存整数类型的集合数据结构，定义如下：

typedef struct intset{
    
     /**编码方式*/
     unint32_t encoding;

     /**集合中元素数量*/
     unint32_t length;

     /**整数数组*/
     int8_t contents[];
}intset;

length保存整数集合保存的数据个数，contents用于保存整数数据，按从小到大的顺序进行有序存储。

虽然contents定义的是int8_t类型的值，但是实际上并不一定contents中存储的就是int8_t类型的值，而是由encoding的值来决定。encoding支持INTSET_ENT_INT8、INTSET_ENT_INT16、INTSET_ENT_INT32、INTSET_ENT_INT64四种类型，所以contents支持存储int8_t、int16_t、int32_t和int64_t类型的数据。contents只是默认采用int8_t类型，当有int16_t类型的数据需要存入contents中时，就会将contents升级为int16_t类型的数组，同理当存入的数据越来越大时，contents还可以升级为int32_t和int64_t的类型。

这样做的好处是可以节省内存，当集合中存储的数据值小时就按占内存小的数据结构存储，只有当需要存储数值大的数据结构时才进行升级。但是contents只能从小到大升级而不能从大到小降级。

总结：

1、整数集合是集合键的底层实现之一

2、整数集合底层是有序不重复的数组实现

3、当数组存储的数据类型变化时会进行升级操作，升级机制可以节省内存空间，但是不会进行降级

3.6、压缩列表

压缩列表（ziplist）是redis的列表键和哈希键的底层实现方式之一，当列表或哈希键的key数量小于默认的512个时，且每个键的值的大小比较小时（64K），那么就采用ziplist来实现底层数据存储。

压缩列表顾名思义是内存进行了压缩的列表，是由一系列特殊编码的连续的内存块组成的顺序型数据结构，目的是为了节省内存空间。

压缩列表由任意多个节点组成，每个节点存储一个字节数组或者是一个整数。

1、压缩列表的结构

如下图时：

属性	占用字节	描述
zlbytes	4	记录压缩列表占有的字节数，当压缩列表内存重新分配时以及计算zlend的位置时使用
zltail	4	记录尾节点距离压缩列表起始地址有多少字节，通过偏移量可以不需要遍历整个压缩列表的情况下确定列表尾节点的地址
zllen	2	记录压缩列表节点的个数
entry	不定	压缩列表的各个节点，节点占用内存的大小取决于存储的具体数据
zlend	1	特殊值0XFF，十进制的255，表示压缩列表的结束标志

2、压缩列表的节点

压缩列表核心是由各个节点组成，每个节点的结构如下图示：

属性	取值范围	描述
previous_entry_length	占用1个或者5个字节，当前一个节点长度小于254个字节时，那么就占用1个字节存储前一个节点的长度；当前一个节点长度大于254个字节时，那么就占用5个字节，第1个字节固定存储0XFE（254），后面4个字节存存储前一个节点具体的占用字节数	前一个节点占用字节数
encoding	占用1个或者2个或者5个字节当content存储字节数组时，占用1、2或5个字节，最高2位值为00、01或10，其他位存储数值的长度；当content存储整数时，占用1个字节，最高2位值为11，其他位存储整数的具体类型以及长度	记录content保存的数据类型以及长度
content	字节数组或者整数值	节点存储数据内容，类型及长度由encoding存储

3、连锁更新的风险

连锁更新值当新增一个或删除一个节点时，由于压缩列表的内存是连续的，可能会连锁导致其他节点的内存需要重新分配的问题。

比如压缩列表中目前有4个节点，4个节点的长度都是250～253之间的长度，由于小于254，所以后续节点的previous_entry_length值只需要1个字节存储即可。

此时在节点1的前面插入新节点，且新节点的长度大于254个字节，那么节点1就需要采用5个字节来存储新节点的长度值，所以节点1占用的内存空间就会多4个字节，所以会导致节点占用的空间也会超过254个字节；

同理由于节点1长度变化，会导致节点2的previous_entry_length需要由1个字节变成5个字节，从而导致节点2长度也会超过254个字节，同理后续的节点都会受到影响，这就是新增一个节点导致的连锁更新反应。

虽然连锁更新的风险比较大，但是实际情况下场景会比较少，因为实际情况下压缩列表中存在多个连续的占用字节数都在250 ～ 253之间的节点的概率很小，只要连续的这样的节点不多，连锁更新的节点不多的话也不会对整体性能带来影响。

总结

1、压缩列表是一种连续内存的顺序型数据结构，目的是为了节省内存;

2、压缩列表是redis中列表、有序集合、和哈希的底层实现方式之一；

3、压缩列表包含多个节点，每个节点可以保存整数也可以保存字节数组；

4、压缩列表新增节点和删除节点虽然有连续更新的风险，但是出现的概率非常小。

查看全文

相关阅读:
codeblocks基本调试方法—gdb—Debugger
五大开源Web服务器
 【u237】分数化小数
 【u230】回文词
 【t099】最接近神的人
 【t052】冰岛
 【t069】奇怪的迷宫
 【p092】分数线划定
 【u243】拓扑排序
 【u247】生物进化

原文地址：https://www.cnblogs.com/jackion5/p/14008673.html