Sds (Simple Dynamic String,简单动态字符串)是 Redis 底层所使用的字符串表示,它被用 在几乎所有的 Redis 模块中。
本章将对 sds 的实现、性能和功能等方面进行介绍,并说明 Redis 使用 sds 而不是传统 C 字符 串的原因。
1.1.1 sds 的用途
Sds 在 Redis 中的主要作用有以下两个:
1. 实现字符串对象(StringObject);
2. 在 Redis 程序内部用作 char* 类型的替代品;
以下两个小节分别对这两种用途进行介绍。
实现字符串对象
Redis 是一个键值对数据库(key-value DB),数据库的值可以是字符串、集合、列表等多种类 型的对象,而数据库的键则总是字符串对象。
对于那些包含字符串值的字符串对象来说,每个字符串对象都包含一个 sds 值。
Note: “包含字符串值的字符串对象” ,这种说法初听上去可能会有点奇怪,但是在 Redis 中,
一个字符串对象除了可以保存字符串值之外,还可以保存 long 类型的值,所以为了严谨起见,
这里需要强调一下:当字符串对象保存的是字符串时,它包含的才是 sds 值,否则的话,它就 是一个 long 类型的值。
举个例子,以下命令创建了一个新的数据库键值对,这个键值对的键和值都是字符串对象,它 们都包含一个 sds 值:
redis> SET book "Mastering C++ in 21 days"
OK
redis> GET book
"Mastering C++ in 21 days"
以下命令创建了另一个键值对,它的键是字符串对象,而值则是一个集合对象:
redis> SADD nosql "Redis" "MongoDB" "Neo4j"
(integer) 3
redis> SMEMBERS nosql 1) "Neo4j"
2) "Redis"
3) "MongoDB"
将 sds 代替 C 默认的 char* 类型
因为 char* 类型的功能单一,抽象层次低,并且不能高效地支持一些 Redis 常用的操作(比 如追加操作和长度计算操作),所以在 Redis 程序内部,绝大部分情况下都会使用 sds 而不是 char* 来表示字符串。
性能问题在稍后介绍 sds 定义的时候就会说到,因为我们还没有了解过 Redis 的其他功能模 块,所以也没办法详细地举例说那里用到了 sds ,不过在后面的章节中,我们会经常看到其他 模块(几乎每一个)都用到了 sds 类型值。
目前来说,只要记住这样一个事实即可:在 Redis 中,客户端传入服务器的协议内容、aof 缓 存、返回给客户端的回复,等等,这些重要的内容都是由都是由 sds 类型来保存的。
1.1.2 Redis 中的字符串
在 C 语言中,字符串可以用一个 \0 结尾的 char 数组来表示。
比如说,hello world 在 C 语言中就可以表示为 "hello world\0" 。
这种简单的字符串表示在大多数情况下都能满足要求,但是,它并不能高效地支持长度计算和 追加(append)这两种操作:
• 每次计算字符串长度(strlen(s))的复杂度为 θ(N ) 。
4 Chapter 1. 内部数据结构
Redis 设计与实现, 第一版
• 对字符串进行 N 次追加,必定需要对字符串进行 N 次内存重分配(realloc)。
在 Redis 内部,字符串的追加和长度计算并不少见,而 APPEND 和 STRLEN 更是这两种操 作在 Redis 命令中的直接映射,这两个简单的操作不应该成为性能的瓶颈。
另外,Redis 除了处理 C 字符串之外,还需要处理单纯的字节数组,以及服务器协议等内容,
所以为了方便起见,Redis 的字符串表示还应该是二进制安全的:程序不应对字符串里面保存 的数据做任何假设,数据可以是以 \0 结尾的 C 字符串,也可以是单纯的字节数组,或者其他 格式的数据。
考虑到这两个原因,Redis 使用 sds 类型替换了 C 语言的默认字符串表示:sds 既可以高效地 实现追加和长度计算,并且它还是二进制安全的。
sds 的实现
在前面的内容中,我们一直将 sds 作为一种抽象数据结构来说明,实际上,它的实现由以下两 部分组成:
typedef char *sds;
struct sdshdr { // buf 已占用长度 int len;
// buf 剩余可用长度 int free;
// 实际保存字符串数据的地方 char buf[];
};
其中,类型 sds 是 char * 的别名 (alias),而结构 sdshdr 则保存了 len 、free 和 buf 三个 属性。
作为例子,以下是新创建的,同样保存 hello world 字符串的 sdshdr 结构:
struct sdshdr { len = 11;
free = 0;
buf = "hello world\0"; // buf 的实际长度为 len + 1 };
通过 len 属性,sdshdr 可以实现复杂度为 θ(1) 的长度计算操作。
另一方面,通过对 buf 分配一些额外的空间,并使用 free 记录未使用空间的大小,sdshdr 可 以让执行追加操作所需的内存重分配次数大大减少,下一节我们就会来详细讨论这一点。
当然,sds 也对操作的正确实现提出了要求——所有处理 sdshdr 的函数,都必须正确地更新 len 和 free 属性,否则就会造成 bug 。
1.1.3 优化追加操作
为了易于理解,我们用一个 Redis 执行实例作为例子,解释一下,当执行以下代码时,Redis 内部发生了什么:
redis> SET msg "hello world"
OK
redis> APPEND msg " again!"
(integer) 18 redis> GET msg
"hello world again!"
首先,SET 命令创建并保存 hello world 到一个 sdshdr 中,这个 sdshdr 的值如下:
struct sdshdr { len = 11;
free = 0;
buf = "hello world\0";
}
当执行 APPEND 命令时,相应的 sdshdr 被更新,字符串 " again!" 会被追加到原来的
"hello world" 之后:
struct sdshdr { len = 18;
free = 18;
// 空白的地方为预分配空间,共 18 + 18 + 1 个字节
buf = "hello world again!\0 ";
} redis> APPEND msg " again!"
(integer) 25
再次执行 APPEND 命令之后,msg 的值所对应的 sdshdr 结构可以表示如下:
struct sdshdr { len = 25;
free = 11;
// 空白的地方为预分配空间,共 18 + 18 + 1 个字节
buf = "hello world again! again!\0 ";
}
sds.c/sdsMakeRoomFor 函数描述了 sdshdr 的这种内存预分配优化策略,以下是这个函数的 伪代码版本:
def sdsMakeRoomFor(sdshdr, required_len):
# 预分配空间足够,无须再进行空间分配 if (sdshdr.free >= required_len):
return sdshdr
6 Chapter 1. 内部数据结构
Redis 设计与实现, 第一版
# 计算新字符串的总长度
newlen = sdshdr.len + required_len
# 如果新字符串的总长度小于 SDS_MAX_PREALLOC
# 那么为字符串分配 2 倍于所需长度的空间
# 否则就分配所需长度加上 SDS_MAX_PREALLOC 数量的空间 if newlen < SDS_MAX_PREALLOC:
newlen *= 2 else:
newlen += SDS_MAX_PREALLOC
# 分配内存
newsh = zrelloc(sdshdr, sizeof(struct sdshdr)+newlen+1)
# 更新 free 属性
newsh.free = newlen - sdshdr.len
# 返回 return newsh
在目前版本的 Redis 中,SDS_MAX_PREALLOC 的值为 1024 * 1024 ,也就是说,当大小小于 1MB 的字符串执行追加操作时,sdsMakeRoomFor 就为它们分配多于所需大小一倍的空间;当 字符串的大小大于 1MB ,那么 sdsMakeRoomFor 就为它们额外多分配 1MB 的空间。
Note: 这种分配策略会浪费内存吗?
执行过 APPEND 命令的字符串会带有额外的预分配空间,这些预分配空间不会被释放,除非 该字符串所对应的键被删除,或者等到关闭 Redis 之后,再次启动时重新载入的字符串对象将 不会有预分配空间。
因为执行 APPEND 命令的字符串键数量通常并不多,占用内存的体积通常也不大,所以这一 般并不算什么问题。
另一方面,如果执行APPEND 操作的键很多,而字符串的体积又很大的话,那可能就需要修 改 Redis 服务器,让它定时释放一些字符串键的预分配空间,从而更有效地使用内存。
1.1.4 sds 模块的 API
sds 模块基于 sds 类型和 sdshdr 结构提供了以下 API :
函数 作用 算法复杂度
sdsupdatelen 更新给定 sds 所对应 sdshdr 结构的 free 和 len O(1) sdsclear 清除给定 sds 的内容,将它初始化为 "" O(1) sdsMakeRoomFor 对 sds 所对应 sdshdr 结构的 buf 进行扩展 O(N ) sdsRemoveFreeSpace 在不改动 buf 的情况下,将 buf 内多余的空间释
放出去
O(N ) sdsAllocSize 计算给定 sds 的 buf 所占用的内存总数 O(1) sdsIncrLen 对 sds 的 buf 的右端进行扩展(expand)或修剪
(trim)
sds 还有另一部分功能性函数,比如 sdstolower 、sdstrim 、sdscmp ,等等,基本都是标准 C 字符串库函数的 sds 版本,这里不一一列举了。
1.1.5 小结
• Redis 的字符串表示为 sds ,而不是 C 字符串(以 \0 结尾的 char*)。
• 对比 C 字符串,sds 有以下特性:
– 可以高效地执行长度计算(strlen);
– 可以高效地执行追加操作(append);
– 二进制安全;