原子是一个指向唯一的、不可变的0个或任意多个字节序列的指针,大多数原子都是指向以空字符结束的字符串,但是任何一个指向任意字节序列的指针都可以使原子。任何原子只能出现一次。如果两个原子指向同一个内存单元时,则两个原子是相等的。仅仅比较两个字节序列相应的指针是否相等,就可以判断这两个字节序列是否相等了,这就是使用原子的好处之一;还有一个好处就是使用原子可以节省空间,因为每个序列只会出现一次。
本文地址:http://www.cnblogs.com/archimedes/p/c-atom.html,转载请注明源地址。
接口
Atom的接口很简单:

#ifndef ATOM_INCLUDED #define ATOM_INCLUDED extern int Atom_length(const char *str); extern const char *Atom_new (const char *str, int len); extern const char *Atom_string(const char *str); extern const char *Atom_int (long n); #endif
Atom_new接收一个指向字节序列的指针以及该序列的字节数作为输入,它在原子表中增加一个该序列的拷贝,并且如果需要的话,返回原子表中指向该拷贝的指针(即原子)
原子总是以一个空字符结束,在必要的时候该空字符由Atom_new添加
Atom_string接收一个空字符串结束的字符串作为输入,在原子表中增加一个该串的拷贝,如果需要的话返回该原子
Atom_int返回长整数n的字符串表示的原子
Atom_length返回其原子参数的长度
实现
Atom的实现对原子表进行维护。Atom_new,Atom_string,Atom_int查找原子表,并都有可能在原子表中添加一个新的元素,而Atom_length仅仅查找原子表
#include "atom.h"
Atom_string,Atom_int可以在不知道原子表细节的情况下执行相应的操作
#include <string.h> #include "assert.h" const char *Atom_string(const char *str) { assert(str); return Atom_new(str, strlen(str)); }
Atom_int首先把它的参数转化为一个字符串,然后调用Atom_new:
#include <limits.h> const char *Atom_int(long n) { /*将参数转换成一个字符串,然后调用Atom_new*/ char str[43]; char *s = str + sizeof str; /*将s指向字符数组的尾部*/ unsigned long m; if (n == LONG_MIN) /*处理最小的负长整数*/ m = LONG_MAX + 1UL; else if (n < 0) m = -n; else m = n; do *--s = m%10 + '0'; /*对m取余获取最后一位数字倒序保存在字符数组中*/ while ((m /= 10) > 0); if (n < 0) *--s = '-'; /*如果n是负数在结果前面加上’-‘号*/ return Atom_new(s, (str + sizeof str) - s); }
Atom_int必须处理二进制补码数的不对称范围以及C的除法和取余运算的不确定性,无符号的除法和取余都具有良好的定义,因此Atom_int也可以通过使用无符号算术来避免使用有符号运算引起的不确定。
引入头文件和相关宏:
#include "atom.h" #include <string.h> #include "assert.h" #include <limits.h> #include "mem.h" /* 内存管理接口 */ #define NELEMS(x) ((sizeof (x))/(sizeof ((x)[0]))) /* 求数组中元素的个数 */
散列表显然是一个针对原子表的数据结构,散列表是一个入口表的指针数组,其中每一个元素都存有一个原子:
static struct atom { struct atom *link; /*指向表中的下一个入口*/ int len; /*len存储序列的长度*/ char *str; /*str指向序列本身*/ } *buckets[2048]; /*散列表的长度小于2048*/
针对“an atom”的struct atom的小尾数法布局:
Atom_new计算由str[0……len-1]给定序列的散列值,并用buckets的元素个数对其取模,搜索由buckets中该散列值元素所指向的链表。如果发现str[0……len-1]已存在于表中,它将只是简单地返回该原子:
#define NELEMS(x) ((sizeof (x))/(sizeof ((x)[0]))) /* 求数组中元素的个数 */ const char *Atom_new(const char *str, int len) { /*接收一个指向字节序列的指针以及该序列的字节数,在原子表中增加一个该序列的拷贝*/ unsigned long h; int i; struct atom *p; assert(str); assert(len >= 0); for (h = 0, i = 0; i < len; i++) /*查找表算法*/ h = (h<<1) + scatter[(unsigned char)str[i]]; h &= NELEMS(buckets)-1; for (p = buckets[h]; p; p = p->link) /*在buckets[h]中查找是否存在str*/ if (len == p->len) { for (i = 0; i < len && p->str[i] == str[i]; ) i++; if (i == len) return p->str; /*找到即返回*/ } p = ALLOC(sizeof (*p) + len + 1); /*没找到则新建原子*/ p->len = len; p->str = (char *)(p + 1); if (len > 0) memcpy(p->str, str, len); p->str[len] = '