Message Digest Algorithm MD5(消息摘要算法第五版)是计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。该算法的文件号为RFC 1321。主要用于一致性验证、数字证书、安全访问认证等方面。
在介绍算法原理之前,先介绍下字节序的常识:
所谓字节序,就是多字节数据在内存中或者网络传输时字节的存储顺序。分为小端字节序、大端字节序、网络字节序。
小端字节序( Little endian):低位内存存放数据低位字节,高位内存存放数据高位字节。
大端字节序( Big endian):低位内存存放数据高位字节,高位内存存放数据低位字节。
网络字节序:网络字节顺序是TCP/IP中规定好的一种数据表示格式,它与具体的CPU类型、OS等无关,从而可以保证数据在不同主机之间传输时能够被正确解释。网络字节顺序采用Big endian排序方式。
MD5加密算法概述:MD5算法以512位(Bit)分组为一个计算单元来处理输入信息。每个512位分组再分成16个32位子分组,用这16个子分组与初始链接变量(4个32位分组)运行Hmd5算法(4轮循环总共64步)后得到这个计算单元的运算结果(4个32位分组);用该运算结果与下个计算单元继续运行Hmd5算法,以此类推,得到最后一个计算单元的4个32位分组运算结果,将这4个32位分组级联就得到最后的MD5运算结果(128位散列值)。具体步骤如下所述:
1. 填充输入信息
首先,在输入信息的后面填充一个1和若干个0,使得信息的位长对512求余得448;然后,在这个结果后面附加一个64位二进制表示的填充前信息长度。此时,信息的位长位512的整数倍。
2.第一个分组执行Hmd5算法流程
(1)初始链接变量,以大端字节序表示:
A=0x01234567,B=0x89ABCDEF,C=0xFEDCBA98,D=0x76543210
(2)每个512位分组计算流程:
首先将A,B,C,D分别复制到a,b,c,d。每轮循环16步(对应512位分组的16个子分组),四轮循环都很相似,这里只介绍第一轮循环,其余的类推。
第一轮循环16步,每步对a,b,c,d中的其中三个做一次非线性函数运算,然后将所得结果加上第四个变量、计算单元的一个子分组、一个常数,再将所得结果向左环移一个不定的数,并加上a,b,c或d中之一 ,最后用该结果取代a,b,c或d中之一。
4个非线性函数:
F(X,Y,Z) =(X&Y)|((~X)&Z)
G(X,Y,Z) =(X&Z)|(Y&(~Z))
H(X,Y,Z) =X^Y^Z
I(X,Y,Z)=Y^(X|(~Z))
用表达式来表示上述算法:
FF(a,b,c,d,Mj,s,ti) 表示 a = b + ((a + F(b,c,d) + Mj + ti) << s)
GG(a,b,c,d,Mj,s,ti)表示 a = b + ((a + H(b,c,d) + Mj + ti) << s)
HH(a,b,c,d,Mj,s,ti)表示 a = b + ((a + G(b,c,d) + Mj + ti) << s)
II(a,b,c,d,Mj,s,ti)表示 a = b + ((a + I(b,c,d) + Mj + ti) << s)
(其中Mj表示512位分组的第j(0~15)个子分组,常数ti是4294967296*abs(sin(i))的整数部分,i取值从1到64,单位是弧度。4294967296等于2的32次方)
这四轮循环如下所示:
第一轮:
FF(a,b,c,d,M0,7,0xd76aa478)
FF(d,a,b,c,M1,12,0xe8c7b756)
FF(c,d,a,b,M2,17,0x242070db)
FF(b,c,d,a,M3,22,0xc1bdceee)
FF(a,b,c,d,M4,7,0xf57c0faf)
FF(d,a,b,c,M5,12,0x4787c62a)
FF(c,d,a,b,M6,17,0xa8304613)
FF(b,c,d,a,M7,22,0xfd469501)
FF(a,b,c,d,M8,7,0x698098d8)
FF(d,a,b,c,M9,12,0x8b44f7af)
FF(c,d,a,b,M10,17,0xffff5bb1)
FF(b,c,d,a,M11,22,0x895cd7be)
FF(a,b,c,d,M12,7,0x6b901122)
FF(d,a,b,c,M13,12,0xfd987193)
FF(c,d,a,b,M14,17,0xa679438e)
FF(b,c,d,a,M15,22,0x49b40821)
第二轮:
GG(a,b,c,d,M1,5,0xf61e2562)
GG(d,a,b,c,M6,9,0xc040b340)
GG(c,d,a,b,M11,14,0x265e5a51)
GG(b,c,d,a,M0,20,0xe9b6c7aa)
GG(a,b,c,d,M5,5,0xd62f105d)
GG(d,a,b,c,M10,9,0x02441453)
GG(c,d,a,b,M15,14,0xd8a1e681)
GG(b,c,d,a,M4,20,0xe7d3fbc8)
GG(a,b,c,d,M9,5,0x21e1cde6)
GG(d,a,b,c,M14,9,0xc33707d6)
GG(c,d,a,b,M3,14,0xf4d50d87)
GG(b,c,d,a,M8,20,0x455a14ed)
GG(a,b,c,d,M13,5,0xa9e3e905)
GG(d,a,b,c,M2,9,0xfcefa3f8)
GG(c,d,a,b,M7,14,0x676f02d9)
GG(b,c,d,a,M12,20,0x8d2a4c8a)
第三轮:
HH(a,b,c,d,M5,4,0xfffa3942)
HH(d,a,b,c,M8,11,0x8771f681)
HH(c,d,a,b,M11,16,0x6d9d6122)
HH(b,c,d,a,M14,23,0xfde5380c)
HH(a,b,c,d,M1,4,0xa4beea44)
HH(d,a,b,c,M4,11,0x4bdecfa9)
HH(c,d,a,b,M7,16,0xf6bb4b60)
HH(b,c,d,a,M10,23,0xbebfbc70)
HH(a,b,c,d,M13,4,0x289b7ec6)
HH(d,a,b,c,M0,11,0xeaa127fa)
HH(c,d,a,b,M3,16,0xd4ef3085)
HH(b,c,d,a,M6,23,0x04881d05)
HH(a,b,c,d,M9,4,0xd9d4d039)
HH(d,a,b,c,M12,11,0xe6db99e5)
HH(c,d,a,b,M15,16,0x1fa27cf8)
HH(b,c,d,a,M2,23,0xc4ac5665)
第四轮:
II(a,b,c,d,M0,6,0xf4292244)
II(d,a,b,c,M7,10,0x432aff97)
II(c,d,a,b,M14,15,0xab9423a7)
II(b,c,d,a,M5,21,0xfc93a039)
II(a,b,c,d,M12,6,0x655b59c3)
II(d,a,b,c,M3,10,0x8f0ccc92)
II(c,d,a,b,M10,15,0xffeff47d)
II(b,c,d,a,M1,21,0x85845dd1)
II(a,b,c,d,M8,6,0x6fa87e4f)
II(d,a,b,c,M15,10,0xfe2ce6e0)
II(c,d,a,b,M6,15,0xa3014314)
II(b,c,d,a,M13,21,0x4e0811a1)
II(a,b,c,d,M4,6,0xf7537e82)
II(d,a,b,c,M11,10,0xbd3af235)
II(c,d,a,b,M2,15,0x2ad7d2bb)
II(b,c,d,a,M9,21,0xeb86d391)
四轮循环完成之后,将A,B,C,D分别加上a,b,c,d: A += a, B += b, C += c, D += d。
3.用下一分组继续执行Hmd5算法。
4.将最后一个分组的4个32位分组运算结果级联成128位散列值。
到这里,MD5算法就结束了。算法很复杂,不过都是计算机干的事情,我们只要会用就行了。
附上nginx中MD5源码实现,有兴趣的读者可以看看。