zoukankan      html  css  js  c++  java
  • MD5

    MD5即Message-Digest Algorithm 5(信息-摘要算法 5),用于确保信息传输完整一致。是计算机广泛使用的散列算法之一(又译摘要算法、哈希算法),主流编程语言普遍已有MD5实现。

    数据(如汉字)运算为另一固定长度值,是散列算法的基础原理,MD5的前身有MD2MD3MD4

    1992年8月Ronald L. Rivest向IETF提交了一份重要文件,描述了这种算法的原理,由于这种算法的公开性和安全性,在90年代被广泛使用在各种程序语言中,用以确保资料传递无误等。

    MD5由MD4MD3MD2改进而来,一度主要增强算法复杂度和不可逆性。

    MD5一度被广泛应用于安全领域。但是由于MD5的弱点被不断发现以及计算机能力不断的提升,现在已经可以构造两个具有相同MD5的信息[2],使本算法不再适合当前的安全环境。目前,MD5计算广泛应用于错误检查。例如在一些BitTorrent下载中,软件通过计算MD5和检验下载到的碎片的完整性。

    MD5较老,散列长度通常为128位,随着计算机运算能力提高,找到“碰撞”是可能的。因此,在安全要求高的场合不使用MD5。

    2004年,王小云证明MD5数字签名算法可以产生碰撞[3]。2007年,Marc Stevens,Arjen K. Lenstra和Benne de Weger进一步指出通过伪造软件签名,可重复性攻击MD5算法[4]。研究者使用前缀碰撞法(chosen-prefix collision),使程序前端包含恶意程序,利用后面的空间添上垃圾代码凑出同样的MD5 Hash值。

    2008年,荷兰埃因霍芬技术大学科学家成功把2个可执行文件进行了MD5碰撞,使得这两个运行结果不同的程序被计算出同一个MD5[5]。2008年12月一组科研人员通过MD5碰撞成功生成了伪造的SSL证书,这使得在https协议中服务器可以伪造一些根CA的签名。[6]

    MD5已经广泛使用在为文件传输提供一定的可靠性方面。例如,服务器预先提供一个MD5校验和,用户下载完文件以后,用MD5算法计算下载文件的MD5校验和,然后通过检查这两个校验和是否一致,就能判断下载的文件是否出错。

    MD5是输入不定长度信息,输出固定长度128-bits的算法。经过程序流程,生成四个32位数据,最后联合起来成为一个128-bits散列。基本方式为,求余、取余、调整长度、与链接变量进行循环运算。得出结果。

    F(X,Y,Z) = (X\wedge{Y}) \vee (\neg{X} \wedge{Z})
    G(X,Y,Z) = (X\wedge{Z}) \vee (Y \wedge \neg{Z})
    H(X,Y,Z) = X \oplus Y \oplus Z
    I(X,Y,Z) = Y \oplus (X \vee \neg{Z})

    \oplus, \wedge, \vee, \neg 是 XORANDOR , NOT 的符号。

    MD5算法的C++实现

    1. Introduction
    MD5算法是一种消息摘要算法(Message Digest Algorithm),此算法以任意长度的信息(message)作为输入进行计算,产生一个128-bit(16-byte)的指纹或报文摘要(fingerprint or message digest)。两个不同的message产生相同message digest的几率相当小,从一个给定的message digest逆向产生原始message更是困难(不过据说我国的某个教授很善于从message digest构造message),因此MD5算法适合用在数字签名应用中。MD5实现简单,在32位的机器上运行速度也相当快,当然实际应用也不仅仅局限于数字签名。

    2. MD5 Algorithm Description
    假设输入信息(input message)的长度为b(bit),我们想要产生它的报文摘要,在此处b为任意的非负整数:b也可能为0,也不一定为8的整数倍,且可能是任意大的长度。设该信息的比特流表示如下:

              M[0] M[1] M[2] ... M[b-1]

    计算此信息的报文摘要需要如下5步:
    2.1 Append Padding Bits
    信息计算前先要进行位补位,设补位后信息的长度为LEN(bit),则LEN%512 = 448(bit),即数据扩展至
    K*512+448(bit)。即K*64+56(byte),K为整数。补位操作始终要执行,即使补位前信息的长度对512求余的结果是448。具体补位操作:补一个1,然后补0至满足上述要求。总共最少要补1bit,最多补512bit。

    2.2 Append Length
    将输入信息的原始长度b(bit)表示成一个64-bit的数字,把它添加到上一步的结果后面(在32位的机器上,这64位将用2个字来表示并且低位在前)。当遇到b大于2^64这种极少的情况时,b的高位被截去,仅使用b的低64位。经过上面两步,数据就被填补成长度为512(bit)的倍数。也就是说,此时的数据长度是16个字(32byte)的整数倍。此时的数据表示为:

              M[0 ... N-1]

    其中的N是16的倍数。

    2.3 Initialize MD Buffer
    用一个四个字的缓冲器(A,B,C,D)来计算报文摘要,A,B,C,D分别是32位的寄存器,初始化使用的是十六进制表示的数字,注意低字节在前:

            word A: 01 23 45 67
            word B: 89 ab cd ef
            word C: fe dc ba 98
            word D: 76 54 32 10


    2.4 Process Message in 16-Word Blocks
    首先定义4个辅助函数,每个函数的输入是三个32位的字,输出是一个32位的字:

            F(X,Y,Z) = XY v not(X) Z
            G(X,Y,Z) = XZ v Y not(Z)
            H(X,Y,Z) = X xor Y xor Z
            I(X,Y,Z) = Y xor (X v not(Z))

    NOTE:not(X)代表X的按位补运算,X v Y 表示X和Y的按位或运算,X xor Y代表X和Y的按位异或运算,XY代表X和Y的按位与运算。

    具体过程如下:

     1 /* Process each 16-word block. */
     2    For i = 0 to N/16-1 do
     3 
     4      /* Copy block i into X. */
     5      For j = 0 to 15 do
     6        Set X[j] to M[i*16+j].
     7      end /* of loop on j */

     8 
     9      /* Save A as AA, B as BB, C as CC, and D as DD. */
    10      AA = A
    11      BB =
     B
    12      CC =
     C
    13      DD =
     D
    14 

    15      /* Round 1. */
    16      /* Let [abcd k s i] denote the operation
    17           a = b + ((a + F(b,c,d) + X[k] + T[i]) <<< s). */

    18      /* Do the following 16 operations. */
    19      [ABCD  0  7  1]  [DABC  1 12  2]  [CDAB  2 17  3]  [BCDA  3 22  4]
    20      [ABCD  4  7  5]  [DABC  5 12  6]  [CDAB  6 17  7]  [BCDA  7 22  8
    ]
    21      [ABCD  8  7  9]  [DABC  9 12 10]  [CDAB 10 17 11]  [BCDA 11 22 12
    ]
    22      [ABCD 12  7 13]  [DABC 13 12 14]  [CDAB 14 17 15]  [BCDA 15 22 16
    ]
    23 

    24      /* Round 2. */
    25      /* Let [abcd k s i] denote the operation
    26           a = b + ((a + G(b,c,d) + X[k] + T[i]) <<< s). */

    27      /* Do the following 16 operations. */
    28      [ABCD  1  5 17]  [DABC  6  9 18]  [CDAB 11 14 19]  [BCDA  0 20 20]
    29      [ABCD  5  5 21]  [DABC 10  9 22]  [CDAB 15 14 23]  [BCDA  4 20 24
    ]
    30      [ABCD  9  5 25]  [DABC 14  9 26]  [CDAB  3 14 27]  [BCDA  8 20 28
    ]
    31      [ABCD 13  5 29]  [DABC  2  9 30]  [CDAB  7 14 31]  [BCDA 12 20 32
    ]
    32 

    33      /* Round 3. */
    34      /* Let [abcd k s t] denote the operation
    35           a = b + ((a + H(b,c,d) + X[k] + T[i]) <<< s). */

    36      /* Do the following 16 operations. */
    37      [ABCD  5  4 33]  [DABC  8 11 34]  [CDAB 11 16 35]  [BCDA 14 23 36]
    38      [ABCD  1  4 37]  [DABC  4 11 38]  [CDAB  7 16 39]  [BCDA 10 23 40
    ]
    39      [ABCD 13  4 41]  [DABC  0 11 42]  [CDAB  3 16 43]  [BCDA  6 23 44
    ]
    40      [ABCD  9  4 45]  [DABC 12 11 46]  [CDAB 15 16 47]  [BCDA  2 23 48
    ]
    41 

    42      /* Round 4. */
    43      /* Let [abcd k s t] denote the operation
    44           a = b + ((a + I(b,c,d) + X[k] + T[i]) <<< s). */

    45      /* Do the following 16 operations. */
    46      [ABCD  0  6 49]  [DABC  7 10 50]  [CDAB 14 15 51]  [BCDA  5 21 52]
    47      [ABCD 12  6 53]  [DABC  3 10 54]  [CDAB 10 15 55]  [BCDA  1 21 56
    ]
    48      [ABCD  8  6 57]  [DABC 15 10 58]  [CDAB  6 15 59]  [BCDA 13 21 60
    ]
    49      [ABCD  4  6 61]  [DABC 11 10 62]  [CDAB  2 15 63]  [BCDA  9 21 64
    ]
    50 

    51      /* Then perform the following additions. (That is increment each
    52 
            of the four registers by the value it had before this block
    53         was started.) */

    54      A = A + AA
    55      B = B +
     BB
    56      C = C +
     CC
    57      D = D +
     DD
    58 

    59    end /* of loop on i */


    2.5 Output
    报文摘要的产生后的形式为:A,B,C,D。也就是低位字节A开始,高位字节D结束。

    3. C++ Implementation
    有了上面5个步骤的算法描述,用C++实现起来就很直接了。需要注意的是在具体实现的时候上述5个步骤的顺序会有所变动,因为在大多数情况下我们都无法或很难提前计算出输入信息的长度b(如输入信息来自文件或网络)。因此在具体实现时Append Padding BitsAppend Length这两步会放在最后面。

    4. Test Suite
    由于实现代码比较长,在这里就不贴出来了,在本文后面会提供下载。MD5类的public接口如下:
    md5.h

     1 class MD5 {
     2 public
    :
     3 
        MD5();
     4     MD5(const void*
     input, size_t length);
     5     MD5(const string&
     str);
     6     MD5(ifstream &
    in);
     7     void update(const void*
     input, size_t length);
     8     void update(const string&
     str);
     9     void update(ifstream&
     in);
    10     const byte*
     digest();
    11 
        string toString();
    12     void
     reset();
    13 
        ...
    14 };


    下面简单介绍一下具体用法:
    1.计算字符串的MD5值
    下面的代码计算字符串"abc"的MD5值并用cout输出:

    1 MD5 md5;
    2 md5.update("abc"
    );
    3 cout << md5.toString() <<
     endl;
    4 //或者更简单点

    5 cout << MD5("abc").toString() << endl;


    2.计算文件的MD5值
    下面的代码计算文本文件"D:\test.txt"的MD5值并用cout输出,如果是二进制文件打开的时候记得要指定ios::binary模式。另外需要注意的是用来计算的文件必须存在,所以最好在计算前先判断下ifstream的状态。
    (本来判断ifstream是否有效不该是客户的责任,原本想在ifstream无效时用文件名做参数抛出FileNotFoundException之类的异常,后来却发现从ifstream中居然无法得到文件名...)

    1 MD5 md5;
    2 md5.update(ifstream("D:\\test.txt"
    ));
    3 cout << md5.toString() <<
     endl;
    4 //或者更简单点

    5 cout << MD5(ifstream("D:\\test.txt")).toString() << endl;


    3.最基本的用法
    上面的用来计算字符串和文件MD5值的接口都是为了方便才提供的,其实最基本的接口是:
    void update(const void *input, size_t length);
    update的另外两个重载都是基于它来实现的,下面的代码用上述接口来实现FileDigest函数,该函数用来计算文件的MD5值:

     1 string FileDigest(const stringfile) {
     2 

     3     ifstream in(file.c_str(), ios::binary);
     4     if (!
    in)
     5         return ""
    ;
     6 

     7     MD5 md5;
     8 
        std::streamsize length;
     9     char buffer[1024
    ];
    10     while (!
    in.eof()) {
    11         in.read(buffer, 1024
    );
    12         length =
     in.gcount();
    13         if (length > 0
    )
    14 
                md5.update(buffer, length);
    15 
        }
    16 
        in.close();
    17     return
     md5.toString();
    18 }


    下面看看测试代码:
    test.cpp

     1 #include "md5.h"
     2 #include <iostream>
     3 
     4 using namespace std;
     5 

     6 void PrintMD5(const string& str, MD5& md5) {
     7     cout << "MD5(\"" << str << "\") = " << md5.toString() <<
     endl;
     8 
    }
     9 

    10 int main() {
    11 

    12     MD5 md5;
    13     md5.update(""
    );
    14     PrintMD5(""
    , md5);
    15 

    16     md5.update("a");
    17     PrintMD5("a"
    , md5);
    18 

    19     md5.update("bc");
    20     PrintMD5("abc"
    , md5);
    21 

    22     md5.update("defghijklmnopqrstuvwxyz");
    23     PrintMD5("abcdefghijklmnopqrstuvwxyz"
    , md5);
    24 

    25     md5.reset();
    26     md5.update("message digest"
    );
    27     PrintMD5("message digest"
    , md5);
    28 

    29     md5.reset();
    30     md5.update(ifstream("D:\\test.txt"
    ));
    31     PrintMD5("D:\\test.txt"
    , md5);
    32 

    33     return 0;
    34 }


    测试结果:
    MD5("") = d41d8cd98f00b204e9800998ecf8427e
    MD5("a") = 0cc175b9c0f1b6a831c399e269772661
    MD5("abc") = 900150983cd24fb0d6963f7d28e17f72
    MD5("abcdefghijklmnopqrstuvwxyz") = c3fcd3d76192e4007dfb496cca67e13b
    MD5("message digest") = f96b697d7cb7938d525a2f31aaf161d0
    MD5("D:\test.txt") = 7ac66c0f148de9519b8bd264312c4d64


    源代码下载:点击下载
    在这里放上Vrcats修改的Qt版本:点击下载

  • 相关阅读:
    RabbitMQ学习笔记
    常用算法之排序(3)
    常用算法之排序(2)
    常用算法之排序(1)
    MySQL 是怎样运行的:从根儿上理解 MySQL:字符集和比较规则
    springboot整合websocket实现一对一消息推送和广播消息推送
    喜大普奔!GitHub中文版帮助文档上线了!
    趣图:这是拿offer极高的面试经验
    推荐十大经典排序算法,再也不用担心面试了!
    谈谈培训机构的骗局
  • 原文地址:https://www.cnblogs.com/kex1n/p/2308046.html
Copyright © 2011-2022 走看看