zoukankan      html  css  js  c++  java
  • Base64及其Python实现

    1. 什么是Base64

    Base64是一种基于64个可打印字符来表示二进制数据的表示方法

    Base64是一种编码方式,提及编码方式,必然有其对应的字符集合。在Base64编码中,相互映射的两个集合是:

    • 二进制数据{0, 1}
    • {A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z, a, b, c, d, e, f, g, h, i, j, k, l, m, n, o, p, q, r, s, t, u, v, w, x, y, z, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, +, /}

    Base64编码方式可使得信息在这两种字符集表示法之间相互等价转换

    因为Base64的编码方式是公开的,所以base64也可以算是公开算法的加密方法;但是只能简单的“加密”保护某些数据,决不能在需要安全等级较高的场景中使用,因为可以使用公开的编码方法轻易从base64字符表示的数据解码二进制数据。

    2. base64编码过程

    由于base64的字符集大小为64,那么,需要6个比特的二进制数作为一个基本单元表示一个base64字符集中的字符。因为6个比特有2^6=64种排列组合。

    具体来说,编码过程如下:

    1. 将每三个字节作为一组,共24bit,若不足24bit在其后补充0;
    2. 将这24个bit分为4组,每一组6个bit;
    3. 在每组前加00扩展为8个bit,形成4个字节,每个字节表示base64字符集索引;
    4. 扩展后的8bit表示的整数作为索引,对应base64字符集的一个字符,这就是base64编码值;在处理最后的不足3字节时,缺一个字节索引字节取3个,最后填充一个=,;缺两个字节取2个索引字节,最后填充==。

    解码时将过程逆向即可。

    Base64索引表:

    图片来源维基百科

    3.编码示例

    示例一
    Man的base64编码

    图片来源维基百科

    1. 第一步,'M', 'a', 'n'的ASCII值分别为77, 97, 110,对应的二进制值分别为:01001101, 01100001, 01101110;取三个字节共24bit:010011010110000101101110
    2. 第二步,将这24bit分为4组,每组6个bit:010011, 010110, 000101, 101110
    3. 每组前面加00,形成4个字节的,00010011, 00010110, 00000101, 00101110, 即19, 22, 5, 46
    4. 根据索引表,对应的base64字符分别是T, W, F, u

    最后的base64字符串是: TWFu。
    解码时将过程逆向即可。

    示例二
    剩余两个字节,BC的base64编码

    图片来源维基百科

    1. 第一步,'B', 'C'的ASCII值分别为66, 64, 对应二进制值分别为:01000010, 01000011;取三个字节,不足不0,共24bit:01000010, 01000011, 00000000
    2. 第二步,将这24bit分为4组,每组6个bit:010000, 100100, 001100, 000000
    3. 每组前面加00,形成4个字节的,00010000, 00100100, 00001100, 00000000,即16, 36, 12, 0
    4. 由于'B', 'C'只有两个字节,缺一个字节,因此取3个索引;根据索引表,对应的base64字符分别是Q, k, M,最后填充一个=

    最后的base64字符串是:QkM=

    示例三
    剩余一个字节,A的base64编码

    图片来源维基百科

    1. 第一步,'A'的ASCII值65, 对应二进制值为:01000001; 取三个字节,不足不0,共24bit:01000001, 00000000, 00000000
    2. 第二步,将这24bit分为4组,每组6个bit:010000, 010000, 000000, 000000
    3. 每组前面加00,形成4个字节的,00010000, 00010000, 00000000, 00000000,即16, 16, 0, 0
    4. 由于'A'只有一个字节,缺两个字节,因此取2个索引;根据索引表,对应的base64字符分别是Q, Q,最后填充==

    最后的base64字符串是:QQ==

    4. Python实现

    """
    base64实现
    """
    
    import base64
    import string
    
    # base 字符集
    
    base64_charset = string.ascii_uppercase + string.ascii_lowercase + string.digits + '+/'
    
    
    def encode(origin_bytes):
        """
        将bytes类型编码为base64
        :param origin_bytes:需要编码的bytes
        :return:base64字符串
        """
    
        # 将每一位bytes转换为二进制字符串
        base64_bytes = ['{:0>8}'.format(str(bin(b)).replace('0b', '')) for b in origin_bytes]
    
        resp = ''
        nums = len(base64_bytes) // 3
        remain = len(base64_bytes) % 3
    
        integral_part = base64_bytes[0:3 * nums]
        while integral_part:
            # 取三个字节,以每6比特,转换为4个整数
            tmp_unit = ''.join(integral_part[0:3])
            tmp_unit = [int(tmp_unit[x: x + 6], 2) for x in [0, 6, 12, 18]]
            # 取对应base64字符
            resp += ''.join([base64_charset[i] for i in tmp_unit])
            integral_part = integral_part[3:]
    
        if remain:
            # 补齐三个字节,每个字节补充 0000 0000
            remain_part = ''.join(base64_bytes[3 * nums:]) + (3 - remain) * '0' * 8
            # 取三个字节,以每6比特,转换为4个整数
            # 剩余1字节可构造2个base64字符,补充==;剩余2字节可构造3个base64字符,补充=
            tmp_unit = [int(remain_part[x: x + 6], 2) for x in [0, 6, 12, 18]][:remain + 1]
            resp += ''.join([base64_charset[i] for i in tmp_unit]) + (3 - remain) * '='
    
        return resp
    
    
    def decode(base64_str):
        """
        解码base64字符串
        :param base64_str:base64字符串
        :return:解码后的bytearray;若入参不是合法base64字符串,返回空bytearray
        """
        if not valid_base64_str(base64_str):
            return bytearray()
    
        # 对每一个base64字符取下标索引,并转换为6为二进制字符串
        base64_bytes = ['{:0>6}'.format(str(bin(base64_charset.index(s))).replace('0b', '')) for s in base64_str if
                        s != '=']
        resp = bytearray()
        nums = len(base64_bytes) // 4
        remain = len(base64_bytes) % 4
        integral_part = base64_bytes[0:4 * nums]
    
        while integral_part:
            # 取4个6位base64字符,作为3个字节
            tmp_unit = ''.join(integral_part[0:4])
            tmp_unit = [int(tmp_unit[x: x + 8], 2) for x in [0, 8, 16]]
            for i in tmp_unit:
                resp.append(i)
            integral_part = integral_part[4:]
    
        if remain:
            remain_part = ''.join(base64_bytes[nums * 4:])
            tmp_unit = [int(remain_part[i * 8:(i + 1) * 8], 2) for i in range(remain - 1)]
            for i in tmp_unit:
                resp.append(i)
    
        return resp
    
    
    def valid_base64_str(b_str):
        """
        验证是否为合法base64字符串
        :param b_str: 待验证的base64字符串
        :return:是否合法
        """
        if len(b_str) % 4:
            return False
    
        for m in b_str:
            if m not in base64_charset:
                return False
        return True
    
    
    if __name__ == '__main__':
        s = '我的目标是星辰大海. One piece, all Blue'.encode()
        local_base64 = encode(s)
        print('使用本地base64加密:', local_base64)
        b_base64 = base64.b64encode(s)
        print('使用base64加密:', b_base64.decode())
    
        print('使用本地base64解密:', decode(local_base64).decode())
        print('使用base64解密:', base64.b64decode(b_base64).decode())
    
    

    5. 中文的base64编码

    其实base64编码只是在二进制与base64字符集之间映射的编码,与其他字符集毫无关系。其他字符集想要转换为base64编码,只需先将其转换为二进制,再做base64编码即可。

    那么对于Unicode字符集而言,有多种编码方式将其装换为二进制,所以在编码过程中就需要统一编码,以免造成乱码。上述Python示例就将中文转换为base64,首先使用默认编码utf-8将字符串转换为二进制(使用Python的str.encode()),再做base64编码;解码时候同样如此,先将base64字符串解码为二进制,再将二进制转换为字符串(使用Python的str.decode()

    6. 参考资料

    1. 维基百科-Base64
    2. 百度百科-ASCII
  • 相关阅读:
    使用truffle测试部署合约
    nodejs promise深度解析
    pthread线程特定数据
    基于信号量与互斥锁实现的生产者和消费者
    Linux coredump 的打开和关闭
    Linux 双网卡配置两个IP同时只有一个会通的原因
    进程间通信-共享内存
    进程间通信-消息队列
    TCP/IP SIGPIPE信号
    Select模式和超时
  • 原文地址:https://www.cnblogs.com/crazyrunning/p/7382693.html
Copyright © 2011-2022 走看看