zoukankan      html  css  js  c++  java
  • Python3 pickle模块

    用于序列化的两个模块
      json:用于字符串和Python数据类型间进行转换
      pickle: 用于python特有的类型和python的数据类型间进行转换
      json提供四个功能:dumps,dump,loads,load
      pickle提供四个功能:dumps,dump,loads,load

    pickle可以存储什么类型的数据呢?

      所有python支持的原生类型:布尔值,整数,浮点数,复数,字符串,字节,None。

      由任何原生类型组成的列表,元组,字典和集合。

      函数,类,类的实例

    什么叫序列化?
      把对象在内存中的结构转换成便于存储或传输的二进制或文本格式,而且以后可以在同一个系统或不同的系统中重建对象的副本。pickle模块能把任何Python对象序列化成二进制格式。

    常采用下面的方式使用:

    import pickle
    pickle.dump(obj,f)
    pickle.dumps(obj,f)
    pickle.load(f)
    pickle.loads(f)

      使用pickle模块你可以把Python对象直接保存到文件,而不需要把他们转化为字符串,也不用底层的文件访问操作把它们写入到一个二进制文件里。 pickle模块会创建一个python语言专用的二进制格式,你基本上不用考虑任何文件细节,它会帮你干净利落地完成读写独享操作,唯一需要的只是一个合法的文件句柄。

    pickle模块中的两个主要函数是dump()和load():

      dump()函数接受一个文件句柄和一个数据对象作为参数,把数据对象以特定的格式保存到给定的文件中。当我们使用load()函数从文件中取出已保存的对象时,pickle知道如何恢复这些对象到它们本来的格式。

      dumps()函数执行和dump() 函数相同的序列化。取代接受流对象并将序列化后的数据保存到磁盘文件,这个函数简单的返回序列化的数据。

      loads()函数执行和load() 函数一样的反序列化。取代接受一个流对象并去文件读取序列化后的数据,它接受包含序列化后的数据的str对象, 直接返回的对象。

    示例:

    # -*- coding:utf-8 -*-
    import pickle
    obj = 123, "abcdef", ["ac", 123], {"key": "value", "key1": "value1"}
    print(obj)
    # 序列化到文件
    with open(r"F:pycodesMLa.txt", "wb") as f:
     pickle.dump(obj, f)
    with open(r"F:\pycodes\ML\a.txt", "rb") as f:
     print(pickle.load(f))# 输出:(123, 'abcdef', ['ac', 123], {'key': 'value', 'key1': 'value1'})
    # 序列化到内存(字符串格式保存),然后对象可以以任何方式处理如通过网络传输
    obj1 = pickle.dumps(obj)
    print(type(obj1))# 输出<class 'bytes'>
    print(obj1)# 输出:python专用的存储格式 b'x80x03(K{Xx06x00x00x00abcdefqx00]qx01(Xx02x00x00x00acqx02K{e}qx03(Xx03x00x00x00keyqx04Xx05x00x00x00valueqx05Xx04x00x00x00key1qx06Xx06x00x00x00value1qx07utqx08.'
    obj2 = pickle.loads(obj1)
    print(type(obj2))# 输出:<class 'tuple'>
    print(obj2) # 输出:(123, 'abcdef', ['ac', 123], {'key': 'value', 'key1': 'value1'})

    json

    要在不同的编程语言之间传递对象,更好的方法是序列化为JSON,因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。

    pickle模块详解

    pickle模块实现了用于序列化和反序列化Python对象结构的二进制协议。 “Pickling”是将Python对象层次结构转换为字节流的过程, “unpickling”是反向操作,从而将字节流(来自二进制文件或类似字节的对象)转换回对象层次结构。pickle模块对于错误或恶意构造的数据是不安全的。

    pickle协议和JSON(JavaScript Object Notation)的区别 :

      1. JSON是一种文本序列化格式(它输出unicode文本,虽然大部分时间它被编码utf-8),而pickle是二进制序列化格式;

      2. JSON是人类可读的,而pickle则不是;

      3. JSON是可互操作的,并且在Python生态系统之外广泛使用,而pickle是特定于Python的;

    默认情况下,JSON只能表示Python内置类型的子集,而不能表示自定义类; pickle可以表示极其庞大的Python类型(其中许多是自动的,通过巧妙地使用Python的内省工具;复杂的案例可以通过实现特定的对象API来解决)。

    pickle 数据格式是特定于Python的。它的优点是没有外部标准强加的限制,例如JSON或XDR(不能代表指针共享); 但是这意味着非Python程序可能无法重建pickled Python对象。

    默认情况下,pickle数据格式使用相对紧凑的二进制表示。如果您需要最佳尺寸特征,则可以有效地压缩数据。

    模块接口

    要序列化对象层次结构,只需调用该dumps()函数即可。同样,要对数据流进行反序列化,请调用该loads()函数。但是,如果您想要更多地控制序列化和反序列化,则可以分别创建一个Pickler或一个Unpickler对象。

    pickle模块提供以下常量:

    pickle.HIGHEST_PROTOCOL

    整数, 可用的最高协议版本。这个值可以作为一个被传递协议的价值函数 dump()dumps()以及该Pickler 构造函数。

    pickle.DEFAULT_PROTOCOL

    整数,用于编码的默认协议版本。可能不到HIGHEST_PROTOCOL。目前,默认协议是3,这是为Python 3设计的新协议。

    pickle模块提供以下功能,使酸洗过程更加方便:

    pickle.dump(obj,file,protocol = None,*,fix_imports = True 

    将obj对象的编码pickle编码表示写入到文件对象中,相当于Pickler(file,protocol).dump(obj)

    可供选择的协议参数是一个整数,指定pickler使用的协议版本,支持的协议是0到HIGHEST_PROTOCOL。如果未指定,则默认为DEFAULT_PROTOCOL。如果指定为负数,则选择HIGHEST_PROTOCOL

    文件参数必须具有接受单个字节的参数写方法。因此,它可以是为二进制写入打开的磁盘文件, io.BytesIO实例或满足此接口的任何其他自定义对象。

    如果fix_imports为true且protocol小于3,则pickle将尝试将新的Python 3名称映射到Python 2中使用的旧模块名称,以便使用Python 2可读取pickle数据流。

    pickle.dumps(obj,protocol = None,*,fix_imports = True 

    将对象的pickled表示作为bytes对象返回,而不是将其写入文件。

    参数protocol和fix_imports具有与in中相同的含义 dump()

    pickle.load(file,*,fix_imports = True,encoding =“ASCII”,errors =“strict” 

    从打开的文件对象 文件中读取pickle对象表示,并返回其中指定的重构对象层次结构。这相当于Unpickler(file).load()

    pickle的协议版本是自动检测的,因此不需要协议参数。超过pickle对象的表示的字节将被忽略。

    参数文件必须有两个方法,一个采用整数参数的read()方法和一个不需要参数的readline()方法。两种方法都应返回字节。因此,文件可以是为二进制读取而打开的磁盘文件,io.BytesIO对象或满足此接口的任何其他自定义对象。

    可选的关键字参数是fix_imports,encoding和errors,用于控制Python 2生成的pickle流的兼容性支持。如果fix_imports为true,则pickle将尝试将旧的Python 2名称映射到Python 3中使用的新名称。编码和 错误告诉pickle如何解码Python 2编码的8位字符串实例; 这些默认分别为'ASCII'和'strict'。该编码可以是“字节”作为字节对象读取这些8位串的实例。使用encoding='latin1'所需的取储存NumPy的阵列和实例datetimedate并且time被Python 2解码。

    pickle.loads(bytes_object,*,fix_imports = True,encoding =“ASCII”,errors =“strict” 

    bytes对象读取pickle对象层次结构并返回其中指定的重构对象层次结构。

    pickle的协议版本是自动检测的,因此不需要协议参数。超过pickle对象的表示的字节将被忽略。

    复制代码
    import numpy as np
    import pickle
    import io
    
    if __name__ == '__main__':
        path = 'test'
        f = open(path, 'wb')
        data = {'a':123, 'b':'ads', 'c':[[1,2],[3,4]]}
        pickle.dump(data, f)
        f.close()
    
        f1 = open(path, 'rb')
        data1 = pickle.load(f1)
        print(data1)
    复制代码

    对于python格式的数据集,我们就可以使用pickle进行加载了,下面与cifar10数据集为例,进行读取和加载:

    复制代码
    import numpy as np
    import pickle
    import random
    import matplotlib.pyplot as plt
    from PIL import Image
    
    path1 = 'D:\tmpcifar10_datacifar-10-batches-pydata_batch_1'
    path2 = 'D:\tmpcifar10_datacifar-10-batches-pydata_batch_2'
    path3 = 'D:\tmpcifar10_datacifar-10-batches-pydata_batch_3'
    path4 = 'D:\tmpcifar10_datacifar-10-batches-pydata_batch_4'
    path5 = 'D:\tmpcifar10_datacifar-10-batches-pydata_batch_5'
    
    path6 = 'D:\tmpcifar10_datacifar-10-batches-py\test_batch'
    
    if __name__ == '__main__':
        with open(path1, 'rb') as fo:
            data = pickle.load(fo, encoding='bytes')
    
            # print(data[b'batch_label'])
            # print(data[b'labels'])
            # print(data[b'data'])
            # print(data[b'filenames'])
    
            print(data[b'data'].shape)
    
            images_batch = np.array(data[b'data'])
            images = images_batch.reshape([-1, 3, 32, 32])
            print(images.shape)
            imgs = images[5, :, :, :].reshape([3, 32, 32])
            img = np.stack((imgs[0, :, :], imgs[1, :, :], imgs[2, :, :]), 2)
    
            print(img.shape)
    
            plt.imshow(img)
            plt.axis('off')
            plt.show()
    复制代码

    运行结果:

    接下来就可以读取数据进行训练了。

    参考自:https://www.jb51.net/article/170110.htm

    https://www.cnblogs.com/baby-lily/p/10990026.html

  • 相关阅读:
    新建maven 父子模块项目
    for循环删除list中多个元素出现的误区
    mysql不支持emoji表情的问题的解决方法
    innodb的读写参数优化
    redis list命令
    redis之常用Set和ZSet命令
    java中list里面存放map,根据map中的某一个字段进行排序
    spring-redis 存储数据
    批量mvn 打包 bat文件命令
    yum 安装docker后 无法启动
  • 原文地址:https://www.cnblogs.com/yunlong-study/p/12665465.html
Copyright © 2011-2022 走看看