zoukankan      html  css  js  c++  java
  • np.save

    将 numpy 数组存入文件,有多种文件类型可供选择,对应地就有不同的方法来读写。

    下面我将介绍读写 numpy 的三类文件:

    • txt 或者 csv 文件
    • npy 或者 npz 文件
    • hdf5 文件

    通过 numpy 读写 txt 或 csv 文件

    import numpy as np
    
    a = np.array(range(20)).reshape((4, 5))
    print(a)
    
    # 后缀改为 .txt 一样
    filename = 'data/a.csv'
    # 写文件
    np.savetxt(filename, a, fmt='%d', delimiter=',')
    
    # 读文件
    b = np.loadtxt(filename, dtype=np.int32, delimiter=',')
    print(b)

    缺点:

    • 只能保存一维和二维 numpy 数组,当 numpy 数组 a 有多维时,需要将其 a.reshape((a.shape[0], -1)) 后才能用这种方式保存。
    • 不能追加保存,即每次 np.savetxt() 都会覆盖之前的内容。

    通过 numpy 读写 npy 或 npz 文件

    读写 npy 文件

    import numpy as np
    
    a = np.array(range(20)).reshape((2, 2, 5))
    print(a)
    
    filename = 'data/a.npy'
    # 写文件
    np.save(filename, a)
    
    # 读文件
    b = np.load(filename)
    print(b)
    print(b.shape)

    优点:

    • npy 文件可以保存任意维度的 numpy 数组,不限于一维和二维;
    • npy 保存了 numpy 数组的结构,保存的时候是什么 shape 和 dtype,取出来时就是什么样的 shape 和 dtype。

    缺点:

    • 只能保存一个 numpy 数组,每次保存会覆盖掉之前文件中存在的内容(如果有的话)。

    读写 npz 文件

    import numpy as np
    
    a = np.array(range(20)).reshape((2, 2, 5))
    b = np.array(range(20, 44)).reshape(2, 3 ,4)
    print('a:\n', a)
    print('b:\n', b)
    
    filename = 'data/a.npz'
    # 写文件, 如果不指定key,那么默认key为'arr_0''arr_1',一直排下去。
    np.savez(filename, a, b=b)
    
    # 读文件
    c = np.load(filename)
    print('keys of NpzFile c:\n', c.keys())
    print("c['arr_0']:\n", c['arr_0'])
    print("c['b']:\n", c['b'])

    优点:

    • npy 文件可以保存任意维度的 numpy 数组,不限于一维和二维;
    • npy 保存了 numpy 数组的结构,保存的时候是什么 shape 和 dtype,取出来时就是什么样的 shape 和 dtype;
    • 可以同时保存多个 numpy 数组;
    • 可以指定保存 numpy 数组的 key,读取的时候很方便,不会混乱。

    缺点:

    • 保存多个 numpy 数组时,只能同时保存,即 np.savez(filename, a, b=b)。每次保存会覆盖掉之前文件中存在的内容(如果有的话)。

    通过 h5py 读写 hdf5 文件

    优点:

    • 不限 numpy 数组维度,可以保持 numpy 数组结构和数据类型;
    • 适合 numpy 数组很大的情况,文件占用空间小;
    • 可以通过 key 来访问 dataset(可以理解为 numpy.array),读取的时候很方便,不会混乱。
    • 可以不覆盖原文件中含有的内容。

    简单读取

    import numpy as np
    import h5py
    
    a = np.array(range(20)).reshape((2, 2, 5))
    b = np.array(range(20)).reshape((1, 4, 5))
    print(a)
    print(b)
    
    filename = 'data/data.h5'
    # 写文件
    h5f = h5py.File(filename, 'w')
    h5f.create_dataset('a', data=a)
    h5f.create_dataset('b', data=b)
    h5f.close()
    
    # 读文件
    h5f = h5py.File(filename, 'r')
    print(type(h5f))
    # 通过切片得到numpy数组
    print(h5f['a'][:])
    print(h5f['b'][:])
    h5f.close()

    通过切片赋值

    import numpy as np
    import h5py
    
    a = np.array(range(20)).reshape((2, 2, 5))
    print(a)
    
    filename = 'data/a.h5'
    # 写文件
    h5f = h5py.File(filename, 'w')
    # 当数组a太大,需要切片进行操作时,可以不直接对h5f['a']进行初始化;
    # 当之后不需要改变h5f['a']的shape时,可以省略maxshape参数
    h5f.create_dataset('a', shape=(2, 2, 5), maxshape=(None, 2, 5), dtype=np.int32, compression='gzip')
    for i in range(2):
        # 采用切片的形式赋值
        h5f['a'][i] = a[i]
    h5f.close()
    
    # 读文件
    h5f = h5py.File(filename, 'r')
    print(type(h5f))
    print(h5f['a'])
    # 通过切片得到numpy数组
    print(h5f['a'][:])

    同一个 hdf5 文件可以创建多个 dataset,读取的时候按照 key 来即可。

    总结

    • csv 和 txt 只能用来存一维或二维 numpy 数组;
    • npy 用来存单个 numpy 数组,npz 可以同时存多个 numpy 数组,两者都不限 numpy 维度,且都保持 numpy 数组的 shape 和 dtype,写文件时若原文件存在只能覆盖原文件内容;
    • 当 numpy 数组很大时,最好使用 hdf5 文件,hdf5 文件相对更小;
    • 当 numpy 数组很大时,对整个 numpy 数组进行运算容易发生 MemoryError,那么此时可以选择对 numpy 数组切片,将运算后的数组保存到 hdf5 文件中,hdf5 文件支持切片索引。

    References

    当Python遇上HDF5--性能优化实战 -- 张玉腾
    杂: PYTHON上数据储存:推荐h5py -- Pony_s

    作者:wuliytTaotao
    本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。
     
  • 相关阅读:
    列举 spring 支持的事务管理类型?
    memcached 能够更有效地使用内存吗?
    Redis 集群方案什么情况下会导致整个集群不可用?
    详细描述一下 Elasticsearch 更新和删除文档的过程?
    Redis 常见性能问题和解决方案?
    如果有大量的 key 需要设置同一时间过期,一般需要注意什么?
    synchronized 和 ReentrantLock 的区别?
    Redis 支持的 Java 客户端都有哪些?官方推荐用哪个?
    memcached 最大的优势是什么?
    memcached 是原子的吗?
  • 原文地址:https://www.cnblogs.com/yibeimingyue/p/15411687.html
Copyright © 2011-2022 走看看