zoukankan      html  css  js  c++  java
  • Numpy系列(十三)- 文件IO

    NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。

    一,tofile()和fromfile()

    • tofile()将数组中的数据以二进制格式写进文件
    • tofile()输出的数据不保存数组形状和元素类型等信息
    • fromfile()函数读回数据时需要用户指定元素类型,并对数组的形状进行适当的修改
    a = np.arange(0, 12).reshape(3, 4)
    a
    Out[355]: 
    array([[ 0,  1,  2,  3],
           [ 4,  5,  6,  7],
           [ 8,  9, 10, 11]])
    a.tofile('a.bin')
    b = np.fromfile('a.bin', dtype=np.float)  # 按照float类型读取数据
    b # 读入的数据是错误的
    Out[358]: 
    array([2.12199579e-314, 6.36598737e-314, 1.06099790e-313, 1.48539705e-313,
           1.90979621e-313, 2.33419537e-313])
    a.dtype
    Out[359]: dtype('int32')
    b = np.fromfile('a.bin', dtype=np.int32) # 按照Int32类型读入数据
    b  # b的数值是一维的
    Out[363]: array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])
    b.shape = 3, 4    # 改变b的形状, 还原数据
    b    # ok 正确
    Out[366]: 
    array([[ 0,  1,  2,  3],
           [ 4,  5,  6,  7],
           [ 8,  9, 10, 11]])

           从上面的例子可以看出,在读入数据时:需要正确设置dtype参数,并修改数组的shape属性才能得到和原始数据一致的结果。无论数据的排列顺序是C语言格式还是Fortran语言格式,tofile()都统一使用C语言格式输出。此外如果指定了sep参数,则fromfile()和tofile()将以文本格式对数组进行输入输出。sep参数指定的是文本数据中数值的分隔符。

    二.save()和load()

    1. NumPy专用的二进制格式保存数据,它们会自动处理元素类型和形状等信息
    2. 如果想将多个数组保存到一个文件中,可以使用savez()
    3. savez()的第一个参数是文件名,其后的参数都是需要保存的数组,也可以使用关键字参数为数组起名
    4. 非关键字参数传递的数组会自动起名为arr_0、arr_1、...。
    5. savez()输出的是一个扩展名为npz的压缩文件,其中每个文件都是一个save()保存的npy文件,文件名和数组名相同
    6. load()自动识别npz文件,并且返回一个类似于字典的对象,可以通过数组名作为键获取数组的内容
    # save和load
    np.save('a.npy', a)
    c = np.load('a.npy')
    c
    Out[369]: 
    array([[ 0,  1,  2,  3],
           [ 4,  5,  6,  7],
           [ 8,  9, 10, 11]])
    
    # savez和load
    a = np.array([[1,2,3],[4,5,6]])
    b = np.arange(0, 1.0, 0.1)
    c = np.sin(b)
    np.savez('result.npz', a, b, sin_array=c)
    r = np.load('result.npz')
    r['arr_0']  # 数组a
    Out[376]: 
    array([[1, 2, 3],
           [4, 5, 6]])
    r['arr_1']  # 数组b
    Out[377]: array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])
    r['sin_array']  # 数组c
    Out[378]: 
    array([0.        , 0.09983342, 0.19866933, 0.29552021, 0.38941834,
           0.47942554, 0.56464247, 0.64421769, 0.71735609, 0.78332691])

    三.savetxt()和loadtxt()

    • 读写1维和2维数组的文本文件
    • 可以用它们读写CSV格式的文本文件
    a = np.arange(0, 12, 0.5).reshape(4, -1)
    a
    Out[380]: 
    array([[ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5],
           [ 3. ,  3.5,  4. ,  4.5,  5. ,  5.5],
           [ 6. ,  6.5,  7. ,  7.5,  8. ,  8.5],
           [ 9. ,  9.5, 10. , 10.5, 11. , 11.5]])
    np.savetxt('a.txt', a) # 缺省按照’%.18e'格式保存数值,以空格分隔
    np.loadtxt('a.txt')
    Out[382]: 
    array([[ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5],
           [ 3. ,  3.5,  4. ,  4.5,  5. ,  5.5],
           [ 6. ,  6.5,  7. ,  7.5,  8. ,  8.5],
           [ 9. ,  9.5, 10. , 10.5, 11. , 11.5]])
    np.savetxt('a.txt', a, fmt='%d', delimiter=',') # 保存为整数, 以逗号分割
    np.loadtxt('a.txt', delimiter=',')  # 读入数据的时候需指定以逗号分割
    Out[384]: 
    array([[ 0.,  0.,  1.,  1.,  2.,  2.],
           [ 3.,  3.,  4.,  4.,  5.,  5.],
           [ 6.,  6.,  7.,  7.,  8.,  8.],
           [ 9.,  9., 10., 10., 11., 11.]])

    image

    tmp = np.loadtxt('test.csv', dtype=np.str, delimiter=',', encoding='utf-8')
    tmp
    Out[389]: 
    array([['姓名', '年龄', '体重', '身高'],
           ['张三', '30', '75', '165'],
           ['李四', '45', '60', '170'],
           ['王五', '15', '30', '120']], dtype='<U3')
    data = tmp[1:, 1:].astype(np.float)
    data
    Out[391]: 
    array([[ 30.,  75., 165.],
           [ 45.,  60., 170.],
           [ 15.,  30., 120.]])

    四.文件对象file

    a = np.arange(8)
    b = np.add.accumulate(a)
    b
    Out[394]: array([ 0,  1,  3,  6, 10, 15, 21, 28], dtype=int32)
    c  = a + b
    f = open('result.npy', 'wb')
    np.save(f, a) # 顺序将a,b,c保存进文件对象f
    np.save(f, b)
    np.save(f, c)
    f.close()
    f = open('result.npy', 'rb')
    np.load(f)   # 顺序从文件对象f中读取内容
    Out[404]: array([0, 1, 2, 3, 4, 5, 6, 7])
    np.load(f)
    Out[405]: array([ 0,  1,  3,  6, 10, 15, 21, 28])
    np.load(f)
    Out[406]: array([ 0,  2,  5,  9, 14, 20, 27, 35])
    
  • 相关阅读:
    数据卷中的容器操作,整体来说还是非常简单的
    Docker 的另外两个话题: DockerHub 和 容器网络
    Docker——理解好镜像和容器的关系
    MapReduce 运行全过程解析
    MySQL 之 Explain 输出分析
    关于新手数组:样题:陶陶摘苹果
    VirtualBox安装Ubuntu-18.04-Server笔记
    做一个不复制粘贴的程序员[1]: 使用模板方法模式(2)- 对象更新比较器实例
    做一个不复制粘贴的程序员[1]: 使用模板方法模式(1)- 分页查询实例
    做一个不复制粘贴的程序员[0]: 概述
  • 原文地址:https://www.cnblogs.com/zhangyafei/p/10573900.html
Copyright © 2011-2022 走看看