zoukankan      html  css  js  c++  java
  • tensorflow高效读取数据之tfrecord

    TFRecord输入数据格式

    Tensorflow提供了一种统一的格式来存储数据,这个格式就是TFRecord,接下来介绍如何使用TFRecord来统一输入数据的格式。

    • TFRcord格式介绍

    TFRcord文件中的数据都是通过tf.train.Example Protocol Buffer的格式来存储的,以下代码给出了tf.train.Example的定义。

    message example{
        Feature feature = 1;
    }
    
    message Feature {
        map < string,Feature > feature = 1;
    }
    message Feature {
        oneof kind {
            BytesList bytes_list = 1;
            FloatList float_list = 2;
            Int64List int64_list = 3;
        }
    };

    从以上代码可以看出tf.train.Example的数据结构是比较简洁的。tf.train.Example中包含了一个从属性名称到取值的字典。其中属性名称是一个字符串,属性数值可以为字符串(BytesList),实数列表(FloatList)或者整数列表(Int64List)。


    TFRcord样例程序

    • 本样例展示了把mnist数据集转化为TFRcord格式。
    #coding;utf-8
    
    import tensorflow as tf
    from tensorflow.examples.tutorials.mnist import input_data
    import numpy as np
    
    def _int64_feature(value):
        return tf.train.Feature(int64_list=tf.train.Int64List(value=[value]))
    
    def _bytes_feature(value):
        return tf.train.Feature(bytes_list=tf.train.BytesList(value=[value]))
    
    mnist = input_data.read_data_sets('mnist/',dtype=tf.uint8,one_hot=True)
    
    images = mnist.train.images
    labels = mnist.train.labels
    
    pixels = images.shape[1]
    
    num_examples = mnist.train.num_examples
    
    filename = 'output/train.tfrecords'
    
    writer = tf.python_io.TFRecordWriter(filename)
    for index in range(num_examples):
        image_raw = images[index].tostring()
        example = tf.train.Example(features=tf.train.Features(feature={
            'pixels':_int64_feature(pixels),
            'label':_int64_feature(np.argmax(labels[index])),
            'image_raw':_bytes_feature(image_raw)}))
    
        writer.write(example.SerializeToString())
    writer.close()

    以上程序可以将mnist数据集中所有的训练数据存储到一个TFRcord文件中,当数据量较大时,也可以将数据写入多个TFRcord文件。


    • 本样例展示了读取TFRcord中的数据。
    #coding;utf-8
    
    import tensorflow as tf
    import matplotlib as plt
    import cv2
    
    reader = tf.TFRecordReader()
    #创建一个队列来维护输入的文件列表
    filename_queue = tf.train.string_input_producer(['output/train.tfrecords'])
    
    _,serialized_example = reader.read(filename_queue)
    
    features = tf.parse_single_example(serialized_example,
                                       features={
                                           'image_raw':tf.FixedLenFeature([],tf.string),
                                           'pixels':tf.FixedLenFeature([],tf.int64),
                                           'label':tf.FixedLenFeature([],tf.int64),
                                       })
    images = tf.decode_raw(features['image_raw'],tf.uint8)
    labels = tf.cast(features['label'],tf.int32)
    pixels = tf.cast(features['pixels'],tf.int32)
    
    sess = tf.Session()
    
    coord = tf.train.Coordinator()
    
    threads = tf.train.start_queue_runners(sess=sess,coord=coord)
    for i in range(10):
        image,label,pixel = sess.run([images,labels,pixels])
        cv2.imshow('image',image)
    
    

    以上程序可以将之前生成的train.tfrecords文件转换为可读图片。

    天上我才必有用,千金散尽还复来!
  • 相关阅读:
    使用淘宝Str2varlist与str2numlist 代替 in/exist ,提升性能(Oracle)
    由浅入深理解索引的实现
    你知道数据库索引的工作原理吗?
    深入理解数据库磁盘存储(Disk Storage)
    如何解析oracle执行计划
    Beyond Compare 4 最新中文版 注册码 key
    并发和并行的区别
    代码复用的规则
    Some Java exceptions, messages and errors.
    菜鸟学SSH(十六)——Struts2内部是如何工作的
  • 原文地址:https://www.cnblogs.com/lutaishi/p/13436328.html
Copyright © 2011-2022 走看看