https://blog.csdn.net/qq_40913465/article/details/104790258
1、tf.data.TextLineDataset
2、tf.decode_csv
https://blog.csdn.net/AI_LX/article/details/89513309
tf.decode_csv(
tf.decode_csv(
records,
record_defaults,
field_delim=’,’,
na_value=’’,
select_cols=None
)
将每条记录转换为张量。每一列映射到一个张量.
records: 字符串类型的张量。每个字符串都是csv中的记录/行,所有记录都应该具有相同的格式。
record_defaults: 具有特定类型的张量对象的列表,必须为二维,如[['0.0'], [0.0]],可接受的类型有float32、float64、int32、int64、string。
field_delim: 可选字符串。默认为“,”,必须是单个字符。用于分隔记录中的字段的char分隔符。
use_quote_delim:可选bool。默认值为True。如果为false,则将双引号作为字符串字段内的正则字符
name:操作的名称(可选)。
na_value:要识别为NA/NaN的附加字符串。
select_cols:要选择的列索引的可选排序列表。如果指定,则只解析和返回这个列子集。
返回:
张量对象的列表。具有与record_defaults相同的类型。每个张量的形状都和记录中的一样。
3、TableRecordDataset
https://help.aliyun.com/document_detail/173165.html?spm=a1z2e.8101737.webpage.dtitle0.6d914f9bc3yHM0
使用TableRecordDataset接口按照行读取MaxComepute表数据并构建数据流
class TableRecordDataset(Dataset):
def __init__(self,
filenames,
record_defaults,
selected_cols=None,
excluded_cols=None,
slice_id=0,
slice_count=1,
num_threads=0,
capacity=0):
filenames: 待读取的表名集合(列表),同一张表可以重复读取;
record_defaults: tuple, 每个元素是标量.系统支持的数据类型包括FLOAT32、FLOAT64、INT32、INT64、BOOL及STRING。注意该参数与tf.decode_csv()不同!
elected_cols: 选取的列,格式为英文逗号(,)分隔的字符串;