Parquet是列式存储格式的一种文件类型,列式存储有以下的核心优势:
可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量
压缩编码可以降低磁盘存储空间,由于同一列的数据类型是一样的,可以使用更搞笑的压缩编码(例如Run Length Encoding和Delta Encoding)进一步几月存储空间
只读取需要的列,支持向量运算,能够获取更好的扫描性能
可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量
压缩编码可以降低磁盘存储空间,由于同一列的数据类型是一样的,可以使用更搞笑的压缩编码(例如Run Length Encoding和Delta Encoding)进一步几月存储空间
只读取需要的列,支持向量运算,能够获取更好的扫描性能