pandas可以进行数据输入和输出,有以下几种类型:读取文本文件及硬盘上其他更高效的格式文件,从数据库中载入数据,于网络资源进行交互(比如Web API)。
下面进行不同文本文件的读取和写入操作讲解,首先进行文本格式数据的读写讲解。
一:文本格式数据的读写
将表格型数据读取为DataFrame对象是pandas的重要特性。下面介绍一下一些方法。
pd.read_csv():将csv文件数据读入一个DataFrame。
pd.read_table():将csv文件数据读入一个DataFrame,可以用sep指定分隔符,一般为",",可以针对不同的分隔符号用正则表达式分隔。
有时候文件并不包含表头行,就需要选择一些选项,用header=None可以自动分配默认列名,或者可以自己用names指定列名。
如果想要指定某一列作为索引,可以直接指定,或者将该列的列名传给参数index_col。 在index_col里面可以用列表作为参数,形成一个分层索引。
使用skiprows可以跳过某些行,且使用isnull可以检测数组中的缺失值。
使用na_values选项可以传入一个列表或一组字符串来处理缺失值。或者用字典指定列的缺失值标识。