pandas-01
参考:
说明
- 基础模块导入
import pandas as pd import numpy as np
- 短名称(别名)
df
为DataFrame
对象pd
为pandas
导入后的别名np
为numpy
导入后的别名
API使用
一. 构造DataFrame
- 分别指定行和列
data
为二维数组(一维为行列表,二维为每一行中的列列表)columns
的长度 >=data
的最长元素的长度
doc: pandas.DataFrame
data = [ ['第一', 'hang' , '数据'], # 第一行 ['第2', '行'] # 第二行 ] columns = ['列1', '第二2', '列三'] # 列名列表 df = pd.DataFrame(data, columns=columns)
- 传递一个字典(键为列名,值为列对应的数据串)
字典所有值(数据串)的长度必须相同
data = { 'col1': [123, 45, 66], 'col2': [66, None, 12] } df = pd.DataFrame(data)
- 从csv文件加载(
pd.read_csv
)可选参数:
encoding
编码, 默认为utf-8
index_col
索引列,默认为None(自动添加数字索引)
doc: pandas.read_csv
csv_path = r'C:UserszuxiaDesktop 1.csv' # 读取数据(指定encoding参数防止编码错误) df = pd.read_csv(csv_path, encoding='gbk') # 读取数据(指定第一列为索引列) df = pd.read_csv(csv_path, index_col=0)
如果遇到编码错误,获取编码import chardet # 读取得到二进制数据 raw_data = open(csv_path, 'rb').read() encoding = chardet.detect(raw_data).get('encoding', 'utf-8')
SQLAlchemy
PyMySQL