zoukankan html css js c++ java

pandas

pandas

pandas

数据结构

pandas的基础数据结构，包括各类对象的数据类型，索引，轴标记，对齐等基本操作

数据对齐是内在的，这一原则是根本，除非显式指定，pandas不会断开标签和数据之间的连接

1.Series

Series是一个带标签的一维数组，可存储整数，浮点数，字符串，python对象等类型的数据，轴标签统称为索引，调用pd.Series函数即可创建Series

创建Series对象

# Series参数
data=None, index=None, dtype=None, name=None, copy=False, fastpath=False

方法一：使用数组形式创建

s = pd.Series(data,index=index)
# demon  s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

# data支持的数据类型
python字典
多维数组
标量值（如，5）  只有一个值，这一行的值都是这一个

方法二：使用字典形式创建

s = pd.Series({'a':1,'b':2,'c':3})
# data为字典且未设置index参数时，python版本>=3.6，Series按字典的插入顺序排序索引
a    1
c    2
b    3

s = pd.Series({'a':1,'c':2,'b':3},index=['a','b','c','d','e'])
# 如果设置了index参数，则按索引标签提取data中对应的值，如果data中有，索引中没有，将不传递显示
a    1.0
b    3.0
c    2.0
d    NaN
e    NaN

# pandas用NaN表示缺失数据

方法三：当data为标量值时

s = pd.Series(5,index=['a','b','c','d','e'])
# 当data为标量值时，必须提供索引，Series按索引长度重复该标量值
a    5
b    5
c    5
d    5
e    5

基本操作

切片

s[0:1]   # 对值进行切片，前开后闭
a    1.0
b    3.0

s = pd.Series({'a':1,'c':2,'b':3},index=['a','b','c','d','e'])
s[[4,3,1]]   # 取索引为4，3，1的值
e    NaN
d    NaN
b    3.0

array操作

s = pd.Series({'a':1,'c':2,'b':3},index=['a','b','c','d','e'])
s.array
# 执行不用索引的操作时，如禁用自动对齐，访问数组非常有用，Series.array一般使扩展数组，
<PandasArray>
[1.0, 3.0, 2.0, nan, nan]    # 如果值中有nan，也会显示，可以使用 dropna 函数清除
Length: 5, dtype: float64
        
s = pd.Series({'a':1,'c':2,'b':3})
s.to_numpy()
# 提取真正的多维数组，要用Series.to_numpy()
array([1, 2], dtype=int64)

# Series时扩展数组，Series.to_numpy()返回的时NumPy多维数组

Series对象取值

s['a']  或   s[0]
Series类似于字典，可以用索引标签取值或设置值，如果引用Series里没有的标签回触发异常，使用get可以提取没有的标签，返回None或指定默认值

矢量操作

s + s
s * 2
# Series和多维数组的主要区别在于，Series之间的操作会自动基于标签对齐数据，因此不用顾及执行计算操作的Series是否有相同的标签，总之，让不同索引对象操作的默认结果生成索引并集，是为了避免信息丢失，就算确实了数据，索引标签依然包含计算的重要信息，当然也可所以用 dropna 函数清除含有确实值的标签

名称属性

Series支持 name 属性

s = pd.Series(np.random.randn(5),name='something')
Out[33]:
0   -0.314390
1   -0.305942
2    0.440155
3   -0.800408
4    0.721798
Name: something, dtype: float64
# 如果没有指定name属性，查询的时候是没有name属性的
s.name   # 查询name
s.rename   # 重命名Series

2.DataFrame

创建DataFrame对象

DataFrame是由多种类型的列构成的二维标签数据结构，类似于Excel，SQL表，或Series对象后成的字典，DataFrame是最常用的Pandas对象，与Series一样，DataFrame支持多种类型的输出数据：

# DataFrame 支持的输入数据类型
一维ndarry，列表，字典，Series字典
二维numpy.ndarry
结构多维数组或记录多维数据
Series
DataFrame

除了数据，还可以有选择地传递 index 行标签和 columns 列标签参数，传递了索引或列，就可以确保生成的DataFrame里包含索引或列，Series字典加上指定索引时，会丢弃与传递的索引不匹配的所有数据，没有传递轴标签时，按常规依据输入数据进行构建。

# 注意
python>=3.6,且pandas>=0.23,数据是字典，且未指定 columns 参数时， DataFrame 的列按字典的插入顺序排序

# DataFrame参数
self, data=None, index=None, columns=None, dtype=None, copy=False

用Series字典或字典生成DataFrame（用字典生成）

df = pd.DataFrame({'one':pd.Series([1,2,3,4,5],index=['a','b','c','d','e']),'two':{'a':6,'c':8,'f':9}})

    one    two
a    1     6.0
b    2     NaN
c    3     8.0
d    4     NaN
e    5     NaN
f    Nan   9.0

# 1.生成的索引是每一个Series索引的并集，先把套接字典转换成Series，如果没有指定列，DataFrame的列就是字典键的有序列表
# 2.index 和columns 属性分别用于访问行，列标签，指定列与数据字典一起传递时，传递的列会覆盖掉字典的键
# 3.如果有一列有指定的行索引，并且另一列与这一列的索引有相似的部分，呢会将这两列的索引进行合并，缺失的地方使用Nan替换掉

用多维数组字典，列表字典生成DataFrame（用字典生成）

df = pd.DataFrame({'one':[1,2,3,4,5],'two':[6,7,8,9,0]},index=['a','b','c','d','e'])

用列表字典生成DataFrame（用字典生成）

df = pd.DataFrame([{'a':1,'b':2,'c':3},{'b':5}],index=['first','second'])

		 a       b    	 c
first   1.0		 2		3.0
second	NaN		 5		NaN

用包含日期时间索引与标签的NumPy数组生成DataFrame（随机数生成）

In [5]: dates = pd.date_range('20130101', periods=6)

In [6]: dates
Out[6]: 
DatetimeIndex(['2013-01-01', '2013-01-02', '2013-01-03', '2013-01-04',
               '2013-01-05', '2013-01-06'],
              dtype='datetime64[ns]', freq='D')

In [7]: df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

In [8]: df
Out[8]: 
                   A         B         C         D
2013-01-01  0.469112 -0.282863 -1.509059 -1.135632
2013-01-02  1.212112 -0.173215  0.119209 -1.044236
2013-01-03 -0.861849 -2.104569 -0.494929  1.071804
2013-01-04  0.721555 -0.706771 -1.039575  0.271860
2013-01-05 -0.424972  0.567020  0.276232 -1.087401
2013-01-06 -0.673690  0.113648 -1.478427  0.524988

用Series字典对象生成DataFrame（字典生成）

In [9]: df2 = pd.DataFrame({'A': 1.,
   ...:                     'B': pd.Timestamp('20130102'),
   ...:                     'C': pd.Series(1, index=list(range(4)), dtype='float32'),
   ...:                     'D': np.array([3] * 4, dtype='int32'),
   ...:                     'E': pd.Categorical(["test", "train", "test", "train"]),
   ...:                     'F': 'foo'})
   ...: 

In [10]: df2
Out[10]: 
     A          B    C  D      E    F
0  1.0 2013-01-02  1.0  3   test  foo
1  1.0 2013-01-02  1.0  3  train  foo
2  1.0 2013-01-02  1.0  3   test  foo
3  1.0 2013-01-02  1.0  3  train  foo

用Series创建DataFrame

生成的DataFrame继承了输入的Series的索引，如果没有指定列名，默认列名是输入Series的名称

df = pd.DataFrame( 
    [pd.Series({'a':1,'b':2},index=['a','c','d']),
     pd.Series({'a':1,'b':2,'d':4},index=['a','c','d'])])

	 a		 c		 d
0	1.0		NaN		NaN
1	1.0		NaN		4.0

DataFrame常用操作

提取添加删除列

# DataFrame就像带索引的Series字典，提取，设置，删除列的操作与字典类似
df = pd.DataFrame([{'a':1,'b':2,'c':3},{'b':5}],index=['first','second'])
*************************  提取  *************************
df['b']   # 提取 b 列的内容
first     2
second    5
Name: b, dtype: int64
        
*************************  删除  *************************
del df['a']   # 删除指定列
		b		c
first	2		3.0
second	5		NaN

df1 = df.pop('a')   # 获取指定的删除列
first     1.0
second    NaN
Name: a, dtype: float64
        
*************************  添加  *************************        
df['three'] = [11,22]
		a		b		c		three
first	1.0		2		3.0		11
second	NaN		5		NaN		22

# 可以插入原生多维数组，但长度必须与DataFrame索引长度一致，默认在DataFrame为不插入列，insert 函数可以指定插入列的位置
df.insert(1, 'bar', df['one'])   # 在第一行插入列名为 bar ，值为df['one']的数据
   one  bar   flag  foo  one_trunc
a  1.0  1.0  False  bar        1.0
b  2.0  2.0  False  bar        2.0
c  3.0  3.0   True  bar        NaN
d  NaN  NaN  False  bar        NaN

用方法链分配新列

DataFrame 提供了 assign() 方法，可以利用现有的列创建新列

df = pd.DataFrame({'one':[1,2,3,4,5],'two':[6,7,8,9,0]},index=['a','b','c','d','e'])
df1 = df.assign(three=df['one']*2)
df1
		one		two		three
a		1		6		2
b		2		7		4
c		3		8		6
d		4		9		8
e		5		0		10

# assign 返回的是数据副本，原DataFrame不变，可以使用assign执行一些数据操作之类数据进行返回
# assign 函数的签名就是 **kwargs，键是新字段的列名，值为插入值
# assign 在pythn3.6之后可以保存 **kwargs 顺序，**kwargs 后的表达式可以引用同一个assign 函数里之前创建的列

索引/选择

操作	句法	结果
选择列	df[col]	Series
用标签选择行	df.loc[label]	Series
用整数位置选择行	df.iloc[loc]	Series
行切片	df[1:3]	DataFrame
用布尔向量选择行	df[bool_vec]	DataFrame

数据对齐和运算

DataFrame对象可以自动对齐 **列与索引列（行标签） **的数据，生成的结果是列和行标签的并集

转置

T 属性可以转置 DataFrame ，相当于把行和列转换位置，但是所对应的值不变

df.T

控制台显示

df.info()   # info() 函数可以查看DataFrame的信息摘要
df.to_string()    # 以表格的形式返回DataFrame的字符串表示形式

常用操作

查看数据

numpy和pandas的区别：Numpy数组只有一种数据里类型，DataFrame每列的数据类型各不相同

df.head()    # 默认显示5行

df.tail(3)   # 显示最后三行

df.index     # 显示索引名

df.columns   # 显示列名

df.to_numpy()   
# 返回一个array对象，DataFrame的列由多种数据类型组成时，该操作耗费系统资源比较大，df.to_numpy()的输出不包含行索引和列索引

df.describe()    # 快速查看数据的统计摘要

df.T     # 转置数据

df.sort_index(axis=1,ascending=False)    # 转轴排序

df.sort_values(by='B')    # 按值排序

选择数据

推荐使用优化过的Pandas数据访问方法  .at   .iat   .loc   .iloc

# 按标签选
df.A    # 获取单列，产生Series对象

df['A']    # 获取单列，产生Series对象

df[1:3]    # 用[]切片行

df.loc[]   # 按标签取值，第一个参数是行，第二个参数是列

In [30]: df.loc[dates[0], 'A']
Out[30]: 0.46911229990718628
    
# 按位置选 
df.iloc[3]    # 第一个参数是第几行，第二个参数是低级列

df.iloc[3:5, 0:2]   # 切片取值

df.iloc[[1, 2, 4], [0, 2]]    # 用整数列表按位置切片，取出1，2，4行，0，2列

df.iloc[1, 1]    # 显式提取值

# 布尔索引
df[df > 0]    # 会在全表中选出判断结果为True的值，不满足条件的使用NaN填充

df2 = df.copy()    # 将df的值拷贝一份

df[df['E'].isin(['test'])]    # 取 df 的 E 列中含有 test 值的行

赋值

# 用索引自动对齐新增列的数据
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))
df['F'] = s1

# 按标签赋值
df.at[1,'B'] = 111    # 将第一行，B列的值改为111

# 按位置赋值
df.iat[0,1] = 222    # 将第0行，第1列的值改为222

# 用where条件赋值
df[df > 0] = 111    # 将df中值大于0的更改为111

缺失值

Pandas 主要用 np.nan 表示缺失数据，计算时，默认不包含空值，

重建索引（reindex）可以更改，添加，删除指定轴的索引，并返回数据福本，即不更改原数据

df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])

删除所有缺失值的行

df.dropna(how='any')    # 删除所有含缺失值的行

填充缺失值

df.fillna(value=5555)

提取 nan 值的布尔掩码

pd.isna(df1)    # 对所有值进行判断，如果是nan就为True，不是就为False

方法解析

pandas中fillna()方法，能够使用指定的方法填充NA/NaN值。

# 函数形式
fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

# 参数说明
value：用于填充的空值的值。

method： {'backfill', 'bfill', 'pad', 'ffill', None}, default None。定义了填充空值的方法， pad / ffill表示用前面行/列的值，填充当前行/列的空值，  backfill / bfill表示用后面行/列的值，填充当前行/列的空值。
# ffill axis=1 使用前边一列值填充，bfill，axis=1 使用后一列值填充

axis：轴。  0或'index'，表示按行删除；1或'columns'，表示按列删除。

inplace：是否原地替换。布尔值，默认为False。如果为True，则在原DataFrame上进行操作，返回值为None。

limit：int， default None。如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。如果method未被指定， 在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断）

downcast：dict, default is None，字典中的项为，为类型向下转换规则。或者为字符串“infer”，此时会在合适的等价类型之间进行向下转换，比如float64 to int64 if possible。

运算

apply函数

df.apply(lambda x: x.max() - x.min())     # 可以在apply中定义匿名函数使用

字符串方法

Series 的 str 属性包含一组字符串处理功能，str 的模式匹配默认使用正则表达式

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s.str.lower()

合并（Merge）

结合（concat）

pandas 提供了多种将Series，DataFrame对象组合在一起的功能，用索引与关联代数功能的多种设置逻辑可执行连接（join）与合并（merge）操作

连接(join)

追加（append）

分组（grouping）

group by 指的是涵盖下列一项或多项步骤的处理流程

分割：按条件把数据分割成多组

应用：为每组单独应用函数

组合：将处理结果结合成一个数据结构

重塑（reshaping）

堆叠（stack）

数据透视表（pivot tables）

时间序列（timeseries）

rng = pd.date_range('20200101',periods=10,freq='S')
ts = pd.Series(np.random.randint(0,100,len(rng)),index=rng)

# 时区表示
ts.tz_localize('UTC')

# 转换成其他时区
ts_utc.tz_convert('US/Eastern')

# 转换时间段

类别型（categoricals）

可视化

DataFrame的 plot() 方法可以快速绘制所有带标签的列

数据输入/输出

CSV

read_csv()

# 读取csv文件
pd.read_csv('foo.csv')
# 参数说明
filepath_or_buffer: FilePathOrBuffer,   ******* # 文件名或位置
sep=default_sep,    # 分隔符
delimiter=None,
# 1.列和索引的位置和名称
header="infer",
names=None,
index_col=None,    *******# 用作索引的列编号或者列名
usecols=None,    *******# 返回数据子集，例：[0,1,2]或者 [‘foo’, ‘bar’, ‘baz’]
squeeze=False,
prefix=None,    *******# 在没有列标题的时候，给列添加前缀
mangle_dupe_cols=True, # 将重复的列表示为X.0, X.1, X.2, 如果设定为false，会将所有重复的列名覆盖掉
# 2.常规解析配置
dtype=None,    # 每一类数据的数据类型
engine=None,
converters=None,    # 列转换函数的字典，key可以是列名或者列的序号
true_values=None,
false_values=None,
skipinitialspace=False,
skiprows=None,
skipfooter=0,
nrows=None,    # 需要读取的行数（从文件头开始算起）
# 3.不适用和缺失数据处理
na_values=None,
keep_default_na=True,
na_filter=True,  # 检查是否丢失值（空字符串或空值），对于数据集中没有空值，设定False可以提升读取速度
verbose=False,
skip_blank_lines=True,    # 如果为True，则跳过空行，否则记为NaN
# 4.日期时间处理
parse_dates=False, 
infer_datetime_format=False,
keep_date_col=False,
date_parser=None,
dayfirst=False,
cache_dates=True,
# 5.迭代
iterator=False,
chunksize=None,
# 6.报价，压缩和文件格式
compression="infer",
thousands=None,    # 千分位分隔符
decimal=b".",    # 字符中的小数点
lineterminator=None,
quotechar='"',
quoting=csv.QUOTE_MINIMAL,
doublequote=True,
escapechar=None,
comment=None,
encoding=None,    *******# 指定字符集类型，通常指定为'utf-8'
dialect=None,
# 7.错误处理
error_bad_lines=True,
warn_bad_lines=True,
# 8.内部
delim_whitespace=False,
low_memory=_c_parser_defaults["low_memory"],
memory_map=False,
float_precision=None,

to_csv()

# 写入CSV文件
df.to_csv('foo.csv')
# 参数说明
path_or_buf=None,    # 路径
sep=",",    # 分隔符
na_rep="",    # 替换空值，缺失值保存为Na，如果不写，默认为空
float_format=None,    # 格式，float_format='%.2f' 保留两位小数
columns=None,    # 是否保留某列的值， columns=['name'] 保存索引列和name的值
header=True,    # 是否保留列名，False不保留列名
index=True,    # 是否保留索引行，False不保留
index_label=None,
mode="w",    # 如果需要在现有文件中追加，把 w 改成 a,前提是格式都一样 
encoding=None,
compression="infer",
quoting=None,
quotechar='"',
line_terminator=None,
chunksize=None,
date_format=None,
doublequote=True,
escapechar=None,
decimal=".",

HDF5

# 读取HDF5文件
pd.read_hdf('foo.h5', 'df')

# 写入HDF5
df.to_hdf('foo.h5', 'df')

Excel

# 读取Excel文件
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

# 写入Excel
df.to_excel('foo.xlsx', sheet_name='Sheet1')

to_msgpack

pandas.DataFrame.to_msgpack(path=None,encoding='utf-8',**kwargs)
msgpack（序列化）对象以输入文件路径

# 参数说明
path    字符串文件路径，类似缓冲区的文件或无，如果为None，则返回生成的字符串
append    布尔值是否追加到现有的msgpack，默认为False
compress    压缩器的类型（zlib或blosc）默认为None（无压缩）

基础用法

df.columns = ['a','b','c']    # 更换列的值

df.array()    # 用于提取数据，推荐使用

df.to_numpy()   # 用于提取数据，推荐使用

df.rename(columns={'adj_price_open': 'price_open'}, inplace=True)    # 更改列名
inplace=True   # 不创建新的对象，直接对原始对象进行修改
inplace=False  # 对数据进行修改，创建并返回新的对象承载其修改结果

合并重叠数据集

合并两个相似的数据集，一个中的数据比另一个多，合并后选择覆盖范围广的，使用 combin_first() 函数

In [71]: df1 = pd.DataFrame({'A': [1., np.nan, 3., 5., np.nan],
   ....:                     'B': [np.nan, 2., 3., np.nan, 6.]})
   ....: 

In [72]: df2 = pd.DataFrame({'A': [5., 2., 4., np.nan, 3., 7.],
   ....:                     'B': [np.nan, np.nan, 3., 4., 6., 8.]})
   ....: 

In [73]: df1
Out[73]: 
     A    B
0  1.0  NaN
1  NaN  2.0
2  3.0  3.0
3  5.0  NaN
4  NaN  6.0

In [74]: df2
Out[74]: 
     A    B
0  5.0  NaN
1  2.0  NaN
2  4.0  3.0
3  NaN  4.0
4  3.0  6.0
5  7.0  8.0

In [75]: df1.combine_first(df2)
Out[75]: 
     A    B
0  1.0  NaN
1  2.0  2.0
2  3.0  3.0
3  5.0  4.0
4  3.0  6.0
5  7.0  8.0

聚合函数使用

sum()    # 求和

mean()    # 返回平均值

std()    # 返回标准差

median()    # 所有值的中位数

min()    # 最小值

max()    # 最大值

abs()    # 绝对值

prod()    # 数据元素的乘积

cumsum()    # 累计总和

describe()    # 统计信息摘要

索引

重建索引

重建索引会更改DataFrame的行标签和列标签，重新索引以为这符合数据以匹配特定轴上的一组给定的标签，可以通过索引实现多个操作

重新排序现有数据以匹配一组新的标签
在没有标签数据的标签位置插入缺失值标记

df.reindex(index=[])    # 重建索引，如果指定的数据没有和此索引建立关联，新产生的表格就为NaN

df.rename(index=[], columns=[])    # 索引重命名

迭代

iteritems() - 迭代(key，value)对

iterrows() - 将行迭代为(索引，系列)对

itertuples() - 以namedtuples的形式迭代行

排序

pandas排序有两种：按标签按实际值

df.sort_index()    # 按标签排

df.sort_index(ascending=False)    # 排序顺序

df.sort_index(axis=1)    # 按列排序

df.sort_values(by='B')    # 按某一列的值排序

合并连接

Merge方法

# Merge方法是基于共同列将两个dataFrame连接起来
pd.merge(left,right,how="inner",on=None,left_on=None,right_on=None,left_index=False,right_index=False,sort=False,
         suffixes    # 合表中遇到相同的列名，给重复的列名增加后缀=("_x", "_y"),copy=True,indicator=False,validate=None,)

# 参数说明
left/right    # 左右位置的dataframe
how    # 合并方式 left：基于左边dataframe列的数据合并，right：基于右边，outer：两者并集，inner，两者交集，默认是inner
on    # 用来合并的列名，这个参数需要保证两个dataframe有相同的列名
left_on/right_on    # 左右dataframe合并的列名，也可以为索引，数组和列表
left_index/right_index    # 是否以index作为数据合并的列名，True表示是
sort    # 根据dataframe合并的keys排序，默认是
suffixes    # 合表中遇到相同的列名，给重复的列名增加后缀

on参数：在实际应用中，如果右表的索引值正是左表的某一列的值，这时可以通过将右表的索引和左表的列对其合并，这样灵活的方式进行合并
In [59]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
   ....:                      'B': ['B0', 'B1', 'B2', 'B3'],
   ....:                      'key': ['K0', 'K1', 'K0', 'K1']})
   ....: 

In [60]: right = pd.DataFrame({'C': ['C0', 'C1'],
   ....:                       'D': ['D0', 'D1']},
   ....:                       index=['K0', 'K1'])

result = left.join(right,on='Key')
         
suffix后缀参数：如果和表合并的过程中遇到有一列两个表都同名，但是值不同，合并的时候又都想保留下来，就可以用suffixes给每个表的重复列名增加后缀。
result = pd.merge(left, right, on='k', suffixes=['_l', '_r'])       
         
组合多个dataframe：一次组合多个dataframe的时候可以传入元素为dataframe的列表或者tuple。
right2 = pd.DataFrame({'v': [7, 8, 9]}, index=['K1', 'K1', 'K2'])
result = left.join([right, right2])

concat方法

concat方法是拼接函数，有行拼接和列拼接，默认是行拼接，拼接方式默认的是外拼接（并集），拼接对象是pandas数据类型

pd.concat(objs,axis=0,join="outer",join_axes=None,ignore_index=False,keys=None,levels=None,names=None,verify_integrity=False,sort=None,copy=True)

# 参数说明：
objs：series，dtaframe或者panel构成的序列list，需要可迭代
axis：需要合并连接的轴，0是行，1是列
join：连接的方式，或者outer，  inner：两表的交集，outer：两者的并集
keys：当axis=0的时候，按照行拼接，会加一列，表示这一列是哪一个表中的数据；axis=1的时候，按照列拼接，		会将列名改为对应的值，表示这一列是哪一个表中的数据
join_axes：指定根据那个轴来对齐数据    join_axes=[df.index]
ignore_index：设置为True，合并的两个表就会根据列字段对齐，然后合并，最后再重新整理一个新的index

********************** Series类型的拼接方法  ********************** 
# 例1：行拼接
df1 = pd.Series([1.1,2.2,3.3],index=['i1','i2','i3'])
df2 = pd.Series([4.4,5.5,6.6],index=['i2','i3','i4'])

pd.concat([df1,df2])

行拼接如果有相同的索引，为了区分索引，我们在最外层定义了索引的分组情况
# 对行拼接分组
pd.concat([df1,df2],keys=['fea1','fea2'])

# 例2：列拼接
默认以并集的方式拼接
pd.concat([df1,df2],axis=1)     # axis=0  行拼接   axis=1  列拼接

列拼接的内连接（交），取相同的部分
pd.concat([df1,df2],axis=1,join='inner')

设置列拼接的列名（交）
pd.concat([df1,df2],axis=1,join='inner',keys=['fea1','fea2'])

指定索引[i1,i2,i3]的列拼接
pd.concat([df1,df2],axis=1,join_axes=[['i1','i2','i3']])


********************** DataFrame类型的拼接方法  ********************** 
# 行拼接
df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4', 'K5'], 'A': ['A0', 'A1', 'A2', 'A3', 'A4', 'A5']})
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2'],'B': ['B0', 'B1', 'B2']})

pd.concat([df1,df2])

# 列拼接
pd.concat([df1,df2],axis=1)

若列拼接或行拼接有重复的列名和行名，则报错
# 判断是否有重复的列名，若有则报错
pd.concat([df1,df2],axis=1,verify_integrity = True)

append方法

dataframe 数据类型的方法，提供了行方向的拼接操作

DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=None)

# 功能说明：
向DataFrame对象中添加新的行，如果添加的列名不在DataFrame对象中，将会被当作新的列进行添加

# 参数说明
other    # DataFrame,Series,dict,list这样的数据结构
ignore_index    # 默认值为False，如果为True，则不适用index标签
verify_integrity    # 默认值为False，如果为True，当创建相同的index时会抛出ValueError的异常
sort    # 默认是None

 df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']})

df3 = df1.append(df2, ignore_index=True)   # 如果不使用ignore_index=True,会出现多个相同的索引

result = df1.append([df2, df3])    # 可以添加多个

join方法

dataframe 数据类型的方法，提供了列方向的拼接操作，支持左联，右联，内联，外联四种

DataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)

# 功能说明
通过索引或者指定的连接两个DataFrame，通过一个list可以一次高效的连接多个DataFrame

# 参数说明
other    # DataFrame，或者带有名字的Series，或者DataFrame的list，如果传递的是Series，那么其name属性应当是一个集合，并且该集合将会作为结果DataFrame的列名
on    # 列名称，或者列名称的list/tuple，或者类似形状的数组，连接的列，默认使用索引连接
how    # {‘left’, ‘right’, ‘outer’, ‘inner’}, default: ‘left’，连接的方式，默认为左连接
lsuffix    # string，左DataFrame中重复列的后缀
rsuffix    # string，右DataFrame中重复列的后缀
sort    # boolean, default False，按照字典顺序对结果在连接键上排序。如果为False，连接键的顺序取决于连接类型（关键字）。

pandas删除行

1.指定删除行数删除     .drop([i,j])
.drop([i,j])方法如果不设置参数inplace=True,则只能在生成的新数据块中实现删除效果，而不能删除原有数据块的相应行，设置后直接在原有的数据块上进行操作

pandas删除列

1.pop()删除     df.pop([指定列])
.pop([])方法可以将所选列从原数据快中弹出，原数据块不在保留该列

2.drop()删除    df.drop([],axis=1)
df.drop([],axis=1) 方法既可以保留原数据块中的所选列，也可以删除，这取决于inplace
当inplace=True时，执行内部删除，不返回任何值，原数据发生变化
当inplace=False，执行内部删除，有返回值，生成新的df

常用方法

df["gender"].unique     查看某一列的唯一值
df["gender"].value_counts(dropna=False)    查看看某一列值分布
df.values     查看数据表的值，返回的是arry对象，列表套列表，一行数据一个小列表
df.rename(columns={"gender":"性别"})   更改列名称
df['education'].drop_duplicates()     删除后出现的重复值
df['education'].drop_duplicates(keep='last')   删除先出现的重复值
df['education'].replace('本科'，'大学')    数据替换

merge，join，concat    数据表合并
pd.merge(df1,df2,on='id',how='inner')   交集合并，按照id列
pd.merge(df1,df2,on='id',how='left')   按左边合并
pd.merge(df1,df2,on='id',how='right')   按右边合并

pd.merge(df1,df2,on='id',how='outer')   按照并集合并，两者共同的部分，没有的部分使用Nan替换
merge参数_(self, left, right, how, on, left_on, right_on, axis, left_index, right_index, sort, suffixes, copy, indicator, validate)

result = df.append(df1)    新增

df.set_index('id')    设置索引
df.reset_index(drop=True)   删除索引
df.sort_values(by=['age'])   按照特定的列排序
df.sort_index()    按照索引列排序

# 数据提取
loc:按标签值进行提取   iloc：按位置进行提取
    
df.columns     获取所有列，返回的是列表的形式

pandas常用函数

# shift()    # 对数据进行移动操作，索引不移动
df.shift()    # 将本列数据整体向下移动，移动后的空格使用NaN填充
df.shift(-1)    # 将本例数据整体向上移动一格，移动后的空格使用NaN填充

# diff()    # 两条临近记录的差值

pandas操作文件

import pandas as pd

pd.read_csv(file_path,)       读取csv文件
pd.to_csv(file_path)         写入csv文件
df.astype(int)             将对象转换成int类型

时间戳字符串转换

import time
import datetime
import pandas as pd

# 时间字符串转换成时间戳
a1 = "2019-5-10 23:40:00"
# 先转换为时间数组
timeArray = time.strptime(a1, "%Y-%m-%d %H:%M:%S")
timeStamp = int(time.mktime(time.strptime(a1, "%Y-%m-%d %H:%M:%S")))
print(timeStamp)    
# 1557502800


# 字符串转换成时间戳
d = '201703270000'
sss = time.mktime(datetime.datetime.strptime(d, "%Y%m%d%H%M%S").timetuple())
print(sss)
# 1490544000.0


# 时间戳转换成时间字符串
dd = 1490544000.0
dt = pd.to_datetime(dd, unit='s')
print(dt)
# 2017-03-26 16:00:00

查看全文

相关阅读:
java oop
traceroute
ping
ICMP Internet控制报文协议
 window,centos双系统坏了
 bcm53344 gpio驱动分析
 ioctl参数cmd=2错误
 BCM_GPIO驱动测试
 C++ 类和对象
 C++ 内存管理

原文地址：https://www.cnblogs.com/whkzm/p/13783124.html

pandas

pandas

数据结构

1.Series

创建Series对象

方法一：使用数组形式创建

方法二：使用字典形式创建

方法三：当data为标量值时

基本操作

切片

array操作

Series对象取值

矢量操作

名称属性

2.DataFrame

创建DataFrame对象

用Series字典或字典生成DataFrame（用字典生成）

用多维数组字典，列表字典生成DataFrame（用字典生成）

用列表字典生成DataFrame（用字典生成）

用包含日期时间索引与标签的NumPy数组生成DataFrame（随机数生成）

用Series字典对象生成DataFrame（字典生成）

用Series创建DataFrame

DataFrame常用操作

提取 添加 删除列

用方法链分配新列

索引/选择

数据对齐和运算

转置

控制台显示

常用操作

查看数据

选择数据

赋值

缺失值

方法解析

运算

apply函数

字符串方法

合并（Merge）

结合（concat）

连接(join)

追加（append）

分组（grouping）

重塑（reshaping）

堆叠（stack）

数据透视表（pivot tables）

时间序列（timeseries）

类别型（categoricals）

可视化

数据输入/输出

CSV

read_csv()

to_csv()

HDF5

Excel

to_msgpack

基础用法

合并重叠数据集

聚合函数使用

索引

重建索引

迭代

排序

合并连接

Merge方法

concat方法

append方法

join方法

pandas删除行

pandas删除列

常用方法

pandas常用函数

pandas操作文件

时间戳字符串转换

提取添加删除列