import pandas as pd
data = pd.DataFrame({'a':[1,2,3],'b':[4,5,6],'c':[7,8,9]})
提取列
单列
data['a']
多列
data[['a', 'b']]
使用 .loc或者 .iloc 提取
第一个参数是行,第二个参数为列
.loc为按标签提取, .iloc为按位置索引提取
data.loc[:, 'a'] # 等价于data.iloc[:, 0]
data.loc[:, ['a', 'b']] # 等价于data.iloc[:, [0, 1]]
提取行
提取行的时候,一般只能使用 .loc 和 .iloc 来提取,个人是比较喜欢使用 .loc
提取某些行
# 提取一行
data.loc[1] # 标签索引
Out[35]:
a 2
b 5
c 8
Name: 1, dtype: int64
data.iloc[1] # 位置索引
Out[36]:
a 2
b 5
c 8
# 提取多行
data.loc[:1]
Out[37]:
a b c
0 1 4 7
1 2 5 8
data.loc[[0,1]]
Out[38]:
a b c
0 1 4 7
1 2 5 8
行列一起使用
data.loc[0:1, 'b']
Out[40]:
0 4
1 5
按匹配条件提取多行
这种方法是按照某些列符合某种条件,然后提取多行
单条件
多条件
# 这两种方法得到的结果是一致的,推荐使用第二种
# 与 条件 不能使用 and
data[(data['a']<=2) & (data['b']>=5)]
data.loc[(data['a']<=2) & (data['b']>=5)]
# 或 条件 不能使用 or
data[(data['a']<=2) | (data['b']>=5)]
data.loc[(data['a']<=2) | (data['b']>=5)]
1.按列取、按索引/行取、按特定行列取
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
|
import numpy as npfrom pandas import DataFrameimport pandas as pddf=DataFrame(np.arange(12).reshape((3,4)),index=['one','two','thr'],columns=list('abcd'))df['a']#取a列df[['a','b']]#取a、b列#ix可以用数字索引,也可以用index和column索引df.ix[0]#取第0行df.ix[0:1]#取第0行df.ix['one':'two']#取one、two行df.ix[0:2,0]#取第0、1行,第0列df.ix[0:1,'a']#取第0行,a列df.ix[0:2,'a':'c']#取第0、1行,abc列df.ix['one':'two','a':'c']#取one、two行,abc列df.ix[0:2,0:1]#取第0、1行,第0列df.ix[0:2,0:2]#取第0、1行,第0、1列#loc只能通过index和columns来取,不能用数字df.loc['one','a']#one行,a列df.loc['one':'two','a']#one到two行,a列df.loc['one':'two','a':'c']#one到two行,a到c列df.loc['one':'two',['a','c']]#one到two行,ac列#iloc只能用数字索引,不能用索引名df.iloc[0:2]#前2行df.iloc[0]#第0行df.iloc[0:2,0:2]#0、1行,0、1列df.iloc[[0,2],[1,2,3]]#第0、2行,1、2、3列#iat取某个单值,只能数字索引df.iat[1,1]#第1行,1列#at取某个单值,只能index和columns索引df.at['one','a']#one行,a列 |
2.按条件取行
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
|
选取等于某些值的行记录 用 ==df.loc[df[‘column_name’] == some_value]选取某列是否是某一类型的数值 用 isindf.loc[df[‘column_name’].isin(some_values)]多种条件的选取 用 &df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]选取不等于某些值的行记录 用 !=df.loc[df[‘column_name’] != some_value]isin返回一系列的数值,如果要选择不符合这个条件的数值使用~df.loc[~df[‘column_name’].isin(some_values)] |
3.取完之后替换
|
1
|
df = pd.DataFrame({"id": [25,53,15,47,52,54,45,9], "sex": list('mfmfmfmf'), 'score': [1.2, 2.3, 3.4, 4.5,6.4,5.7,5.6,4.3],"name":['daisy','tony','peter','tommy','ana','david','ken','jim']}) |

将男性(m)替换为1,女性(f)替换为0
方法1:
|
1
2
|
df.ix[df['sex']=='f','sex']=0df.ix[df['sex']=='m','sex']=1 |

注:在上面的代码中,逗号后面的‘sex’起到固定列名的作用
方法2:
|
1
2
|
df.sex[df['sex']=='m']=1df.sex[df['sex']=='f']=0 |
4.删除特定行
|
1
2
3
4
5
6
7
8
9
|
# 要删除列“score”<50的所有行:df = df.drop(df[df.score < 50].index)df.drop(df[df.score < 50].index, inplace=True)# 多条件情况# 可以使用操作符: | 只需其中一个成立, & 同时成立, ~ 表示取反,它们要用括号括起来。# 例如删除列“score<50 和>20的所有行df = df.drop(df[(df.score < 50) & (df.score > 20)].index) |
选取等于某些值的行记录 用 ==
df.loc[df[‘column_name’] == some_value]
选取某列是否是某一类型的数值 用 isin
df.loc[df[‘column_name’].isin(some_values)]
多种条件的选取 用 &
df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]
选取不等于某些值的行记录 用 !=
df.loc[df[‘column_name’] != some_value]
isin返回一系列的数值,如果要选择不符合这个条件的数值使用~
df.loc[~df[‘column_name’].isin(some_values)]
1