Pandas 字符串处理
使用 str 可以使用 字符串 方法
fillna 替换缺失值
import pandas as pd # 读取的时候替换
data=pd.read_excel(filename).fillna('-') #fillna就是替换NA的单元格
contains
字符串方法将Series.str.contains()
检查列中的每个值,Name
如果字符串包含单词Countess
并返回每个值True
(是名称的一部分)或 False(不是名称的一部分)
na=False的意思就是,遇到非字符串的情况,直接忽略
df[df['内容'].str.contains('花', na=False)]
# 需要行号加上 index
df[df['内容'].str.contains('花', na=False)].index
# 删除单行
df.drop(labels=2) # 删除 2 行 axis默认等于0
[867 rows x 10 columns]
lower
dr['name'].str.lower()
split
df['name'].str.split(',') # 以逗号分割
df['name']str.split(',').str.get(0) # 取第一个
extract 正则
len
df['name'].str.len()
res = df.loc[df['内容'].str.len().idxmax(), '内容'] # 内容最长的一个
replace
df['粉丝数'] = df['粉丝数'].replace({1994: 666, 1620: 777}) # 字典便捷替换 1994 替换为 666
# df['粉丝数'] = df['粉丝数'].replace(1994, '999999')