zoukankan html css js c++ java

Pandas （四）文本数据处理

文本数据也就是我们常说的字符串，Pandas 为 Series 提供了 str 属性，通过它可以方便的对每个元素进行操作。str 字符串向量化,可以提高处理字符串的效率。

使用 str 方法将数据字符串向量化映射：

#字符串处理相关的功能，就在Series.str
s=grade.姓名.str
s

一、和 python 原生字符串区别不大的方法

len、lower、upper、islower、isupper、find、count、strip、split

# 字符串长度
imdb.title.str.len()

# 把字符串转换成小写
imdb.title.str.lower()

# 把字符串转换成大写
imdb.title.str.upper()

# 统计字符串中出现了几个 The
imdb.title.str.count('The')

# 使用 split 对字符串进行切割
wine.商品名称.str.split(' ')

# 提取出姓名中包含杨的数据
grade[grade.姓名.str.contains('杨')]

# 提取以杨开始的
grade[grade.姓名.str.startswith('杨')]

#提取以大结尾的
grade[grade.姓名.str.endswith('大')]

# 把威尔斯密斯的电影提取出来
imdb[ imdb.actors_list.str.contains("Will Smith")]

# 把莱昂纳多的电影提取出来
imdb[ imdb.actors_list.str.contains("Leonardo")]

# 替换
wine.商品名称.str.replace('ml', "ML")

这个 repalce 和 str 向量化后的 repalce 有很大的不同,这个是对整个字符串进行替换.

grade.姓名.replace('杨璐','YangLu' )

#str只能对Series，且是对字符串
grade.姓名.str.replace('杨','Yang' )

通过 get_dummies 方法可以将字符串转为哑变量，sep 参数是指定哑变量之间的分隔符。

k = grade_new.血型.str

k.get_dummies()

# 横向拼接两个表格
grade_new = pd.concat([grade_new ,k.get_dummies() ], axis = 1)
grade_new

查看全文

相关阅读:
【闲聊PHP】编程界的萝莉小美女--PHP
【福利资料】程序员各种优秀资料、神器及框架
 【夯实shell基础】shell基础面面观
 【Java学习系列】第4课--Java Web相关
 【夯实PHP基础】微信小程序开发 2017.02.06
【文学文娱】2017.01.17 周二--《谈谈日本妹子(多图预警)》
【日常开发】使用多种工具实现 sql查询没有结果的name
【夯实Mysql基础】MySQL在Linux系统下配置文件及日志详解
 【读书笔记】2017.01.06 星期五《大型网站架构技术》
【文学文娱】2016.12.23 周五--《我眼中的过年》