zoukankan html css js c++ java

炼数成金数据分析课程---8、数据清洗

一、总结

一句话总结：

数据分析课程的实质是：介绍库中的函数：介绍py的3个常用的数据分析库（numpy，pandas，scipy）的函数的操作

实例：其实找几个实例，一下子就懂了

资源很多：网上的各种资源都不要太多，想学习还是非常容易的

1、一般数据处理中的合并数据分为哪几种？

索引上的合并

轴向连接：将数据按照行连接起来

合并重复数据

2、数据合并做轴向连接的方法？

-Numpy数组—concatenation

-Pandas对象——concat

3、pandas中数据重塑(行列互相转换)有哪些方法？

-Stack：将数据的列“旋转”为行

-Unstack：将数据的行“旋转”为列

4、长型数据和宽型数据的区别是什么？

长型数据：一天的多条数据被记录为多条

款型数据：一天的数据只有一条

5、根据长型数据和宽型数据的转换，你得到的启示是？

python做数据转换，数据分析，因为这些库的话真的是特别方便呢

6、DataFrame如何检测和去掉重复项？

data.duplicated()：检测重复项

data.drop_duplicates()：去掉重复项

7、数据分析课程的实质是什么？

介绍库中的函数：介绍py的3个常用的数据分析库（numpy，pandas，scipy）的函数的操作

8、Python内置的常用的字符串方法有哪些？

count 返回子串在字符串中的出现次数（非重叠）

split 通过指定的分隔符将字符串拆分为一组子串

replace 用另一个字符串替换指定子串

count  返回子串在字符串中的出现次数（非重叠）
endswith、startswith   如果字符串以某个后缀结尾（以某个前缀开头），则返回True join  将字符串用作连接其他字符串序列的分隔符
index  如果在字符串中找到子串，则返回子串第一个字符所在的位置。如果没有找到，则引发ValueError。
find  如果在字符串中找到子串，则返回第一个发现的子串的第一个字符所在的位置。如果没有找到，则返回-1
rfind  如果在字符串中找到子串，则返回最后一个发现的子串的第一个字符所在的位置。如果没有找到，则返回一1
replace  用另一个字符串替换指定子串
strip、rstrip、lstrip  去除空白符（包括换行符）。相当于对各个元素执行x.strip（）
（以及rstip、lstrip）。译注10
split   通过指定的分隔符将字符串拆分为一组子串
lower.upper   分别将字母字符转换为小写或大写ljust、just用空格（或其他字符）填充字符串的空白侧以返回符合最低宽度的字符串

9、Pandas中矢量化字符串常用的方法有哪些？

字符串操作函数就那几个，甚至连记的必要性都没有，用的时候去找即可

cat   实现元素级的字符串连接操作，可指定分隔符
contains   返回表示各字符串是否含有指定模式的布尔型数组
count   模式的出现次数
endswith、startswith   相当于对各个元素执行x.endswith（pattern）或x.startswith（pattern）
findall   计算各字符串的模式列表
get   获取各元素的第个字符
join   根据指定的分隔符将Series中各元素的字符串连接起来
len   计算各字符串的长度
lower、upper   转换大小写。相当于对各个元素执行x.lower0或x.upper0
match  根据指定的正则表达式对各个元素执行re.match pad在字符串的左边、右边或左右两边添加空白符
center   相当于pad（side='both）
repeat   重复值。例如，s.str.repeat（3）相当于对各个字符串执行x*3
replace   用指定字符串替换找到的模式
slice   对Series中的各个字符串进行子串截取
split   根据分隔符或正则表达式对字符串进行拆分
strip、rstrip、Istrip   去除空白符，包括换行符。相当于对各个元素执行x.strip（）、x.rstrip）、x.lstrip）

二、内容在总结中

查看全文

相关阅读:
nc之二：nc命令详解
 memcache redundancy机制分析及思考
 memcache和redis区别
 java操作mongodb
Memcache缓存与Mongodb数据库的优势和应用
 memcache 存储单个KEY，数据量过大的时候性能慢！以及简单的memcache不适合用到的场景
 pkill详解
 修改linux用户密码
 Mysql函数INSTR、LOCATE、POSITION VS LIKE
Servlet3.0之九：web模块化

原文地址：https://www.cnblogs.com/Renyi-Fan/p/10989675.html