Python与数据挖掘学习笔记（1）——Pandas模块

zoukankan html css js c++ java

Python与数据挖掘学习笔记（1）——Pandas模块
从图书馆借了一本有关于使用Python进行数据挖掘的书，是机械工业出版社出版的由张良均写的一本书，拿来作为入门，今天在学习使用Pandas模块时耗费了比较久的时间，记录一下今天的心得和体会。

书中有一道题目是基于给定的数据集，完成一系列操作：

1.判断第一列中（Id）是否有缺失值，如果有的话补充完整；

2.判断是否有重复记录，如果有，删除至唯一。

3.计算成绩的平均值，作为新的一列加入到原始数据框中。

4.寻找平均分最高的记录。

5.统计每个科目及格的人数。

所给的数据集如下所示，是一个csv格式的表格。在此我使用的是python3.6进行编程，和书中使用的2.7版本有一些区别。

作为一个菜鸟，安装模块也耗费了我不少时间，后来发现使用PyCharm自带的安装工具是很方便的，在Setting里面的Project Interpretor即可找到相对应的模块进行安装，一定注意安装的是Pandas模块而不是Panda。

Pandas模块中两个很重要的数据结构即为DataFrame和Series，可以简单的理解为一个多列的表格和一个单列的表格。一些基本的操作网上相关的教程很多，在此不再赘述。

Pandas模块的官方文档：http://pandas.pydata.org/pandas-docs/stable/index.html

里面的方法很多，看了一天我也只是看了个大概，在此简单介绍一下我的代码里用到的一些吧，首先先上代码。
import pandas as pd from collections import Iterable import numpy pd.options.display.precision = 2 #设置小数点精度 data1 = pd.read_csv('F:PythonTestMytestdatadata.csv') # print(data1) data1['Id'] = data1['Id'].interpolate() #判断第一列是否有缺失值 data1 = data1.drop_duplicates(subset=('English','Chinese','Math'))#去掉重复条目 data1 = data1.fillna(0) #成绩没有的视为0分 data1['Chinese'] = data1['Chinese'].astype('int64') #成绩换为整形变量 data1['Id'] = list(range(1,data1['Id'].size+1)) data1 = data1.set_index('Id') #用ID作为index average = data1.mean(axis=1) average.name = 'Average' #给Average一个name属性，否则不能使用join data1 = data1.join(average) #平均值作为一个column添加进DataFrames中 print(data1) print('The best grade is: {0:.2f} and the id is: '.format(average.values.max()),end='') while True: average_max = average.values.max() print(average.idxmax(), end=' ') average = average.drop(index = average.index[average.values.argmax()])#删除已找到的最大值寻找是否有重复值 if not average_max == average.values.max(): print(' ') break print('There is {0} students who has passed the Chinese exam.'.format(data1['Chinese'].where(data1['Chinese']>=60).count())) print('There is {0} students who has passed the Math exam.'.format(data1['Math'].where(data1['Math']>=60).count())) print('There is {0} students who has passed the English exam.'.format(data1['English'].where(data1['English']>=60).count()))
首先一个是options这个选项，他定义了一些在程序使用过程中的设置，在此为了美观，我将显示的精度设置为了小数点后两位，值得注意的一点是直接在print中调用format进行格式化会提示报错，因为数据结构为DataFrame，不支持直接进行format。

read_csv：读取数据集

interpolate：可以用来判断DataFrame或者Series中有没有空缺值并进行补充，同时也可以进行设置补充的值是多少，在这里默认的是按照线性顺序进行补充

drop_duplicates:去掉重复的条目，注意选择其中的subset时把三个科目的成绩全部包含在一个tuple里。

fillna：把其中缺失的成绩补充为0

astype：因为其中语文的成绩为float，把他变成一个整形变量

set_index：将其中的Id作为index

mean：求平均值

join：将一个DataFrame或者Series添加到现有的数据结构中

count：求得一个数据结构中为非空数值的个数

where：可以理解为将布满足条件的数值屏蔽，在该题目中，条件为及格，即大于等于60分，使用了where以后，会得到一个copy，在这个copy中，不满足条件的values都被替换成为NaN，因此可以搭配count得到及格的人数

然后还有一个需要注意的地方就是在寻找平均数最大值的时候，使用argmax仅仅能得到第一个最大值的index，如果有重复的则不能得到，因此需要将求得的最大值的哪一个条目删除以后继续求最大值，直到求得的最大值发生改变。
查看全文

相关阅读:
（16）JavaScript的流程控制(js的循环)
（15）javaScript入门
 （14）定位布局（子级在父级中自由定位父级在页面中自由定位）
(0-1)CSS 标签语法的属性
 ACM/ICPC 之双向链表_构造列表-模拟祖玛 (TSH OJ-Zuma(祖玛))
手记-数学分析(高等数学)中有关算法效率的公式列举(O,Θ,Ω)
2014北大研究生推免机试(校内)-复杂的整数划分(DP进阶)
整数划分问题-解法汇总(暂有DP-递归)
2014北大研究生推免机试(校内)-垃圾炸弹(基础枚举)
ACM/ICPC 之 BFS-广搜进阶-八数码(经典)(POJ1077+HDU1043)

原文地址：https://www.cnblogs.com/fengf1/p/7846609.html