zoukankan      html  css  js  c++  java
  • Python数据分析-Day2-Pandas模块

    1、pandas简介

    Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。

    pandas是numpy库的更高级封装,pandas方法中很多是调用了numpy库的方法

    2、pandas基本操作

    1)文件读取

    import pandas

    food_info=pandas.read_csv("food_info.csv")

    print(type(food_info))

    print(food_info.dtypes)

    print(help(pandas.read_csv))

    output:

    <class 'pandas.core.frame.DataFrame'>  # DataFrame就是pandas的核心数据结构,类似矩阵结构;numpy的核心数据结构是ndarray,详情见上一章

    --------------
    NDB_No int64
    Shrt_Desc object  #pandas对字符型数据类型定义较为怪异,称之为 object类型,object=str
    Water_(g) float64
    Energ_Kcal int64
    Protein_(g) float64
    Lipid_Tot_(g) float64
    Ash_(g) float64
    Carbohydrt_(g) float64
    Fiber_TD_(g) float64
    Sugar_Tot_(g) float64
    Calcium_(mg) float64
    Iron_(mg) float64
    Magnesium_(mg) float64
    Phosphorus_(mg) float64
    Potassium_(mg) float64
    Sodium_(mg) float64
    Zinc_(mg) float64
    Copper_(mg) float64
    Manganese_(mg) float64
    Selenium_(mcg) float64
    Vit_C_(mg) float64
    Thiamin_(mg) float64
    Riboflavin_(mg) float64
    Niacin_(mg) float64
    Vit_B6_(mg) float64
    Vit_B12_(mcg) float64
    Vit_A_IU float64
    Vit_A_RAE float64
    Vit_E_(mg) float64
    Vit_D_mcg float64
    Vit_D_IU float64
    Vit_K_(mcg) float64
    FA_Sat_(g) float64
    FA_Mono_(g) float64
    FA_Poly_(g) float64
    Cholestrl_(mg) float64
    dtype: object
    --------------

    2)显示dataframe数据前几行:

    first_rows = food_info.head()  #pandas的数据格式下调用head方法,是读取该数据格式的数据包括表头,如果不写参数,默认读取前5行数据。
    print first_rows
    #print(food_info.head(3))

    3)显示dataframe数据尾几行:

    last_rows = food_info.tail()  #pandas的数据格式下调用tail方法,是读取该数据格式的数据包括表头,如果不写参数,默认读取后5行数据。
    print last_rows

    4)dataframe列名

    print food_info.columns  #打印dataframe数据类型下的各列列名。

    5)dataframe样本数和指标数

    print food_info.shape  #打印dataframe形状,几行几列,其中行数就是样本数,列数就是指标数。

    6)pandas取数据

    按样本(行)取数据:

    pandas数据读取相对麻烦,不像python或numpy那样简单。pandas需要调用一个函数,才能对相关数据进行读取。

    这个方法就是loc[]方法,如下

    print food_info.loc[0]#dataframe数据有一个特征,就是样本数和指标数的分离。无论什么数据在dataframe里指标数固定,这里的索引index=0,是对样本进行索引。

    output:  #所以这里取出的是样本1所对应的所有属性或指标。

    NDB_No 1001
    Shrt_Desc BUTTER WITH SALT
    Water_(g) 15.87
    Energ_Kcal 717
    Protein_(g) 0.85
    Lipid_Tot_(g) 81.11
    Ash_(g) 2.11
    Carbohydrt_(g) 0.06
    Fiber_TD_(g) 0
    Sugar_Tot_(g) 0.06
    Calcium_(mg) 24
    Iron_(mg) 0.02
    Magnesium_(mg) 2
    Phosphorus_(mg) 24
    Potassium_(mg) 24
    Sodium_(mg) 643
    Zinc_(mg) 0.09
    Copper_(mg) 0
    Manganese_(mg) 0
    Selenium_(mcg) 1
    Vit_C_(mg) 0
    Thiamin_(mg) 0.005
    Riboflavin_(mg) 0.034
    Niacin_(mg) 0.042
    Vit_B6_(mg) 0.003
    Vit_B12_(mcg) 0.17
    Vit_A_IU 2499
    Vit_A_RAE 684
    Vit_E_(mg) 2.32
    Vit_D_mcg 1.5
    Vit_D_IU 60
    Vit_K_(mcg) 7
    FA_Sat_(g) 51.368
    FA_Mono_(g) 21.021
    FA_Poly_(g) 3.043
    Cholestrl_(mg) 215
    Name: 0, dtype: object

    同样dataframe.loc[3:6]可以对pandas的数据进行切片,方法与python类似。

    想取任意数据的话,只需要把其对应的索引值传入就可以了。

    按指标(列)取数据:

    ndb_col = food_info["NDB_No"]  #在dataframe格式下,把列名作为索引传递给数据对象,就可以得到这一列的所有数据。
    print ndb_col

    如果想打印多列:

    columns = ["Zinc_(mg)", "Copper_(mg)"]  #先把想打印的列名组合成一个list格式
    zinc_copper = food_info[columns]    #然后一起传递给dataframe的数据对象,就可以多列打印了。
    print zinc_copper

    需求:在这些数据中,找出以‘g’为结尾的列名和整列数据

    col_names = food_info.columns.tolist()  # columns方法是提取列名,tolist方法是把列名转化成list格式
    gram_columns = []

    for c in col_names:  #遍历可迭代对象col_names
      if c.endswith("(g)"):  
        gram_columns.append(c)
    gram_df = food_info[gram_columns]  #把以“g”结尾的列名为索引代入dataframe对象,得出对应的多列数据。
    print(gram_df.head(3))

    7)pandas中的数据类型

    #object - For string values
    #int - For integer values
    #float - For float values
    #datetime - For time values
    #bool - For Boolean values
    #print(food_info.dtypes)

    3、pandas加减乘除的操作

    对整列的数据的操作,等价于对该列中每个元素进行对应的操作,与numpy类似。

    print food_info["Iron_(mg)"]
    div_1000 = food_info["Iron_(mg)"] / 1000
    print div_1000

    对两个列进行组合:

    water_energy = food_info["Water_(g)"] * food_info["Energ_Kcal"]
    这个两列相乘,是把两列中同一样本的不同数据对应相乘,把结果保存成一个新的列

    添加新属性,即添加新列:

    iron_grams = food_info["Iron_(mg)"] / 1000
    food_info["Iron_(g)"] = iron_grams

    添加有个前提,就是添加的数据样本数要和原dataframe样本数一致,即行数一样,直接用索引+赋值的方式添加即可。

    求某列的最大值:

    max_calories = food_info["Energ_Kcal"].max()

    首先定位好要求最大值的列,然后直接调用max方法,即可求出某列的最大值。

    4、pandas的排序操作

    food_info.sort_values("Sodium_(mg)", inplace=True)
    print food_info["Sodium_(mg)"]

    对dataframe数据结构调用sort_values方法即可排序,默认是从小到大排序。第一个参数是要对哪一个列进行排序,inplace是判断是新生成dataframe还是覆盖旧的。

    food_info.sort_values("Sodium_(mg)", inplace=True, ascending=False)
    print food_info["Sodium_(mg)"]

    需要降序排列时,要指定sort_values的参数ascending=False,ascending的意思是升序。这个值默认是True,给它改成False就是降序排列了。

    5、泰坦尼克号pandas处理实例

    1)数据导入

    import pandas as pd  
    import numpy as np    #一般我们用np代替numpy,用pd代替pandas
    titanic_survival = pd.read_csv("titanic_train.csv")  #读入csv文件  
    titanic_survival.head()  #显示头几个数据

    2)数据操作

    age = titanic_survival["Age"]  #选中Age这一列,并把它单独保存
    #print(age.loc[0:10])  #age这时候已经只有一列,就是刚刚选出来的,这时候调用loc函数,输入切片位置,就可以仅仅取出age中对应位置的数据了
    age_is_null = pd.isnull(age)  #isnull方法是判断该数据中数据位是不是为空,如果为空返回True,括号里传入需要判断的数据组
    #print age_is_null  
    age_null_true = age[age_is_null]  #把bool值作为索引传入,得到数据为空的那些数据
    #print age_null_true
    age_null_count = len(age_null_true)  #判断数据为空的个数
    print(age_null_count)

    3)null值的影响

    mean_age = sum(titanic_survival["Age"]) / len(titanic_survival["Age"])  #先对age这一列求和,然后除以age这一列的个数
    print mean_age

    output:

      Nan

    这种情况就是因为sum中有null空值,所以结果就会报错。

    4)null值的处理

    good_ages = titanic_survival["Age"][age_is_null == False]  #age_is_null==False是取出不是缺失值的数据
    #print good_ages
    correct_mean_age = sum(good_ages) / len(good_ages)
    print correct_mean_age

     当然求均值可以直接调用mean方法,如下

    correct_mean_age = titanic_survival["Age"].mean()
    print correct_mean_age  #这段代码的输出结果与上一段代码的结果完全一样。

    5)数据统计

    需求:求出每个不同等级的船舱的平均船票

    #mean fare for each class
    passenger_classes = [1, 2, 3]  #先设置船舱等级列表
    fares_by_class = {}  #建立一个空字典,准备存放不同船舱的平均船票数据
    for this_class in passenger_classes:  #遍历不同等级的船舱
    pclass_rows = titanic_survival[titanic_survival["Pclass"] == this_class]  #先取出船舱列,对比目前遍历等级取出对应等级船舱数据
    pclass_fares = pclass_rows["Fare"]  #在这类数据中,取出价格列
    fare_for_class = pclass_fares.mean()  #求该价格列的平均值
    fares_by_class[this_class] = fare_for_class  #以船舱等级为key值,平均fare为value值,存入字典中
    print fares_by_class  #打印字典

    pd自带的统计函数:pivot_table

    passenger_survival = titanic_survival.pivot_table(index="Pclass", values="Survived", aggfunc=np.mean)

    #index是以谁为基准统计,values是基准和谁之间的关系, aggfunc是要统计前两个参数之间的什么关系。
    print passenger_survival

    统计不同等级船舱的乘客的平均年龄:

    passenger_age = titanic_survival.pivot_table(index="Pclass", values="Age")#以pclass为基准统计,统计的值是age的平均值。aggfunc默认值为np.mean
    print(passenger_age)

    统计一个变量和其他两个量之间的关系:

    port_stats = titanic_survival.pivot_table(index="Embarked", values=["Fare","Survived"], aggfunc=np.sum)
    print(port_stats)

    #以embarked为基准,统计它和fare与survived的关系,统计的关系为求和。即在不同码头登船的人的总费用和总的获救数量。

    6)丢掉null值:dropna

    drop_na_columns = titanic_survival.dropna(axis=1)  #横向丢掉缺失数据的样本
    new_titanic_survival = titanic_survival.dropna(axis=0,subset=["Age", "Sex"])  #纵向去掉,age和sex这两列中如果有缺失值,去掉该样本。
    #print new_titanic_survival

    7)通过索引调取数据

    row_index_83_age = titanic_survival.loc[83,"Age"]  #通过索引调取数据,都需要使用loc函数,位置1输入样本序号,位置2输入对应的属性
    row_index_1000_pclass = titanic_survival.loc[1000,"Pclass"]
    print row_index_83_age
    print row_index_1000_pclass

    8)排序后重新设置索引

    new_titanic_survival = titanic_survival.sort_values("Age",ascending=False)  #以age为依据降序排列
    print new_titanic_survival[0:10]  #取新数据的前11个样本,即年龄最大的前11个样本
    itanic_reindexed = new_titanic_survival.reset_index(drop=True)  #对新的dataframe数据,调用reset_index重新设置索引,drop为true意思是删除原有index。
    print(titanic_reindexed.iloc[0:10])

    6、pd自定义函数

    1)例子1:

    def hundredth_row(column):  #首先定义一个函数
      hundredth_item = column.loc[99]  #函数内调用loc方法,使得程序返回第100个样本数据
      return hundredth_item  #用return把数据返还给调用该函数的位置 

    hundredth_row = titanic_survival.apply(hundredth_row)  #对dataframe数据调用apply方法里面传入之前定义的函数,即执行自定义函数的操作。
    print hundredth_row

    2)例子2:

    def not_null_count(column):  #定义一个函数,形参必须为column,名字可以任取,默认column处会以遍历的方式把每一列的列名都代入。
      column_null = pd.isnull(column)  #调用pd的isnull方法,遍历的判断每列中的所有数据是否是缺失状态
      null = column[column_null]  #把每列中缺失的样本赋值给null
      return len(null)    #遍历的方式返回每列中缺失值的数量

    column_null_count = titanic_survival.apply(not_null_count)  #对dataframe数据执行apply方法,直接调用自定义函数
    print column_null_count

    3)例子3:

    def which_class(row):
      pclass = row['Pclass']
      if pd.isnull(pclass):
        return "Unknown"
      elif pclass == 1:
        return "First Class"
      elif pclass == 2:
        return "Second Class"
      elif pclass == 3:
        return "Third Class"

    classes = titanic_survival.apply(which_class, axis=1)
    print classes

    4)例子4:

    def generate_age_label(row):  #定义一个函数,形参为row
      age = row["Age"]  #
      if pd.isnull(age):
        return "unknown"
      elif age < 18:
        return "minor"
      else:
        return "adult"

    age_labels = titanic_survival.apply(generate_age_label, axis=1)
    print age_labels

    7、series结构

    dataframe中的单独的一行或一列就叫做series结构。而dataframe就是相当于多个series组成的矩阵。

    series结构也是可以通过索引和切片进行定位的。

    通过索引拿出series的一个值,这个值的结构是ndarry,所以series由ndarray结构组成,所以pandas实际上是对numpy的更高级封装

    如果想生成一个series需要from pandas import Series,并且调用Series函数。对Series而言可以用数字也可以用字符作为它的索引值

    series的排序方法sorted方法和reindex方法等

    用add函数对两个series相加,如果维度相同,则对应位置相加

    dataframe结构也是可以设定str值为索引值的,如果这么设定了后,那么dataframe就有两个索引值了,数值和str值

    8、pandas画图

    pandas中有一类数据结构就是datetime,调用pd.to_datetime可以把非标准的时间格式转化为标准的时间格式。

    首先画图前要导入matplotlib.pyplot库 as plt

    plt.plot()  #画出图

    plt.show()  #展示画出的图

    plt.plot(x,y)  #x是x轴数据,y是y轴数据

    plt.plot()  #show方法不变

    plt.xticks(rotation = 45)  #让横轴ticks数据旋转45°

    plt.xlabel('')  #x轴的名称,y轴一样

    plt.title('')  #整个图的标题

    plt.show()  #当对横轴、纵轴还有标题设计好后,最后再调用plt.show()方法画图。

  • 相关阅读:
    Java入门第37课——猜字母游戏之设计数据结构
    Sublime Text 3 常用快捷键
    WEB前端响应式布局之BootStarp使用
    js让页面逐渐变透明,直到消失
    Vue实战之插件 sweetalert 的使用
    搭建jQuery开发环境
    Layui数据表单的编辑
    SpringBoot基于websocket的网页聊天
    layui修改数据的时候下拉框和选择框默认选中
    Linux 软件编译、安装、删除
  • 原文地址:https://www.cnblogs.com/GavinSimons/p/7889529.html
Copyright © 2011-2022 走看看