zoukankan      html  css  js  c++  java
  • Pandas的常用方法

    Pandas是一个Python软件包,提供快速,灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的工作变得简单直观。它旨在成为在Python中进行实际的,真实世界的数据分析的基本高级构件另外,它具有更广泛的目标,即成为任何语言中最强大,最灵活的开源数据分析/操作工具它已经很好地走向了这个目标。

    pandas非常适合许多不同类型的数据:

    • 具有异构类型列的表格数据,如在SQL表格或Excel电子表格中
    • 有序和无序(不一定是固定频率)的时间序列数据。
    • 具有行列标签的任意矩阵数据(均匀类型或异类型)
    • 任何其他形式的观测/统计数据集。数据实际上不需要标记为放置在熊猫数据结构中

    pandas Series(1维)和DataFrame(2维)这两个主要的数据结构在金融,统计,社会科学和许多工程领域处理绝大多数的典型用例。对于R用户,DataFrame提供R所提供的一切, data.frame以及更多。pandas建立在NumPy之上,旨在与许多其他第三方库完美地集成在科学计算环境中。

    这只是pandas所做的一些事情:

    • 轻松处理浮点数据中丢失数据(以NaN表示)以及非浮点数据
    • 大小可变性:可以从DataFrame和更高维的对象插入和删除
    • 自动和显式的数据对齐:对象可以显式地与一组标签对齐,或者用户可以简单的忽略标签,让SeriesDataFrame等自动对齐你的数据在计算
    • 功能强大,灵活的按组功能来执行对数据集拆分申请,联合行动,对于聚合和转换数据
    • 可以轻松地将其他Python和NumPy数据结构中的不同索引的数据转换为DataFrame对象
    • 基于智能标签的切片花式索引 大型数据集的
    • 直观的合并连接数据集
    • 数据集的灵活的重塑和旋转
    • 坐标轴的分层标记(可能每个标记有多个标签)
    • 强大的IO工具,用于从平面文件(CSV和分隔),Excel文件,数据库加载数据,以及从超快HDF5格式保存/加载数据
    • 时间序列 - 特定功能:日期范围生成和频率转换,移动窗口统计,移动窗口线性回归,日期转换和滞后等。

    这些原则中的许多都是为了解决使用其他语言/科学研究环境经常遇到的缺陷。对于数据科学家来说,处理数据通常分为多个阶段:清理和清理数据,分析/建模数据,然后将分析结果组织成适合绘图或表格显示的形式。pandas是所有这些任务的理想工具。

    一些其他的说明

    • pandas是快速的许多低级算法位已经在Cython代码中进行了广泛的调整但是,与其他任何概括一样,通常会牺牲性能。所以,如果您专注于您的应用程序的一个功能,您可能可以创建一个更快的专业工具。
    • pandas是statsmodels的依赖,使其成为Python中统计计算生态系统的重要组成部分。
    • pandas已被广泛用于金融应用的生产。

    注意

     

    本文档假定您对NumPy有一般的了解。如果你还没有使用NumPy,或者根本没有使用NumPy,那么先花一些时间来学习NumPy

    pandas官网: http://pandas.pydata.org/

    Numpy官网:  http://www.numpy.org/

    Series

        Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。
    Series常用属性
    属性 说明
    values 获取数组
    index 获取索引
    name values的name
    index.name 索引的name
    Series常用函数
     
    函数 说明
    Series([x,y,...])Series({'a':x,'b':y,...}, index=param1) 生成一个Series
    Series.copy() 复制一个Series 

    Series.reindex([x,y,...], fill_value=NaN)

    Series.reindex([x,y,...], method=NaN)

    Series.reindex(columns=[x,y,...])

    重返回一个适应新索引的新对象,将缺失值填充为fill_value

    返回适应新索引的新对象,填充方式为method

    对列进行重新索引

    Series.drop(index) 丢弃指定项
    Series.map(f) 应用元素级函数 
       
    排序函数 说明
    Series.sort_index(ascending=True) 根据索引返回已排序的新对象
    Series.order(ascending=True) 根据值返回已排序的对象,NaN值在末尾
    Series.rank(method='average', ascending=True, axis=0) 为各组分配一个平均排名

    df.argmax()

    df.argmin()

    返回含有最大值的索引位置

    返回含有最小值的索引位置

        reindex的method选项:
          ffill, bfill     向前填充/向后填充
          pad, backfill   向前搬运,向后搬运
        rank的method选项
          'average'    在相等分组中,为各个值分配平均排名
          'max','min'   使用整个分组中的最小排名
          'first'      按值在原始数据中出现的顺序排名
    DataFrame

        DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。

        DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。

        为不存在的列赋值会创建新列。

        >>> del frame['xxx']  # 删除列

    DataFrame常用属性

    属性 说明
    values DataFrame的值
    index 行索引
    index.name 行索引的名字
    columns 列索引
    columns.name 列索引的名字
    ix 返回行的DataFrame
    ix[[x,y,...], [x,y,...]] 对行重新索引,然后对列重新索引
    T frame行列转置
       

    Dataframe常用函数

    函数 说明

    DataFrame(dict, columns=dict.index, index=[dict.columnnum])

    DataFrame(二维ndarray)

    DataFrame(由数组、列表或元组组成的字典)

    DataFrame(NumPy的结构化/记录数组)

    DataFrame(由Series组成的字典)

    DataFrame(由字典组成的字典)

    DataFrame(字典或Series的列表)

    DataFrame(由列表或元组组成的列表)

    DataFrame(DataFrame)

    DataFrame(NumPy的MaskedArray)

    构建DataFrame

    数据矩阵,还可以传入行标和列标

    每个序列会变成DataFrame的一列。所有序列的长度必须相同

    类似于“由数组组成的字典”

    每个Series会成为一列。如果没有显式制定索引,则各Series的索引会被合并成结果的行索引

    各内层字典会成为一列。键会被合并成结果的行索引。

    各项将会成为DataFrame的一行。索引的并集会成为DataFrame的列标。

    类似于二维ndarray

    沿用DataFrame

    类似于二维ndarray,但掩码结果会变成NA/缺失值

    df.reindex([x,y,...], fill_value=NaN, limit)

    df.reindex([x,y,...], method=NaN)

    df.reindex([x,y,...], columns=[x,y,...],copy=True)

    返回一个适应新索引的新对象,将缺失值填充为fill_value,最大填充量为limit

    返回适应新索引的新对象,填充方式为method

    同时对行和列进行重新索引,默认复制新对象。

    df.drop(index, axis=0) 丢弃指定轴上的指定项。
       
    排序函数 说明

    df.sort_index(axis=0, ascending=True)

    df.sort_index(by=[a,b,...])

    根据索引排序
       
    汇总统计函数 说明
    df.count() 非NaN的数量
    df.describe() 一次性产生多个汇总统计

    df.min()

    df.min()

    最小值

    最大值

    df.idxmax(axis=0, skipna=True)

    df.idxmin(axis=0, skipna=True)

    返回含有最大值的index的Series

    返回含有最小值的index的Series

    df.quantile(axis=0) 计算样本的分位数

    df.sum(axis=0, skipna=True, level=NaN)

    df.mean(axis=0, skipna=True, level=NaN)

    df.median(axis=0, skipna=True, level=NaN)

    df.mad(axis=0, skipna=True, level=NaN)

    df.var(axis=0, skipna=True, level=NaN)

    df.std(axis=0, skipna=True, level=NaN)

    df.skew(axis=0, skipna=True, level=NaN)

    df.kurt(axis=0, skipna=True, level=NaN)

    df.cumsum(axis=0, skipna=True, level=NaN)

    df.cummin(axis=0, skipna=True, level=NaN)

    df.cummax(axis=0, skipna=True, level=NaN)

    df.cumprod(axis=0, skipna=True, level=NaN)

    df.diff(axis=0)

    df.pct_change(axis=0)

    返回一个含有求和小计的Series

    返回一个含有平均值的Series

    返回一个含有算术中位数的Series

    返回一个根据平均值计算平均绝对离差的Series

    返回一个方差的Series

    返回一个标准差的Series

    返回样本值的偏度(三阶距)

    返回样本值的峰度(四阶距)

    返回样本的累计和

    返回样本的累计最大值

    返回样本的累计最小值

    返回样本的累计积

    返回样本的一阶差分

    返回样本的百分比数变化

       
       
    计算函数 说明 

    df.add(df2, fill_value=NaN, axist=1)

    df.sub(df2, fill_value=NaN, axist=1)

    df.div(df2, fill_value=NaN, axist=1)

    df.mul(df2, fill_value=NaN, axist=1)

    元素级相加,对齐时找不到元素默认用fill_value 

    元素级相减,对齐时找不到元素默认用fill_value 

    元素级相除,对齐时找不到元素默认用fill_value 

    元素级相乘,对齐时找不到元素默认用fill_value 

    df.apply(f, axis=0) 将f函数应用到由各行各列所形成的一维数组上
    df.applymap(f) 将f函数应用到各个元素上
    df.cumsum(axis=0, skipna=True) 累加,返回累加后的dataframe

    Dataframe常用索引方式

    索引方式 说明
    df[val] 选取DataFrame的单个列或一组列
    df.ix[val] 选取Dataframe的单个行或一组行
    df.ix[:,val] 选取单个列或列子集
    df.ix[val1,val2] 将一个或多个轴匹配到新索引
    reindex方法 将一个或多个轴匹配到新索引
    xs方法 根据标签选取单行或者单列,返回一个Series
    icol、irow方法 根据整数位置选取单列或单行,并返回一个Series
    get_value、set_value 根据行标签和列标签选取单个值

    运算:

        默认情况下,Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列,沿着列一直向下传播。若索引找不到,则会重新索引产生并集。

    Index

        pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。Index对象不可修改,从而在多个数据结构之间安全共享。


    主要的Index对象 说明
    Index 最广泛的Index对象,将轴标签表示为一个由Python对象组成的NumPy数组
    Int64Index 针对整数的特殊Index
    MultiIndex “层次化”索引对象,表示单个轴上的多层索引。可以看做由元组组成的数组
    DatetimeIndex 存储纳秒级时间戳(用NumPy的Datetime64类型表示)
    PeriodIndex 针对Period数据(时间间隔)的特殊Index

    主要的Index属性

    函数 说明
    Index([x,y,...]) 创建索引
    append(Index) 连接另一个Index对象,产生一个新的Index
    diff(Index) 计算差集,产生一个新的Index
    intersection(Index) 计算交集
    union(Index) 计算并集
    isin(Index) 检查是否存在与参数索引中,返回bool型数组
    delete(i) 删除索引i处元素,得到新的Index
    drop(str) 删除传入的值,得到新Index
    insert(i,str) 将元素插入到索引i处,得到新Index
    is_monotonic() 当各元素大于前一个元素时,返回true
    is_unique() 当Index没有重复值时,返回true
    unique() 计算Index中唯一值的数组
  • 相关阅读:
    记录一下自己的洛谷的题解
    初学java 学生管理系统——v0002版本
    初学java 学生管理系统——v0001版本
    Redis守护进程作用+数据类型
    java实现发送短信验证码
    Kali入侵入门版笔记!!!
    2020实现ssh公网外联和外网远程穿透以及内网穿透防火墙
    监控键盘和鼠标记录内容和截屏,更新版本2.0,增加了Linux服务端!!!
    Git管理软件开发项目入门版
    2020年Windows下开机自动执行最强
  • 原文地址:https://www.cnblogs.com/zhouzhishuai/p/8042960.html
Copyright © 2011-2022 走看看