zoukankan      html  css  js  c++  java
  • 【Pandas】概述

    Pandas 概述

    Pandas是python中运用很广泛的统计分析库,用于各种金融、工业、等等统计分析,适用于各种时间序列和面板数据等。而对应于Pandas库,最主要的两个类分别是Series和DataFrame。Pandas是numpy的一种扩展,因此很多高级的数据计算方法也是来源numpy。

    长远目标

    成为最强大、最灵活、可以支持任何语言的开源数据分析工具

    适用的数据类型

    • 与 SQL 或 Excel 表类似的,含异构列的表格数据;

    • 有序和无序(非固定频率)的时间序列数据;

    • 带行列标签的矩阵数据,包括同构或异构型数据;

    • 任意其它形式的观测、统计数据集, 数据转入 Pandas 数据结构时不必事先标记。

    Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。对于 R 用户,DataFrame 提供了比 R 语言 data.frame 更丰富的功能。Pandas 基于 NumPy 开发,可以与其它第三方科学计算支持库完美集成。

    优势

    • 处理浮点与非浮点数据里的缺失数据,表示为 NaN

    • 大小可变:插入或删除 DataFrame 等多维对象的列;

    • 自动、显式数据对齐:显式地将对象与一组标签对齐,也可以忽略标签,在 Series、DataFrame 计算时自动与数据对齐;

    • 强大、灵活的分组(group by)功能:拆分-应用-组合数据集,聚合、转换数据;

    • 把 Python 和 NumPy 数据结构里不规则、不同索引的数据轻松地转换为 DataFrame 对象;

    • 基于智能标签,对大型数据集进行切片花式索引子集分解等操作;

    • 直观地合并(merge)连接(join)数据集;

    • 灵活地重塑(reshape)透视(pivot)数据集;

    • 支持结构化标签:一个刻度支持多个标签;

    • 成熟的 IO 工具:读取文本文件(CSV 等支持分隔符的文件)、Excel 文件、数据库等来源的数据,利用超快的 HDF5 格式保存 / 加载数据;

    • 时间序列:支持日期范围生成、频率转换、移动窗口统计、移动窗口线性回归、日期位移等时间序列功能。

    其它说明

    • Pandas 速度很快。Pandas 的很多底层算法都用 Cython 优化过。然而,为了保持通用性,必然要牺牲一些性能,如果专注某一功能,完全可以开发出比 Pandas 更快的专用工具。

    • 官方文档:https://pandas.pydata.org/docs/

    数据结构

    维数名称描述
    1 Series 带标签的一维同构数组
    2 DataFrame 带标签的,大小可变的,二维异构表格
  • 相关阅读:
    spring 包的依赖关系
    菜鸟程序猿之IDEA快捷键
    eclipse的svn插件
    SVN使用教程总结
    Oracle 11g安装步骤详谈
    C3P0连接池的配置与使用
    Java课程设计
    201621123057 《Java程序设计》第14周学习总结
    201621123057 《Java程序设计》第13周学习总结
    201621123057 《Java程序设计》第12周学习总结
  • 原文地址:https://www.cnblogs.com/watalo/p/13245942.html
Copyright © 2011-2022 走看看