zoukankan      html  css  js  c++  java
  • 机器学习之pandas介绍

    pandas简介

      pandas全称python Data Analysis Library,是基于numpy的一种工具,pandas纳入了大量库和一些标准的数据模型,提供了高效的操作大型数据集所需的工具。

      pandas最初由AQR Captal Management于2008年4月开发,并于2009年地开源出来,最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。

      pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使python成为强大而高效的数据分析环境的重要因素之一。pandas库是统计科学家在分析数据时的理想工具,非常适合应用于数据清洗,分析/建模。

    适用数据集

      pandas适合处理多种类型的数据:①具有不同数据类型序列的表格数据,如SQL表或Excel电子表格;②有序或无序(不固定频率)的时间序列数据;③带有行和列标签的任意矩阵数据;④任何其他形式的观测/统计数据集。

    pandas的优势

      ①可以轻易的处理浮点及非浮点数据类型的缺失值(NaN);

      ②大小可变:DAtaFrame和Panel都可以删除或插入列;

      ③数据自动对齐;灵活强大的分组功能,可对数据集进行拆分组合操作

      ④将其他的python和numpy数据结构中不同类索引的数据转换为DataFrame对象

      ⑤基于智能标签的切片,花式索引,轻易从大数据集中取出子集;

      ⑥直观的合并,连接数据集;

      ⑦轻易的重新定义数据集形状和转置;

      ⑧轴(axes)的分层标签(是每个元组有多个标签成为可能),然后将分析结果组织成适合于绘图或表格显示的形式的全部过程。

    pandas的数据结构

      ①Series  一维

      ②DataFrame 二维

      ③Panel  三维

    pandas的调库

    import pandas as pd

    pd.Series()      #创建一个空系列

    pd.DataFrame()  #创建一个空的数据帧

  • 相关阅读:
    复制域 动态域
    字段
    ik分词器
    redis配置文件
    注解事务头部
    springSecurity配置解析
    sprring安全的.xml
    springSecurity需要的webxml
    nginx负载均衡+keepalived高可用
    20190802_Nginx基础
  • 原文地址:https://www.cnblogs.com/zgl19991001/p/11004056.html
Copyright © 2011-2022 走看看