zoukankan      html  css  js  c++  java
  • Python中的Pandas模块

    目录

    Pandas

    Series

    序列的创建

    序列的读取 

    DataFrame

    DataFrame的创建 

    DataFrame数据的读取

    Panel

    Panel的创建 


    Pandas

    Pandas ( Python Data Analysis Library )是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一
     
    python中有三种数据结构

    1. Series:一维数组,与Numpy中的一维array类似。二者与Python基本的数据结构List也很相近,其区别是:List中的元素可以是不同的数据类型,而array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。Time- Series:以时间为索引的Series。
    2. DataFrame:二维的表格型数据结构。很多功能与R中的data.frame类似。可以将DataFrame理解为Series的容器。DataFrame是用的最多的数据结构
    3. Panel :三维的数组,可以理解为DataFrame的容器。

    pandas可以读取很多种的数据,用的比较多的是读取 htm、json、csv的数据

    import pandas
    
    data1=pandas.read_html('1.html')   #读取html格式数据
    data2=pandas.read_json('2.json')   #读取json格式数据
    data3=pandas.read_csv('3.csv')     #读取csv格式的数据
    

    Series

    系列(Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签统称为索引

    Series的创建函数:pandas.Series( data, index, dtype,copy )

    参数 描述
    data 数据采取各种形式,如:ndarray,list,constants
    index 索引值必须是唯一的和散列的,与数据的长度相同。默认 np.arange(n) 如果没有索引被传递
    dtype dtype 用户数据类型。如果没有,将推断数据类型
    copy 复制数据,默认为 false

    序列的创建

    创建一个空series序列

    从字典创建一个series序列

    序列的读取 

    读取直接用 ['行名'],序列只可以读取行的内容

    DataFrame

    数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。
    数据帧(DataFrame)的功能特点:

    • 潜在的列是不同的类型
    • 大小可变
    • 标记轴(行和列)
    • 可以对行和列执行算术运算

    DataFrame的创建函数:pandas.DataFrame( data, index, columns, dtype, copy)

    参数 描述
    data 数据采取各种形式,如:ndarray,series,map,lists,dict,constant和另一个DataFrame
    index 对于行标签,要用于结果帧的索引是可选缺省值 np.arrange(n) ,如果没有传递索引值
    columns 对于列标签,可选的默认语法是 np.arange(n) 这只有在没有索引传递的情况下才是这样
    dtype 每列的数据类型
    copy 如果默认值为false,则此命令用于复制数据

    DataFrame的创建 

    创建一个空DataFrame序列

    从字典创建一个series序列(必须加index) 

    DataFrame数据的读取

    读取列,直接 ['列名']

    读取行 

    Panel

    面板(Panel)是3D容器的数据。面板数据一词来源于计量经济学,部分源于名称:Pandas - pan(el)-da(ta)-s。
    3轴(axis)这个名称旨在给出描述涉及面板数据的操作的一些语义。它们是 

    • items - axis 0,每个项目对应于内部包含的数据帧(DataFrame)
    • major_axis - axis 1,它是每个数据帧(DataFrame)的索引(行)
    • minor_axis - axis 2,它是每个数据帧(DataFrame)的列

    Panel的创建函数:pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)

    参数 说明
    data 数据采取各种形式,如:ndarray,series,map,lists,dict,constant和另一个数据帧 DataFrame
    items axis=0
    major_axis axis=1
    minor_axis axis=2
    dtype 每列的数据类型
    copy 复制数据,默认 false

    Panel的创建 

    创建一个空Panel序列

  • 相关阅读:
    python模块—socket
    mac os系统的快捷键
    教你如何将UIImageView视图中的图片变成圆角
    关于ASP.NET MVC
    iOS 日期格式的转换
    将App通过XCode上传到AppStore 出现这个错误“An error occurred uploading to the iTunes Store”的解决方法
    关于MAC OS下面两个软件的功能改进——Dictionary和Fit 输入法
    分享一下上个星期的香港行程
    【博客园IT新闻】博客园IT新闻 iPhone 客户端发布
    解决Entity Framework Code First 的问题——Model compatibility cannot be checked because the database does not contain model metadata
  • 原文地址:https://www.cnblogs.com/csnd/p/11807923.html
Copyright © 2011-2022 走看看