zoukankan      html  css  js  c++  java
  • pandas模块

    pandas模块

    一、导入方式

    import pandas as pd
    

    二、作用

    文件处理,更多地是给excle文件做处理,对numpy+xlrd模块做了一层封装

    三、pandas的数据类型

    3.1 series()

    现在一般不使用(一维)

    df = pd.series(np.array([1,2,3,4]))
    print(df)
    

    3.2 DataFrame() (多维)

    3.2.1

    dates = pd.date_range('20190101', periods=6, freq='M')
    print(dates)    # periods=6, freq='M'代表前六个月
    
    start 开始时间
    end 结束时间
    periods 时间长度
    freq 时间频率,默认为'D',可选H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

    3.2.2 属性

    属性 详解
    dtype是 查看数据类型
    index 查看行序列或者索引
    columns 查看各列的标签
    values 查看数据框内的数据,也即不含表头索引的数据
    describe 查看数据每一列的极值,均值,中位数,只可用于数值型数据
    transpose 转置,也可用T来操作
    sort_index 排序,可按行或列index排序输出
    sort_values 按数据值来排序

    3.2.3 取值

    #构造一个数组
    dates = pd.date_range('20190101', periods=6, freq='M')
    print(dates)
    

    values = np.random.rand(6, 4) * 10
    print(values)

    columns = ['c4','c2','c3','c1']

    #主要掌握
    df.values[1,1]   #取出第一行第一列
    df.iloc[1,1] = 1  #取出第一行第一列,替换为1
    

    3.2.4 操作表格

    1、缺失值处理

    df = df.dropna(axis = 0)    #按行删除缺失值
    df
    
    df = df.dropna(tresh = 4)   #必须得有4个值,写5就不可以,因为只有4列
    
    df = df.dropna(axis=0)  # 1列,0行
    df  #按行取缺失值
    

    2、合并处理数据

    df1 = pd.DataFrame(np.zeros((2,3)))  #用0合并两行三列
    df2 = pd.DataFrame(np.ones((2,3)))  #用1合并两行三列
    pd.concat((df1,df2))  #默认按列合并
    pd.concat((df1,df2),axis=1)    axis=1是行,0是列
    df1.append(df2)   #往后追加
    
    • 导入数据,读取json文件菜鸟仅做了解
  • 相关阅读:
    Python 规范
    Hql
    Python
    IIS 日志分析
    NHibernate 知识点整理
    微软开放了.NET 4.5.1的源代码
    自定义消息编码绑定实现
    使用自定义绑定
    WCF安全:通过 扩展实现用户名密码认证
    WCF 几种错误
  • 原文地址:https://www.cnblogs.com/yanjiayi098-001/p/11378066.html
Copyright © 2011-2022 走看看