zoukankan      html  css  js  c++  java
  • Python之数据规整化:清理、转换、合并、重塑

    Python之数据规整化:清理、转换、合并、重塑

    1. 合并数据集

    pandas.merge可根据一个或者多个不同DataFrame中的行连接起来。
    pandas.concat可以沿着一条轴将多个对象堆叠到一起。
    实例方法combine_first可以将重复数据编接在一起,用一个对象中的值填充另一个对象中的缺失值。
    

    2. 数据风格的DataFrame合并操作

    2.1 数据集的合并(merge)或连接(jion)运算时通过一个或多个键将行链接起来的。如果没有指定,merge就会将重叠列的列名当做键,最好显示指定一下。
    pd.merge(df1,df2,on='key')
    2.2 默认情况下,merge做的是"inner"连接,结果中的键是交集。其他方式有“left”、“right”、“outer”。外连接求取的是键的并集,组合了左连接和右连接。
    2.3 都对的的连接是行的笛卡尔积。
    2.4 merge的suffixes选项,用于指定附加到左右两个DataFrame对象的重叠列名上的字符串。
    

    3. 索引上的合并

    DataFrame有merge和join索引合并。
    

    4. 重塑和轴向旋转

    有许多用于重新排列表格型数据的基础运算。这些函数也称作重塑(reshape)或轴向旋转(pivot)运算。
    4.1 重塑层次化索引
    层次化索引为DataFrame数据的重排任务提供了良好的一致性方式。主要两种功能:
        stack:将数据的列“旋转”为行。
        unstack:将数据的行“旋转”为列。
    

    5. 数据转换

    5.1 利用函数或映射进行数据转换
    Series的map方法可以接受一个函数或含有映射关系的字典型对象。
    5.2 替换值
    replace可以由一个带替换值组成的列表以及一个替换值
    data.replace([-999,-1000],np.nan)
    5.3 重命名轴索引
    轴标签也可通函数或映射进行转换,从而得到一个新对象轴还可以被就地修改,而无需新建一个数据结构。
    5.4 离散化和面元划分
    为了便于分析,连续数据常常被分散化或拆分成“面元”(bin)。
    pandas的cut函数
    5.5 检测和过滤异常值
    异常值的过滤或变换运算很大程度上其实就是数组的运算。
    

    6. 字符串操作

    6.1 字符串对象方法
    split以逗号分割的字符串可以拆分成数段。
    字符串“::”的jion方法以冒号分隔符的形式连接起来。
    6.2 正则表达式
    描述一个或多个空白符的regex是s+
    创建可重用的regex对象:
    regex = re.complie('s+')
    regex.split(text)
    6.3 pandas中矢量化的字符串函数
    实现矢量化的元素获取操作:要么使用str.get,要么使用str属性上使用索引。
    
  • 相关阅读:
    数据库01
    并发编程6
    并发编程5
    并发编程4
    并发编程3
    并发编程2
    并发编程1
    kali 下文件操作
    kali driftnet
    2017.1.1
  • 原文地址:https://www.cnblogs.com/lanzhi/p/6467831.html
Copyright © 2011-2022 走看看