zoukankan      html  css  js  c++  java
  • datawhale pandas连接

    连接

    • 概念
      把两张相关的表按照某一个或某一组键连接起来的操作就是连接。
      类似于SQL中的连接,pandas 中的关系型连接函数 merge 和 join 中提供了 how 参数来代表连接形式,分为左连接 left 、右连接 right 、内连接 inner 、外连接 outer 。

    • 值连接
      基于值的连接在pandas中使用merge函数实现,
      如果两个表中想要连接的列不具备相同的列名,可以通过 left_on 和 right_on 指定:
      如果两个表中的列出现了重复的列名,那么可以通过 suffixes 参数指定。
      三种模式,即一对一连接 1:1 ,一对多连接 1:m ,多对一连接 m:1 连接,第一个是指左右表的键都是唯一的,后面两个分别指左表键唯一和右表键唯一。

    • 索引连接
      把索引当作键,pandas 中利用 join 函数来处理索引连接,它的参数选择要少于 merge ,除了必须的 on 和 how 之外,可以对重复的列指定左右后缀 lsuffix 和 rsuffix 。其中, on 参数指索引名,单层索引时省略参数表示按照当前索引连接。

    • 类连接操作

    1. compare :能够比较两个表或者序列的不同处并将其汇总展示
    df1 = pd.DataFrame({'Name':['San Zhang', 'Si Li', 'Wu Wang'],
                                'Age':[20, 21 ,21],
                                'Class':['one', 'two', 'three']})
    df2 = pd.DataFrame({'Name':['San Zhang', 'Li Si', 'Wu Wang'],
                                'Age':[20, 21 ,21],
                                'Class':['one', 'two', 'Three']})
    df1.compare(df2)
    
    Out[51]: 
        Name         Class       
        self  other   self  other
    1  Si Li  Li Si    NaN    NaN
    2    NaN    NaN  three  Three
    

    结果中返回了不同值所在的行列,如果相同则会被填充为缺失值 NaN ,其中 other 和 self 分别指代传入的参数表和被调用的表自身。

    1. 组合
      combine 函数能够让两张表按照一定的规则进行组合,在进行规则比较时会自动进行列索引的对齐。对于传入的函数而言,每一次操作中输入的参数是来自两个表的同名 Series ,依次传入的列是两个表列名的并集,例如下面这个例子会依次传入 A,B,C,D 四组序列,每组为左右表的两个序列。同时,进行 A 列比较的时候, s2 指代的就是一个全空的序列,因为它在被调用的表中并不存在,并且来自第一个表的序列索引会被 reindex 成两个索引的并集。具体的过程可以通过在传入的函数中插入适当的 print 方法查看。
      【选出对应索引位置较小的元素:】
      def choose_min(s1, s2):
      ....: s2 = s2.reindex_like(s1)
      ....: res = s1.where(s1<s2, s2)
      ....: res = res.mask(s1.isna()) # isna表示是否为缺失值,返回布尔序列
      ....: return res
      ....:
     df1 = pd.DataFrame({'A':[1,2], 'B':[3,4], 'C':[5,6]})
     df2 = pd.DataFrame({'B':[5,6], 'C':[7,8], 'D':[9,10]}, index=[1,2])
     df1.combine(df2, choose_min)
    
        A    B    C   D
    0 NaN  NaN  NaN NaN
    1 NaN  4.0  6.0 NaN
    2 NaN  NaN  NaN NaN
    
  • 相关阅读:
    ABP框架理论学习之Debugging
    探索博客园的“打赏”模式
    P3382 【模板】三分法
    1020.数字识别
    洛谷 P1162 填涂颜色
    在windows命令行批量ping局域网内IP
    1154:LETTERS
    百炼 2790:迷宫
    洛谷 P1605 迷宫
    2012年NOIP普及组 摆花
  • 原文地址:https://www.cnblogs.com/wenqihe/p/14208925.html
Copyright © 2011-2022 走看看