zoukankan      html  css  js  c++  java
  • 对账算法改进

    因为业务量的增长,导致对账时两边的数据占用了1.5g内存,考虑到业务的增长量,打算对原来的一整天数据全部读入后在执行对账的方式做些修改,修改为类似流的join方式,具体方式见图:

     

    如果A的输出流与B的输出流的顺序是基本一致的,那么就可以获得一个比较好的hash join效果,而对少数N代(连续N次未能匹配)未匹配数据做一些补偿,就可以完成全部匹配工作了

    但是,在A的输出流和B的输出流的顺序差异很大,可能造成绝大部分数据未能匹配,那么,在有补偿的情况下,整个方式就退化成根据A left join B,再根据B left join A

  • 相关阅读:
    J
    I题
    H
    G
    F题
    E题
    D题
    C题
    B题
    A题
  • 原文地址:https://www.cnblogs.com/vwxyzh/p/2270447.html
Copyright © 2011-2022 走看看