hdata datax交流总结

zoukankan html css js c++ java

hdata datax交流总结
http://blog.csdn.net/zlm838687/article/details/74781522

hdata datax交流总结

今天和阿里云的同学就数据同步做了简要的交流，下面就交流的内容做一个总结

分片相关
1. datax目前可以支持单机(standalone)和集群模式(cluster).目前开源的是单机版本。无论是单机版本还集群版本，分片都是通过datax进行。集群模式会把分片包装的taskGroup重新发给datax service, datax service会把新的taskGroup重新发给其他机器执行
2. 根据算出的最大值、最小值和通道个数(相当于hdata的线程个数)，可以计算出步长(step), 然后根据step，计算出各个分片的长度。
3. datax split目前仅支持单一主键，且主键类型是int或者varchar类型
4. 执行reader和writer最细力度的切分。需要注意到是，writer的切分结果要参照readre的结果，要达到切分后的结果数目相等，才能满足1：1的通道模型。所以这里可以将reader和writer的配置整合到一起。为了避免顺序给读写带来的长尾效应，将整合的结果shuffle掉。
5. hbase的分片是通过region来实现的
6. odps(他们的hadoop环境)是通过offset来实现的
7. 分库分表直接在表的层面划分，各个表之间没有关系。我们交流的团队目前是没有使用canal增量同步数据的
8. datax没有断点续传，分布式一个错，其他都错。datax如果某一个task失败会有重试，我们hdata目前还没有。后面hdata可以改进下，可以减少整个任务重试的成本。
流控
1. datax的流控不会出现尖峰的情况。他们内部会把每次sleep的时间调整的很短。具体sleep的时间他们是根据当前流量，超出峰值的流量等因素，根据他们内部算法实现的。我们自己的hdata早前都是固定sleep一秒的, 所以会出现峰值的情况。
2. 数据源的流控超过了就不再下发任务
开发平台相关
1. 多租户，主账号和子账号，有多个角色（开发，运维，部署，方可，项目管理员），会有测试，预发等。
2. SQL的补全是每个输入会有ajax请求到后端(odps上)做语法分析. odps会根据语法树找到和用户最匹配的sql
总结

我们做的好的地方
1. datax目前的进度汇报是基于task级别的，但是task级别的进度不能真正反映整个job的进度。我们目前hdata是进程级别的。可以真正的看到这个任务total read write completedPercent的情况
2. datax的限流虽然把sleep的间隔调整为毫秒级别，但是个人觉得还是会出现短暂的分值情况。我们目前的限流首先会在数据库级别做一下限流，降低数据库的压力，减少sql killer发送的频率。还有我们目前限流的算法采用类似tcp拥堵的滑动窗口算法，快速下降慢速恢复。可以将流量控制在一个平稳的数值范围内。
值的学习借鉴的地方
1. hdata的分布式。大概想法是分片还是由hdata完成，然后hdata把分片的结果告诉调度，由调度进行二次分发到不同的hdata机器上进行执行
2. hdata可以增加线程级别的重试。减少重跑出错任务的代价
3. 当前hdata支持容忍错误的条数，不支持容忍错误百分比。后期需要把这个功能坐上。
4. hdata的智能分析还不够强大。当前正在做。
5. 数加的测试环境的数据都是读取线上的数据的，只不过写出的时候区分线上环境还是测试环境。我们后面做测试环境可以考虑下。
查看全文

相关阅读:
QQ机器人
 Javascript实现base64的加密解密
 C# 对List<T>取交集、连集及差集
 简单正则验证
 中止线程
 线程同步synchronized
volatile
并发
 垃圾回收机制
 给定一个正整数num ，反复将各个位上的数字相加，直到结果为一位数

原文地址：https://www.cnblogs.com/0xcafedaddy/p/8182535.html

hdata datax交流总结

hdata datax交流总结

分片相关

流控

开发平台相关

总结