DataStreamUtils 连续keyBy 优化

zoukankan html css js c++ java

DataStreamUtils 连续keyBy 优化
经常会有这样的业务需求，需要对一个 stream 连续分区，比如：
source .keyBy(0) .process(new TmpKeyedProcessFunction2) .keyBy(0) .process(new TmpKeyedProcessFunction2) .keyBy(0) .process(new TmpKeyedProcessFunction2)
注： keyBy 算子有 shuffle

org.apache.flink.streaming.api.scala.KeyedStream 的 process 方法声明如下：
@PublicEvolving def process[R: TypeInformation]( keyedProcessFunction: KeyedProcessFunction[K, T, R]): DataStream[R] = { if (keyedProcessFunction == null) { throw new NullPointerException("KeyedProcessFunction must not be null.") } asScalaStream(javaStream.process(keyedProcessFunction, implicitly[TypeInformation[R]])) }
从 KeyedStream 的 process 源码可以看到，process 方法后， KeyedStream 变为 DataStream，如果还想在后面使用 process 方法，就只能使用 DataStream 的 process 方法。如果算子中不使用状态，是无所谓 key 或非 key 的。但是想在process 方法中使用键控状态，就需要将 stream 转为 KeyedStream，所以就有了前面的连续 keyBy。

算子执行图如下：

对应官网地址： https://ci.apache.org/projects/flink/flink-docs-master/zh/dev/stream/experimental.html

DataStreamUtils#reinterpretAsKeyedStream API 的作用是： re-interpret a pre-partitioned data stream as a keyed stream to avoid shuffling. （将预分区的流重新解释为键控流）

官网案例如下：
val env = StreamExecutionEnvironment.getExecutionEnvironment env.setParallelism(1) val source = ... new DataStreamUtils(source).reinterpretAsKeyedStream((in) => in) .timeWindow(Time.seconds(1)) .reduce((a, b) => a + b) .addSink(new DiscardingSink[Int]) env.execute()
官网的例子感觉不出来转为键控流，看下面的例子：
val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment val topic = "randon_string" val kafkaSource = new FlinkKafkaConsumer[String](topic, new SimpleStringSchema(), Common.getProp) val source: DataStream[(String, String, String)] = env.addSource(kafkaSource) .map(str => { val arr = str.split(",") (arr(0), arr(1), arr(2)) }) val keyStream0 = source.keyBy(0) .process(new TmpKeyedProcessFunction2) val keyedStream = new DataStreamUtils(keyStream0) .reinterpretAsKeyedStream(element => element._1) .process(new TmpKeyedProcessFunction("11")) val keyedStream2 = new DataStreamUtils(keyedStream) .reinterpretAsKeyedStream(element => element._1) .process(new TmpKeyedProcessFunction3("22")) env.execute("multiKeyBy")
这样就能很清晰的看出来，讲一个 DataStream 解释为 KeyedStream 了

执行图如下：

警告：重新解释的 DataStream 必须已经完全按照 Flink 的 keyBy 将数据按随机顺序进行分区的相同方式进行了预分区。如： key-group 分配。（来自官网）

如果解释的流不是预分区的，在使用状态的时候，不同分区的数据进来，会报NullPointException

完整代码见： https://github.com/springMoon/flink-rookie.git src/main/scala/com/venn/demo/MultipleKeyByProcess.scala

欢迎关注Flink菜鸟公众号，会不定期更新Flink（开发技术）相关的推文
查看全文

相关阅读:
一次性解决window系统下，git日志乱码的问题
 多线程之线程状态，状态切换种类及代码实例
 mybatis 第一个demo，并记一次解决问题：Mapped Statements collection does not contain value for
有100盏灯,分别写上编号1~100,同样地有100个开关，写上编号1~100。当我按1号开关，写上1的倍数的灯会开/关(如果灯开着就关,相反地,关着就会开)，当我按2号开关，写上2的倍数的灯会开/关，如此类推
 阿里云云服务器 centos 7.4 安装mysql 过程记录
 java实现树形输出
 MATLAB入门笔记
 经测试稳定可用的蓝牙链接通信Demo，记录过程中遇到的问题的思考和解决办法，并整理后给出一个Utils类可以简单调用来实现蓝牙功能
 View的相关原理（读书笔记）
JAVA设计方法思考之如何实现一个方法执行完毕后自动执行下一个方法

原文地址：https://www.cnblogs.com/Springmoon-venn/p/13221649.html