zoukankan html css js c++ java

Flink batch/stream编程套路

DataSet and DataStream 这里以WordCount为例，共同的编程套路如下所示：

1.获取执行环境(execution environment)
final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

2.加载/创建初始数据集
// 读取输入数据
DataStream<String> text;
if (params.has("input")) {
    // 读取text文件
    text = env.readTextFile(params.get("input"));
} else {
    System.out.println("Executing WordCount example with default input data set.");
    System.out.println("Use --input to specify file input.");
    // 读取默认测试数据集
    text = env.fromElements(WordCountData.WORDS);
}

3.对数据集进行各种转换操作(生成新的数据集)
DataStream<Tuple2<String, Integer>> counts =
                    // 切分每行单词
                    text.flatMap(new Tokenizer())
                    //对每个单词分组统计词频数
                    .keyBy(0).sum(1);
                    
4.指定将计算的结果放到何处去
// 输出统计结果
if (params.has("output")) {
    //写入文件地址
    counts.writeAsText(params.get("output"));
} else {
    System.out.println("Printing result to stdout. Use --output to specify output path.");
    //数据打印控制台
    counts.print();
}

5.触发APP执行
// 执行flink 程序
env.execute("Streaming WordCount");

查看全文

相关阅读:
[转载红鱼儿]delphi 实现微信开发（1）
Devexpress VCL Build v2013 vol 14.1.3 发布
 [翻译]LSP程序的分类
 睡眠不好
 LuaStudio 9.27 去10分钟退出暗桩板
 vs2012 提示未能正确加载 "Visual C++ Language Manager Package" 包的解决办法
 岁月蹉跎
 重新安装系统之前备份
 运动会
 乱思

原文地址：https://www.cnblogs.com/linjiqin/p/12439150.html