zoukankan html css js c++ java

准备数据集用于flink学习

内容：所有原创文章分类汇总及配套源码，涉及Java、Docker、Kubernetes、DevOPS等；

在学习和开发flink的过程中，经常需要准备数据集用来验证我们的程序，阿里云天池公开数据集中有一份淘宝用户行为数据集，稍作处理后即可用于flink学习；

下载地址：
https://tianchi.aliyun.com/dataset/dataDetail?spm=a2c4e.11153940.0.0.671a1345nJ9dRR&dataId=649
如下图所示，点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无法在excel打开，因此下载体积小一些的UserBehavior.csv)：
该CSV文件的内容，一共有五列，每列的含义如下表：

为了便于检查数据，接下来在时间戳字段之后新增一个字段，内容是将该行的时间戳转成时间字符串

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

！！！有个问题要格外注意！！！：上述表达式中，由于8*3600的作用，得到的时间字符串实际上是东八区时区的时间，在flink sql中，如果用DATE_FORMAT函数计算timestamp也能得到时间字符串，但是这个字符串是格林尼治时区，此时两个时间字符串的值就不同了，例如从F列看2017/11/12和2017/11/13各一条记录，但是DATE_FORMAT函数计算timestamp得到的却是2017/11/12有两条记录，解决这个问题的办法就是将表达式中的8*3600去掉，大家都用格林尼治时区；
表达式生效后，F1的内容就是E1的时间字符串，接下来F列的所有记录都作转换，鼠标放在下图红框位置时，会出现十字架标志，在此标志上双击鼠标：

在这里插入图片描述
5. 完成后如下图，F列的时间信息更利于我们开发过程中核对数据：

在这里插入图片描述

此时的CSV文件中的数据并不是按时间字段排序的，如下图：
flink在处理上述数据时，由于乱序问题可能会导致计算结果不准，以上图为例，在处理红框2中的数据时，红框3所对应的窗口早就完成计算了，虽然flink的watermark可以容忍一定程度的乱序，但是必须将容忍时间调整为7天才能将红框3的窗口保留下来不触发，这样的watermark调整会导致大量数据无法计算，因此，需要将此CSV的数据按照时间排序再拿来使用；
如下图操作即可完成排序：

在这里插入图片描述
4. 完成排序后如下图所示：

在这里插入图片描述
至此，一份淘宝用户行为数据集就准备完毕了，接下来的文章将会用此数据进行flink相关的实战；

微信搜索「程序员欣宸」，我是欣宸，期待与您一同畅游Java世界...
https://github.com/zq2599/blog_demos

查看全文

相关阅读:
高级查询
 简单查询
 CRUD
T-SQL语句
 数据库规范
 导出含有特定字符串的注册表
 .net、jquery、ajax、wcf实现数据库用户名检测局部刷新
 数据结构实验之二叉树二：遍历二叉树
 传纸条
 数据结构实验之栈与队列五：下一较大值（一）