zoukankan      html  css  js  c++  java
  • 通过DataWorks数据集成归档日志服务数据至MaxCompute进行离线分析

    通过DataWorks归档日志服务数据至MaxCompute

    官方指导文档:https://help.aliyun.com/document_detail/68322.html
    但是会遇到大家在分区上或者DataWorks调度参数配置问题,具体拿到真实的case模拟如下:

    创建数据源:

    步骤1、进入数据集成,点击作业数据源,进入Tab页面。

    步骤2、 点击右上角

    新增数据源,选择消息队列 loghub。

    步骤3、编辑LogHub数据源中的必填项,包括数据源名称、LogHub
    Endpoint、Project、AK信息等,并点击 测试连通性。

    创建目标表:

    步骤1、在左侧tab也中找到临时查询,并右键>新建ODPS SQL节点。

    步骤2、编写建表DDL。
    步骤3、点击
    执行 按钮进行创建目标表,分别为ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

    步骤4、直到日志打印成本,表示三条DDL语句执行完毕。

    步骤5、可以通过desc 查看创建的表。

    其他两张表也可以通过desc 进行查询。确认数据表的存在情况。

    创建数据同步任务

    数据源端以及在DataWorks中的数据源连通性都已经配置好,接下来就可以通过数据同步任务进行采集数据到MaxCompute上。

    操作步骤

    步骤1、点击
    新建业务流程 并 确认提交,名称为 直播日志采集。

    步骤2、在业务流程开发面板中依次创建如下依赖并命名。

    依次配置数据同步任务节点配置:web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

    步骤3、双击

    web_tracking_log_syn 进入节点配置,配置项包括数据源(数据来源和数据去向)、字段映射(源头表和目标表)、通道控制。

    根据采集的时间窗口自定义参数为:

    步骤4、可以点击高级运行进行测试。

    可以分别手工收入自定义参数值进行测试。

    步骤5、使用SQL脚本确认是否数据已经写进来。如下图所示:

    日志服务的日志正式的被采集入库,接下来就可以进行数据加工。
    比如可以通过上述来统计热门房间、地域分布和卡顿率,如下所示:

    具体SQL逻辑不在这里展开,可以根据具体业务需求来统计分析。依赖关系配置如上图所示。



    本文作者:祎休

    原文链接

    本文为云栖社区原创内容,未经允许不得转载。

  • 相关阅读:
    Vue 消息无缝滚动
    请求不携带cookie问题
    vue中添加favicon
    自定义表单-校验数据规则
    vue 刷新当前页面的方式
    读阮一峰《ECMAScript 6 入门》小结
    Java进阶知识点3:更优雅地关闭资源
    Java进阶知识点2:看不懂的代码
    用Java实现异构数据库的高效通用分页查询功能
    Java进阶知识点1:白捡的扩展性
  • 原文地址:https://www.cnblogs.com/zhaowei121/p/10677587.html
Copyright © 2011-2022 走看看