zoukankan      html  css  js  c++  java
  • AWS Data Pipeline

    WS Data Pipeline 是一项 Web 服务,您可用于自动处理数据的移动和转换。使用 AWS Data Pipeline,您可以定义数据驱动的工作流,这样任务就可以依赖于前面任务的成功执行。您可以定义数据转换的参数,AWS Data Pipeline 将实施您设置的逻辑。

    AWS Data Pipeline 的以下组件协同工作来管理您的数据:

    • 管道定义 指定数据管理的业务逻辑。有关更多信息,请参阅管道定义文件语法

    • 管道通过创建 Amazon EC2 实例以执行定义的工作活动,来计划和运行任务。您将管道定义上传到管道,然后激活管道。您可以编辑正在运行的管道的管道定义,并重新激活管道以使其生效。您可以停用管道,修改数据源,然后重新激活管道。完成使用管道后可以将其删除。

    • Task Runner 将轮询任务,然后执行这些任务。例如,Task Runner 可以将日志文件复制到 Amazon S3,然后启动 Amazon EMR 集群。Task Runner 已安装,并将在管道定义所创建的资源上自动运行。您可以编写自定义任务运行程序应用程序,也可以使用 AWS Data Pipeline 提供的 Task Runner 应用程序。有关更多信息,请参阅任务运行程序

    例如,您每天可使用 AWS Data Pipeline 将 Web 服务器的日志存档到 Amazon Simple Storage Service (Amazon S3),然后每周对这些日志运行 Amazon EMR (Amazon EMR) 集群以生成流量报告。AWS Data Pipeline 计划每日任务来复制数据,并计划每周任务来启动 Amazon EMR 集群。AWS Data Pipeline 还确保 Amazon EMR 在等待最后一天的数据上传到 Amazon S3 后,再开始其分析,即使存在不可预知的日志上传延迟。

    
            AWS Data Pipeline 功能概述
                                                                                                         
  • 相关阅读:
    NIO(二)
    前端面试题整理及答案
    win10休眠后屏幕唤不醒
    Python 将多个列表相同索引的元素进行拼接并输出
    Airtest 常用方法
    windows 各种巨强工具包
    mysql 主从数据同步配置
    windows 10 21H1 顶部任务栏点击音量或其他图标不出弹框
    html5 tts(文字朗读)
    为 map 中不存在的 key 提供缺省值
  • 原文地址:https://www.cnblogs.com/cloudrivers/p/11331470.html
Copyright © 2011-2022 走看看