zoukankan      html  css  js  c++  java
  • airflow HiveOperator实例

    此实例的测试环境是airflow部署在服务器而不是部署在容器

    hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,
    并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任
    务进行运行。在 airflow 中调用 hive 任务,首先需要安装依赖
     
    pip install apache-airflow[hive]
     

    编写dag文件
    from airflow import DAG
    from airflow.operators import HiveOperator
    from datetime import datetime, timedelta
    from airflow.models import Variable
    from airflow.operators import ExternalTaskSensor
    from airflow.operators import EmailOperator
    
    default_args = {
        'owner': 'airflow',
        'depends_on_past': False,
        'start_date': datetime(2019, 6, 1),
        'email': ['810905729@qq.com'],
        'email_on_failure': False,
        'email_on_retry': False,
        'retries': 1,
        'retry_delay': timedelta(minutes=1),
        'end_date': datetime(9999, 1, 1),
    }
    
    dag = DAG('dw_ly', default_args=default_args, schedule_interval='30 10 * * *',  catchup=False)
    
    t1 = HiveOperator(
        task_id='dw_ly',
        hql='select * from test1.employee ',
        dag=dag)
    t1
     
     
  • 相关阅读:
    数据库是什么以及用来干嘛
    10.3
    10.2
    12.7
    12.5
    12.4
    12.3
    12.2
    12.1JOptionPane
    11.30eclipse常用快捷键
  • 原文地址:https://www.cnblogs.com/braveym/p/13031217.html
Copyright © 2011-2022 走看看