zoukankan      html  css  js  c++  java
  • impala presto SparkSql性能测试对比

     

    目标是为测试impala presto SparkSql谁的性能更佳,以下结果底层查询的都是普通textfile snappy压缩后数据,规模为15台机器,若以orcfile、parquet速度能快数倍

    impala与presto性能相当,SparkSql逊色不少。
    目前看presto相比impala
    1、与hive实时共享元数据,impala需要用另外定时任务广播元数据,新生成的数据,用impala不能立即查询。
    2、没有出现操作大数据集有时挂掉的情况
    3、presto与hive都由fackbook开源,兼容性应该会更好点
    测试过程比较简单,分为四个场景sql查询:
     
    查询id 查询语句 数据量(压缩前)
    query1 select sum(pv) from d_op_behavior_host_text_snappy 35G
    query2 select siteid,sum(pv) as pv1 from d_op_behavior_host_text_snappy 
    where pv>0  group by siteid order by pv1 desc limit 11;
    35G
    query3 select count(*) from dwd.d_ad_3rd_party_fancy_all_data where 
    thisdate='2015-11-10' and hour='17';
    200G
    query4 select count(*) from dwd.d_ad_impression where thisdate>='2015-09-01' and thisdate<='2015-10-31'

     测试结果对比如下:

    查询 工具 第一次执行时间 第二次执行时间
    query1 impala 4.82s 5.56s
    presto 6s 5s
    sparkSql 13s 9s
    query2 impala 12.79s 12s
    presto 15s 13s
    sparkSql 20s 23s
    query3 impala 挂掉 挂掉
    presto 63s 58s
    sparkSql 88s 77s
    query4 impala 131s 148s
    presto 136s 128s
    sparkSql 187s 188s

  • 相关阅读:
    ADC推荐:测量Flash的视频消费行为 (转载)
    9.7Go之函数之递归函数
    9.8线性表之单链表
    9.7线性表之顺序表
    9.7顺序表之增、删、改、查
    9.8Go之函数之计算执行时间
    9.8Go之函数之宕机(panic)
    9.9Go语言内存缓存
    9.7Go之函数之处理RuntimeError
    9.7Go之函数之defer(延迟执行语句)
  • 原文地址:https://www.cnblogs.com/hd-zg/p/6904932.html
Copyright © 2011-2022 走看看