zoukankan html css js c++ java

impala presto SparkSql性能测试对比

目标是为测试impala presto SparkSql谁的性能更佳，以下结果底层查询的都是普通textfile snappy压缩后数据，规模为15台机器，若以orcfile、parquet速度能快数倍

impala与presto性能相当，SparkSql逊色不少。

目前看presto相比impala

1、与hive实时共享元数据，impala需要用另外定时任务广播元数据，新生成的数据，用impala不能立即查询。

2、没有出现操作大数据集有时挂掉的情况

3、presto与hive都由fackbook开源，兼容性应该会更好点

测试过程比较简单，分为四个场景sql查询：

查询id	查询语句	数据量(压缩前)
query1	select sum(pv) from d_op_behavior_host_text_snappy	35G
query2	select siteid,sum(pv) as pv1 from d_op_behavior_host_text_snappy where pv>0 group by siteid order by pv1 desc limit 11;	35G
query3	select count(*) from dwd.d_ad_3rd_party_fancy_all_data where thisdate='2015-11-10' and hour='17';	200G
query4	select count(*) from dwd.d_ad_impression where thisdate>='2015-09-01' and thisdate<='2015-10-31'

测试结果对比如下：

查看全文

相关阅读:
C#--事件驱动在上位机中的应用【一】（搭建仿真PLC环境）
C#--事件驱动在上位机中的应用【三】（自定义控件）
C#--事件驱动在上位机中的应用【二】（自定义控件）
C#--属性--propfull和prop使用场所
 C#--通过Modbus TCP与西门子1200PLC通讯
 C#--简单调用WebService
C#-- 简单新建WebService服务
 C#--发布WebService和部署IIS到本地服务器
 P1909 买铅笔
 P1089 津津的储蓄计划