zoukankan      html  css  js  c++  java
  • hadoop2.0之Impala初体验二

    转自:http://labs.chinamobile.com/mblog/52251_204176

    但是也要注意哦,这个数据比起MPP数据库来说还是差,差得比Hive和Impala比较还要远,那是因为多表关联最考数据本地性(Locality)了,而MPP擅长这点(虽然这次测试中行列混合的两个查询分布键都不一样,而列数据库的SQL2分布键不一样,但仍然效果明显)。所以如果Impala不改变存储结构的话,还是很难和MPP比较性能。但是要注意哦,这是8个节点,如果100个节点以上,特别是有故障发生的情况下,Impala的灵活性和健壮性就可能好多了。

    接下来看看嵌套查询的时候Impala优化得如何,反正Hive在这个方面就很差哦。

    测试场景

    sql1执行耗时

    HIVE+HDFS(gzip格式源数据)

     45m50s

    HIVE+HDFS(未压缩源数据)

     2h32m39s

    IMPALA+HDFS第一遍(未压缩源数据)

     25m29s

    IMPALA+HDFS第二遍(未压缩源数据)

     25m14s

    某行列混合数据库

    1m20s

    某纯列式数据库

    11s

    这个测试结果就有点吐血了,MPP数据库在很短的时间就完成了。Impala的时间相对较长,Hive就更别提了。我感觉这两个都没有成功将嵌套查询中的SQL替换成关联操作来处理吧。但是即使如此,Impala也比Hive好。

    最后看看多任务并发吧。Hive是放弃这个测试了,要让100到1000个MR任务运行在8个节点上?还是算了把,不能对硬件太狠了。这个只有Impala和MPP数据库比较了。

    测试场景

    100个日期大查询

    100万号码小查询

    IMPALA+HDFS

    29h12m3s

    内存限制,执行不成功

    某行列混合数据库

    18m43s

    未执行

    某纯列式数据库

    1h3m58s

    46m27s

    可以看到,在并发方面Impala表现不是太好。另外在大量小查询方面,由于内存超过而无法验证。当然MPP的并发也不是太好,其实。为了继续验证对于小查询的并发,还做了补充的测试:

     

    并发量1/任务量1000

    并发量10/任务量1000

    并发量100/任务量1000

    并发量20/任务量200

    并发量50/任务量200

     

    总时间:9h28m19s

    单次任务平均时间:34s

    总时间:3h41m7s

    单次任务平均时间:13.3s

    执行失败,内存超出限制和连接限制

    总时间:1h31m10s

    单次任务平均时间:27.4s

    执行失败,内存超出限制和连接限制错误

    可以看到,由于没有索引,Impala对于小查询仍旧按照表扫描的方式来,好慢啊!并发量有一个最优的值,比如上述的10,太大或太小都不好,但这个对于数据和语句而言各有差异。

    总结:

    1、Impala的性能的确比Hive好,而且都是用同样的HDFS上的文件,所以如果内存足够,用Impala引擎来做肯定好,但是没有宣传得那么好!所以以后我们在Hadoop上的查询,可能是双引擎啦。小的让Imapla搞定,大的就让Hive启动MapReduce。类似现在有的数据库有SQL和MR两个执行引擎。应当注意Hive更加灵活,对UDF支持很好,非结构化数据也可以Parser。

    2、Impala由于未涉及底层存储引擎的修改,所以与MPP数据库在小规模集群下结构化数据查询中仍然有差距。相比Pivotal的HAWG似乎修改了存储引擎,理论上应该先进一点(但是测试上并没有表现出来)。进一步的优化肯定要修改HDFS的底层细节,比如增强数据本地性(Locality)采用Colocation的方案等等。另外也许增加了面向成本的优化对哪些坏的SQL,比如嵌套等,会优化得更好一些吧。

  • 相关阅读:
    Python零基础入门的基础案例
    今天不抠图,Python实现一键换底片!想换什么换什么(附源码)
    python基础:如何使用 pip 安装第三方库
    Python教程:matplotlib 绘制双Y轴曲线图
    福利来啦,送给大家一个小游戏的源码,不要错过哟
    招聘信息太多,哪家职位才是适合你的?Python采集招聘信息
    我的python菜鸟之路1
    我的SAS菜鸟之路3
    我的SAS菜鸟之路2
    猪鹿蝶1
  • 原文地址:https://www.cnblogs.com/sambazhu/p/3508896.html
Copyright © 2011-2022 走看看