Spark SQL概念学习系列之性能调优 - 走看看

zoukankan html css js c++ java

Spark SQL概念学习系列之性能调优

　　不多说，直接上干货！

性能调优

　　Caching Data In Memory

　　Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache()，将表用一种柱状格式（ an inmemory columnar format）缓存至内存中。然后Spark SQL在执行查询任务时，只需扫描必需的列，从而以减少扫描数据量、提高性能。

　　通过缓存数据，Spark SQL还可以自动调节压缩，从而达到最小化内存使用率和降低GC压力的目的。调用sqlContext.uncacheTable("tableName")可将缓存的数据移出内存。

　　可通过两种配置方式开启缓存数据功能：

　　　　使用SQLContext的setConf方法

　　　　执行SQL命令 SET key=value

　　其他调优参数

　　可以通过配置下表中的参数调节Spark SQL的性能。在后续的Spark版本中将逐渐增强自动调优功能，下表中的参数在后续的版本中或许将不再需要配置。

查看全文

相关阅读:
js--事件
 js之table操作
 2019年目标
 history.back返回后输入框值丢失问题
 C++ 工程师养成每日一题4.5 （迭代器遍历）
C++ 工程师养成每日一题fourth （reverse的使用）
C++ 工程师养成每日一题third （子数列排序）
C++工程师养成每日一题（string使用）
C++工程师养成每日一题（vector使用）
运算符优先级

原文地址：https://www.cnblogs.com/zlslch/p/6944918.html

Copyright © 2011-2022 走看看