Greenplum实战之查询优化

zoukankan html css js c++ java

Greenplum实战之查询优化
本文主要分为三部分：
1. GP优化需要准备的一些关于优化之外的知识，包括清空缓存、性能监控、执行计划分析。
2. 具体优化措施，从以下四个方面考虑：
- 表、字段
- sql
- GP配置、服务器配置
- 硬件及节点资源
1. GP的性能极限分析
1. 前置知识

1.1 GP清除缓存

数据库一般都有缓存，所以我们为了测试查询性能，需要将缓存清除。

停止数据库并不能清空缓存,因为缓存是由操作系统创建的,一般只有重启操作系统可以完全清空.
参考思路如下：
```
#!/usr/bin/sudo bash

gpstop -r

sync      //清空高速缓存前尝试将数据刷新至磁盘

//释放linux内存
echo 1 > /proc/sys/vm/drop_caches
echo 2 > /proc/sys/vm/drop_caches
echo 3 > /proc/sys/vm/drop_caches

gpstart
```
1.2 性能监控Performance Monitor

新一代Greenplum监控管理平台Pivotal Greenplum Command Center (GPCC)。

实际使用过程中发现对于6-8秒的查询（单表亿级数据），GPCC反应比较慢，CPU、IO等信息为0，目前拟采用其他工具，实时监控CPU、内存、IO、网络等信息。

1.3 执行计划分析
- EXPLAIN会为查询显示其查询计划和估算的代价，但是不执行该查询。
- EXPLAIN ANALYZE除了显示查询的查询计划之外，还会执行该查询。EXPLAIN ANALYZE会丢掉任何来自SELECT语句的输出，但是该语句中的其他操作会被执行（例如INSERT、UPDATE或者DELETE）。
https://www.cnblogs.com/arthurqin/p/6243277.html

slice、motion

GPDB 有一个特有的算子：移动（ motion ）。移动操作涉及到查询处理期间在 Segment 之间移动数据。motion 分为广播（ broadcast ）、重分布（ redistribute motion ）、Gather motion。正是 motion 算子将查询计划分割为一个个 slice ，上一层 slice 对应的进程会读取下一层各个 slice 进程广播或重分布的数据，然后进行计算。

每一个广播或重分布或gather会产生一个slice。每一个切片在每个数据节点会对应发起一个进程来处理该slice负责的数据。SQL中要控制切片的数量，如果太多，应适当将sql拆分，避免由于进程太多，给数据库、机器带来太多的负担，也容易导致sql失效。

Gather motion的作用就在于将每个节点上面的中间结果集中到主节点上面。

优化

总的思路
- 表、字段
- sql
- GP配置、OS配置
- 硬件及节点资源
1、表字段设计
- PostgreSQL 用CPU "硬解码" 提升1倍数值运算能力助力金融大数据量计算
如上面例子所示，优化某些字段的设计，以提高性能

2、表存储方式

Heap 或 Append-Only存储：GP默认使用堆表。堆表最好用在小表，如：维表(初始化后经常更新)。Append-Only表不能update和delete。一般用来做批量数据导入。不建议单行插入。

多列查询请求
- 行存储 => 在select或where子句中，查询所有列或大部分列
- 列存储 => 在where或having子句中，查询单列的值汇总或单行过滤
```
若数据需要频繁地更新或者插入，则使用行存储。
若需要同时访问一个表的很多字段，则使用行存储。
对于通用或者混合型业务，建议使用行存储。
若查询访问的字段数目较少，或者仅在少量字段上进行聚合操作，则使用列存储。
若仅常常修改表的某一字段而不修改其他字段，则使用列存储。
```
3、压缩
```
对于大AO表和分区表使用压缩，以提高系统I/O。
在字段级别配置压缩。
考虑压缩比和压缩性能之间的平衡。
```
压缩的性能取决于硬件、查询调优设置、其它因素。
- QuickLZ - 低压缩率、低cpu消耗、压缩数据块
- zlib - 高压缩率、低速
4、列存储
列存里面可以启动压缩。

只适合append-only表。

5、索引
高基数的列（唯一值多）
```
一般来说，在Greenplum数据库中索引不是必需的。
对于高基数的列存储表，如果需要遍历且查询选择性较高，则创建单列索引。
频繁更新的列不要建立索引。
在加载大量数据之前删除索引，加载结束后再重新创建索引。
优先使用 B 树索引。
不要为需要频繁更新的字段创建位图索引。
不要为唯一性字段、基数非常高或者非常低的字段创建位图索引。
不要为事务性负载创建位图索引。
一般来说不要索引分区表。如果需要建立索引，则选择与分区键不同的字段。
```
可优化部分小结果集查询。

6、分布键
7、分组扩展
Greenplum数据库的GROUP BY扩展可以执行某些常用的计算，且比应用程序或者存储过程效率高。
```
GROUP BY ROLLUP(col1, col2, col3)
    GROUP BY CUBE(col1, col2, col3)
    GROUP BY GROUPING SETS((col1, col2), (col1, col3))
```
8、分区

黄金法则

目前Greenplum支持LIST和RANGE两种分区类型。

分区的目的是尽可能的缩小QUERY需要扫描的数据量，因此必须和查询条件相关联。
```
只为大表设置分区，不要为小表设置分区。
仅在根据查询条件可以实现分区裁剪时使用分区表。
建议优先使用范围 (Range) 分区，否则使用列表 (List) 分区。
根据查询特点合理设置分区。
不要使用相同的字段既做分区键又做分布键。
不要使用默认分区。
避免使用多级分区；尽量少地创建分区，每个分区的数据会多些。
通过查询计划的 EXPLAIN 结果来确保对分区表执行的查询是选择性扫描（分区裁剪）。
对于列存储的表，不要创建过多的分区，否则会造成物理文件过多：
    Physical files = Segments * Columns * Partitions。
```
9、根据监控定位资源占用较多的情况：
- CPU
- 内存
- IO
- 网络
笔者目前耗费资源比较多的是内存，主要需要优化内存、增加内存。

10、数据库配置优化
- Greenplum企业应用实战第8章
- 《Greenplum 数据库最佳实践》第二章
- https://blog.csdn.net/u012948976/article/details/52695372
- 查询缓存
- 线程数量与内存
- gp_statement_mem ：单个查询可以使用的内存总量。如果它太大，则并发数越小。所以要有所折衷。
- http://blog.51cto.com/michaelkang/2170608
11、硬件选型
- Greenplum企业应用实战第8章
- gp性能管理
硬件考虑因素：
- （1）Segment服务器具有相同的硬件配置；推荐：双核，32GB Mem，高速磁盘阵列，4个以上千兆网口。
- （2）Master服务器具有较高的cpu和内存资源；
- （3）基准性能：3.2GB/s（综合的系统磁盘读写速度）
12、估值计算
估值计算是统计学的常用手段。因为数据量庞大，求精确数值需要耗费巨大的资源，而统计分析并不要求完全精确的数据，因此估值计算是一种折中的方法，广泛应用于统计分析场景。

秒级任意维度分析1TB级大表 - 通过采样估值满足高效TOP N等统计分析需求

13、服务器参数调整
- 共享内存
- 网络
- 系统对用户的限制，比如打开文件句柄的数量。
GP的性能极限分析

MPP架构

Greenplum实现了基于数据库的分布式数据存储和并行计算

MPP架构的极限思考？

根据木桶原理以及这篇文章（https://clickhouse.yandex/benchmark.html#["100000000",["Greenplum"],["0","1","2"]]）的测试结果，segment节点的PG实例的处理速度决定。如果OLAP的处理速度在3秒内，可以计算单segment在3秒以内能处理多少速度，然后再做横向扩展。

参考文献
查看全文

相关阅读:
PHP---无限极分类数组处理
 PHPExcel数据导入（含图片）
PHP数组与xml互相转换
 微信APP支付【签名失败】
winform窗体关闭方案
 ss的优先级和权重
 Anaconda 与 conda 区别
 c#FileStream文件读写
 C# DataTable 某一列取算
 关于解决DevExpress用DevExpress patch工具破解后经常弹出试用框的问题

原文地址：https://www.cnblogs.com/small-k/p/9794079.html

Greenplum实战之查询优化

1. 前置知识

1.1 GP清除缓存

1.2 性能监控Performance Monitor

1.3 执行计划分析

slice、motion

优化

GP的性能极限分析

MPP架构

MPP架构的极限思考？

参考文献