RMQ(Range Minimum/Maximum Query)问题是指:对于长度为n的数列A,回答若干询问RMQ(A,i,j),返回数列A中下标i,j里的最小/大值,即RMQ问题是指求区间最值的问题。
时间复杂度:O(N)~ O(logN)
主要思想:分治/倍增/动态规划
主要算法:
1.朴素(暴力搜索)//略过不表
2.线段树
3.ST(Sparse-Table)算法(动态规划)
线段树:线段树能在对数时间logN在数组区间上进行更新与查询。而未优化的空间复杂度为2N,因此有时需要离散化让空间压缩。
线段树是一种二叉搜索树,与区间树相似,将一个区间划分为一些单元区间,每个单元区间对应线段树中的一个叶节点。对于线段树中的每一个非叶子节点[i,j],定义如下:
第一个节点维护区间[i,j]的信息
if i<j,那么左孩子维护区间[i,(i+j)/2]的信息,右孩子维护区间[(i+j)/2+1,j]的信息。
线段树至少支持下列操作:
insert(t,x):将包含区间int的元素x插入到树t中;
delete(t,x):从线段树t中删除元素x;
search(t,i):返回一个指向树t中元素x的指针。
区间在[1,5]内的线段树
基本结构:
线段树是建立在线段的基础上,每个结点都代表了一条线段[a , b]。长度为1的线段称为元线段。非元线段都有两个子结点,左结点代表的线段为[a , (a + b ) / 2],右结点代表的线段为[( a + b ) / 2 , b]。
右图就是一棵长度范围为[1 , 5]的线段树。
长度范围为[1 , L] 的一棵线段树的深度为log ( L - 1 ) + 1。这个显然,而且存储一棵线段树的空间复杂度为O(L)。
线段树支持最基本的操作为插入和删除一条线段。下面以插入为例,详细叙述,删除类似。
将一条线段[a , b] 插入到代表线段[l , r]的结点p中,如果p不是元线段,那么令mid=(l+r)/2。如果b<mid,那么将线段[a , b] 也插入到p的左儿子结点中,如果a>mid,那么将线段[a , b] 也插入到p的右儿子结点中。
插入(删除)操作的时间复杂度为O (Log N)。
实际应用:
上面的都是些基本的线段树结构,但只有这些并不能做什么,就好比一个程序有输入没输出,根本没有任何用处。
最简单的应用就是记录线段有否被覆盖,并随时查询当前被覆盖线段的总长度。那么此时可以在结点结构中加入一个变量int count;代表当前结点代表的子树中被覆盖的线段长度和。这样就要在插入(删除)当中维护这个count值,于是当前的覆盖总值就是根节点的count值了。
另外也可以将count换成bool cover;支持查找一个结点或线段是否被覆盖。[1]
实际上,通过在结点上记录不同的数据,线段树还可以完成很多不同的任务。例如,如果每次插入操作是在一条线段上每个位置均加k,而查询操作是计算一条线段上的总和,那么在结点上需要记录的值为sum。
这里会遇到一个问题:为了使所有sum值都保持正确,每一次插入操作可能要更新O(N)个sum值,从而使时间复杂度退化为O(N)。
解决方案是Lazy思想:对整个结点进行的操作,先在结点上做标记,而并非真正执行,直到根据查询操作的需要分成两部分。
根据Lazy思想,我们可以在不代表原线段的结点上增加一个值toadd,即为对这个结点,留待以后执行的插入操作k值的总和。对整个结点插入时,只更新sum和toadd值而不向下进行,这样时间复杂度可证明为O(logN)。
对一个toadd值不为0的结点整个进行查询时,直接返回存储在其中的sum值;而若对其一部分进行查询,则要更新其左右子结点的sum值,然后把toadd值传递下去,再对这个查询本身,左右子结点分别递归下去。时间复杂度也是O(logN)。
ST算法:
关于ST算法,实际上它本身并不难,它的思想是动态规划。主要用来求RMQ问题,时间复杂度为O(NlgN+M)
关于RMQ问题描述:
输入N个数和M次询问,每次询问一个区间[L,R],求第L个数到R个数之间的最大值,或者是求最小值。
它的原理阐述如下:
对于一个数组A[0...N-1],我们用f[i][j]表示A[i]到A[i+2^j-1],这个范围内的最大值。
由于此区间的元素个数很明显为2^j个,所以我们又可以从中间平分为两部分,这样每部分又有2^(j-1)个元素,这样我们就知道区间[i,i+2^j-1]可以分为[i,i+2^(j-1)-1]和[i+2^(j-1),i+2^j-1]两部分,我们只需要求出后面两个区间最大值的较大值,就可以知道前面区间的最大值了。
所以到了这里,很明显可以写出状态转移方程:
f[i][j]=max(f[i][j-1],f[i+2^(j-1)][j-1])
当然很明显知道初始化f[i][0]=A[i]
当然上面i,j的范围是多少呢?
现在我们来分析一下:我们已经说了如果用上述原理一个区间的元素是2^j个,而可以知道2^j<=N的,所以这样就得到j<=log(N)/log(2); 当然j还大于等于1
对于i,就直接有i+2^j-1<N就行了。
到了这里,我们就可以把f[i][j]求出来了。
接下来就是query()了。
这个怎么办呢,其实很容易,我们先求出满足条件2^x=R-L+1的最大x
这样我们我们就可以把区间[L,R]求最值问题转化为了求区间[L,L+2^x-1]和区间[R-2^x+1,R]最大值的较大值了,为什么可以这样做,因为这两个区间中间有重叠。
但是这两个区间的并一定等于区间[L,R],所以到了这里ST算法的原理基本常阐述完毕了。
剩下的就是代码实现了。
#include <stdio.h> #include <math.h> #define N 1005 int m,n; int a[N]; int f[N][N]; int max(int a,int b) { return a>b? a:b; } void ST() { int i,j; for(i=0;i<n;i++) f[i][0]=a[i]; for(j=1;j<=(int)((log((double)n)/log(2.0)));j++) { for(i=0;i+(1<<j)-1<n;i++) f[i][j]=max(f[i][j-1],f[i+(1<<(j-1))][j-1]); } } int query(int L,int R) { int x=(int)(log((double)(R-L+1))/log(2.0)); return max(f[L][x],f[R-(1<<x)+1][x]); } int main() { int i,L,R; while(~scanf("%d%d",&n,&m)) { for(i=0;i<n;i++) scanf("%d",&a[i]); ST(); while(m--) { scanf("%d%d",&L,&R); printf("%d ",query(L-1,R-1)); } } return 0; }