zoukankan      html  css  js  c++  java
  • 数位dp总结 之 从入门到模板

    原文

    一、基础篇

    数位\(dp\)是一种计数用的\(dp\),一般就是要统计一个区间\([le,ri]\)内满足一些条件数的个数。所谓数位\(dp\),字面意思就是在数位上进行\(dp\)。数位还算是比较好听的名字,数位的含义:一个数有个位、十位、百位、千位......数的每一位就是数位啦!

    之所以要引入数位的概念完全就是为了\(dp\)。数位\(dp\)的实质:就是换一种暴力枚举的方式,使得新的枚举方式满足\(dp\)的性质,然后记忆化就可以了

    两种不同的枚举:对于一个求区间\([le,ri]\)满足条件数的个数,最简单的暴力如下:

    for(int i=le;i<=ri;i++)
        if(right(i)) ans++;
    

    然而这样枚举不方便记忆化,或者说根本无状态可言。

    新的枚举:控制上界枚举,从最高位开始往下枚举,例如:\(ri=213\),那么我们从百位开始枚举:百位可能的情况有\(0,1,2\)(觉得这里枚举\(0\)有问题的继续看)

    然后每一位枚举都不能让枚举的这个数超过上界\(213\)下界就是\(0\)或者\(1\),这个次要),当百位枚举了\(1\),那么十位枚举就是从\(0\)\(9\),因为百位\(1\)已经比上界\(2\)小了,后面数位枚举什么都不可能超过上界。所以问题就在于:当高位(前面所有位,不是指前一位)枚举刚好达到上界时,那么紧接着的一位枚举就有上界限制了

    具体的这里如果百位枚举了\(2\),那么十位的枚举情况就是\(0\)\(1\),如果前两位枚举了\(21\),最后一位之是\(0\)\(3\)(这一点正好对于代码模板里的一个变量\(limit\) 专门用来判断枚举范围)。

    最后一个问题:最高位枚举\(0\):百位枚举\(0\),相当于此时我枚举的这个数最多是两位数,如果十位继续枚举\(0\),那么我枚举的就是一位数,因为我们要枚举的是小于等于\(ri\)的所有数,当然不能少了位数比\(ri\)小的!这样枚举是为了无遗漏的枚举,不过可能会带来一个问题,就是前导零的问题,模板里用\(lead\)变量表示,不过这个不是每个题目都是会有影响的,可能前导零不会影响我们计数,具体要看题目。

    由于这种新的枚举只控制了上界所以我们的main函数总是这样:

    int main()
    {
        long long le,ri;
        while(~scanf("%lld%lld",&le,&ri))
            printf("%lld\n",dp(ri)-dp(le-1));
    }
    

    统计\([1,ri]\)数量和\([1,le-1]\),然后相减就是区间\([le,ri]\)的数量了,这里我写的下界是\(1\),其实\(0\)也行,反正相减后就没了,注意题目中\(le\)的范围都是大于等于\(1\)的(不然\(le=0\),再减一就gg狗头了)。

    在讲例题之前先讲个基本的动态模板(先看后面的例题也行):\(dp\)思想,枚举到当前位置\(pos\),状态为\(state\)(这个就是根据题目来的,可能很多,毕竟\(dp\)千变万化)的数量(既然是计数,\(dp\)值显然是保存满足条件数的个数)

    typedef long long ll;
    int a[20];
    ll dp[20][state];//不同题目状态不同
    ll dfs(int pos,/*state变量*/,bool lead/*前导零*/,bool limit/*数位上界变量*/)//不是每个题都要判断前导零
    {
        //递归边界,既然是按位枚举,最低位是0,那么pos==-1说明这个数我枚举完了
        if(pos==-1) return 1;/*这里一般返回1,表示你枚举的这个数是合法的,
          那么这里就需要你在枚举时必须每一位都要满足题目条件,也就是说当前枚举到pos位,一定要保证前面已经枚举的数位是合法的。
          不过具体题目不同或者写法不同的话不一定要返回1 */
    
        //第二个就是记忆化(在此前可能不同题目还能有一些剪枝)
        if(!limit && !lead && dp[pos][state]!=-1) return dp[pos][state];
        /*常规写法都是在没有限制的条件记忆化,这里与下面记录状态是对应,具体为什么是有条件的记忆化后面会讲*/
        int up=limit?a[pos]:9;//根据limit判断枚举的上界up;这个的例子前面用213讲过了
        ll ans=0;
        //开始计数
        for(int i=0;i<=up;i++)//枚举,然后把不同情况的个数加到ans就可以了
        {
            if() ...
            else if()...
            ans+=dfs(pos-1,/*状态转移*/,lead && i==0,limit && i==a[pos]) //最后两个变量传参都是这样写的
            /*这里还算比较灵活,不过做几个题就觉得这里也是套路了
            大概就是说,我当前数位枚举的数是i,然后根据题目的约束条件分类讨论
            去计算不同情况下的个数,还有要根据state变量来保证i的合法性,比如题目
            要求数位上不能有62连续出现,那么就是state就是要保存前一位pre,然后分类,
            前一位如果是6那么这意味就不能是2,这里一定要保存枚举的这个数是合法*/
        }
        //计算完,记录状态
        if(!limit && !lead) dp[pos][state]=ans;
        /*这里对应上面的记忆化,在一定条件下时记录,保证一致性,当然如果约束条件不需要考虑lead,这里就是lead就完全不用考虑了*/
        return ans;
    }
    ll solve(ll x){
        int pos=0;
        while(x){//把数位都分解出来
            a[pos++]=x%10;//个人老是喜欢编号为[0,pos),看不惯的就按自己习惯来,反正注意数位边界就行
            x/=10;
        }
        return dfs(pos-1/*从最高位开始枚举*/,/*一系列状态 */,true,true);
        //刚开始最高位都是有限制并且有前导零的,显然比最高位还要高的一位视为0嘛
    }
    int main(){
        ll le,ri;
        while(~scanf("%lld%lld",&le,&ri)){
            //初始化dp数组为-1,这里还有更加优美的优化,后面讲
            printf("%lld\n",solve(ri)-solve(le-1));
        }
    }
    

    为什么只记录不受限制的数字数量,都记录下来不是更好吗?

    相信读者还对这个有不少疑问,笔者认为有必要讲一下记忆化为什么是if(!limit)才行,大致就是说没有limit限制会出现状态冲突,举例:
    约束:数位上不能出现连续的两个\(1\)(\(11\)\(112\)\(211\)都是不合法的)

    假设就是\([1,210]\)这个区间的个数

    状态:\(dp[pos][pre]\):当前枚举到\(pos\)位,前面一位枚举的是\(pre\)(更加前面的位已经合法了)的个数(我的\(pos\)\(0\)开始)

    先看错误的方法计数,就是不判断limit就是直接记忆化,看看会怎么样:

    假设我们第一次枚举了百位是\(0\),显然后面的枚举limit=false,也就是十位上\(0\)\(9\)的枚举(不需要受限制),然后假设十位枚举了\(1\),现在枚举到个位,此时考虑\(dp[0][1]\),前一位是\(1\)的个数,显然\(dp[0][1]=9\)(个位只有是\(1\)的时候是不满足的,因为存在连续的两个\(1\)了嘛~),这个状态记录下来。

    继续\(dfs\),一直到百位枚举了\(2\),十位枚举了\(1\),显然此时递归到了pos=0,pre=1的层,而\(dp[0][1]\)的状态已经有了即\(dp[pos][pre]!=-1\);此时程序直接return dp[0][1]了,然而显然是错的,因为此时是有limit的个位只能枚举\(0\),根本没有\(9\)个数,这就是状态冲突了。说白了,就是:\(N\)位不贴上界,无限制,可以跑满所有可能,记录的所有可能性数字用的上;\(N\)位贴着上界,有限制,当前位置不能跑满,记录的所有可能性数字用不上

    \(lead\)的时候可能出现冲突,这只是两个最基本的,不同的题目可能还要加限制,反正宗旨都是让\(dp\)状态唯一。

    对于这个错误说两点:

    第一,是\(limit\)\(true\)的数并不多,一个个枚举不会很浪费时间,所以我们记录下!limit的状态解决了不少子问题重叠

    第二,有人可能想到把\(dp\)状态改一下dp[pos][state][limit]就是分别记录不同limit下的个数,这种方法一般是对的,关于这个具体会讲,下面有题#bzoj3209#会用到这个。

    二、实战篇

    例一:AcWing 1085. 不要62

    入门题
    就是数位上不能有\(4\)也不能有连续的\(62\),没有\(4\)的话在枚举的时候判断一下,不枚举\(4\)就可以保证状态合法了,所以这个约束没有记忆化的必要,而对于\(62\)的话,涉及到两位,当前一位是\(6\)或者不是\(6\)这两种不同情况我计数是不相同的,所以要用状态来记录不同的方案数。
    \(dp[pos][st]\)表示当前第\(pos\)位,前一位是否是\(6\)的状态,这里\(state\)只需要去\(0\)\(1\)两种状态就可以了,不是\(6\)的情况可视为同种,不会影响计数。

    题解

    入门就不多讲了,开始讲常用优化吧!

    第一:memset(f,-1,sizeof f);放在多组数据外面。

    这一点是一个数位特点,使用的条件是:约束条件是每个数自身的属性,而与输入无关

    具体的:上一个区间不要\(62\)\(4\),这个约束对每一个数都是确定的,就是说任意一个数满不满足这个约束都是确定,比如\(444\)这个数,它不满足约束条件,不管你输入的区间是多少,你都无法改变这个数不满足约束这个事实,这就是数自身的属性(我们每组数据只是在区间计数而已,只能说你输入的区间不包含\(444\)的话,我们就不把它统计在内,而无法改变任何事实)。

    因此,我们保存的状态就可以一直用(注意还有要\(limit\),不同区间是会影响数位在有限制条件下的上限的,要配合使用噢,不能想着有了就直接用,要看一下能不能符合当前的限制)

    这点优化就不给具体题目了,这个还有进一步的扩展。不过说几个我遇到的简单的约束:

    • 求数位和是\(10\)的倍数的个数,这里简化为数位\(sum%10\)这个状态,即\(dp[pos][sum]\)这里\(10\)与多组无关的,所以可以memset优化,不过注意如果题目的模是输入的话那就不能这样了。那样的话,大侠就只能重新来过啦~

    • 求二进制\(1\)的数量与\(0\)的数量相等的个数,这个也是数自身的属性。

    还是做题积累吧。搞懂思想!

    下面介绍的方法就是要行memset优化,把不满足前提的通过修改,然后优化。

    介绍之前,先说一种较为笨拙的修改,那就是增加状态,前面讲\(limit\)的地方说增加一维\(dp[pos][state][limit]\),能把不同情况下状态分别记录(不过这个不能memset放外面)。

    基于这个思想,我们考虑:约束为数位是\(p\)的倍数的个数,其中\(p\)数输入的,这和上面\(sum%10\)类似,但是\(dp[pos][sum]\)显然已经不行了,每次\(p\)可能都不一样,为了强行把\(memset\)提到外面加状态\(dp[pos][sum][p]\),对于每个不同\(p\)分别保存对应的状态。这里前提就比较简单了,你\(dp\)数组必须合法,\(p\)太大就\(G_G\)了。所以对于与输入有关的约束都可以强行增加状态(这并不代表能\(ac\),如果题目数据少的话就随便你乱搞了)

    第二:相减

    例题:HDU 4734

    题解

  • 相关阅读:
    多路复用与设置阻塞、非阻塞模式
    ['\xef\xbb\xbf这个什么含义? PY技术开发交流区 乐讯手机高手
    fcntl使用 and_tt 博客园
    Linux 设备驱动 Edition 3Linux设备驱动第三版(中文版)
    CRT source Google 搜索
    BOM–字节序标记 永不放弃的地盘 博客频道 CSDN.NET
    在C语言中,unsigned char是什么类型?_百度知道
    The JR Concurrent Programming Language
    C语言:为什么用fprintf(stderr,"Error");比printf("Error");更好?
    bash
  • 原文地址:https://www.cnblogs.com/littlehb/p/15796143.html
Copyright © 2011-2022 走看看