随机动态规划:理论及应用(2)

本节的任务是为随机函数方程分析(Stochastic Functional Equation Analysis)做准备,需要测度论和泛函分析的基础。

动态规划的现代理论是研究如下形式的随机函数方程

[公式]

我们从原始的Bellman方程开始来介绍这个函数方程是怎么来的,以及函数方程中符号的意义究竟是什么。

考虑对于随机最优控制问题:

[公式]

[公式]

其中 [公式] 是独立同分布随机序列。这样的话,状态转移方程(一个随机差分方程)实质上定义了一个马尔可夫过程(Markov Process)。

在经济学范畴下的动态规划研究中,我们经常将当期的状态变量和随机扰动 [公式] 记为 [公式] ,将下期值 [公式] 记为 [公式] 。

记 [公式] 为值函数(Value function),则相应的贝尔曼方程(Bellman Equation)为:

[公式]

[公式]

当然也可以写成:

[公式]

其中的积分一般应理解为Lebesgue积分。

以上是我们已经熟知的结论。外生的随机冲击可能取离散值集合或者是一个实数区间,或者两者的混合。由于测度论的工具,我们可以用统一的形式处理:

[公式]

[公式] 是状态变量的当期值, [公式] 是外生随机冲击的当期值, [公式] 为控制变量的当期值,并且出于使用本维尼斯特-沙因克曼公式(Benvensite-Scheinkman's formula)的方便性[1],我们总是选择状态变量的下期值作为 [公式] 。 [公式] 给出了 [公式] 的可行域,这个可行域是在动态变化着的,因此实际上 [公式] 是参数 [公式] 的集值映射:给定 [公式] ,[公式]给出了控制变量的可行域(一个集合)。 [公式] 为概率测度。

但这个函数方程依然有缺陷,这是因为式中 [公式] 意味着每次随机冲击都取自同一分布。在更广泛的情形下,我们如果允许当期随机冲击会影响下期的概率分布,我们将 [公式] 改写为 [公式] 。这个记法意味着下期概率测度 [公式] 受到到当期值 [公式] 的影响。

最终,随机动态规划的Bellman方程的一般化形式为如下的随机函数方程:

[公式]

[公式] 为连续的、紧的集值映射。对于一个优化问题,紧性的必要性不言自明,而连续的集值映射意味着可行域随着参数的变化而连续地变化,不会突然“膨胀”或者“坍缩”,技术上称连续的集值映射为同时满足上半连续性、下半连续性的集值映射。

状态转移函数 [公式] 满足:对于每个 [公式] , [公式] 都是 [公式] 生成的 [公式] 域 [公式] 上的一个概率测度,在最简单的情形——马尔科夫链的情形下, [公式] 其实就是转移概率矩阵;对于每个 [公式] , [公式] 都是可测函数。关于状态转移函数的抽象推广的讨论参见随机核的相关研究。这样,我们就可以在测度论的框架下,将各类马尔可夫过程(连续时间/离散时间;连续状态空间/离散状态空间)统一地处理。

可以考虑状态转移函数的迭代,定义 [公式] 步转移为:

[公式]

[公式]

有了状态转移函数,就可以定义马尔可夫算子。设 [公式] 为可测函数,定义 [公式]

[公式] 可以理解为当期状态为 [公式] 时 [公式] 的下一期数学期望。

对于 [公式] 上任意概率测度 [公式] ,定义 [公式]

思考一下 [公式] 的意义是什么?如果当期状态是按照概率测度 [公式] 取的,则 [公式] 为下期状态落于集合 [公式] 的概率。

理解清楚 [公式] 和 [公式] 的意义非常重要!

熟悉泛函分析的读者很快会联想到,这样的记法往往暗示着 [公式] 为 [公式] 的伴随算子。事实上确实如此。我们稍后讨论。

对于状态转移函数 [公式] ,若其对应的马尔可夫算子 [公式] 将 [公式] 上的有界连续函数空间映射到自身,则称 [公式] 具有费勒性质,即 [公式] 。

【定理】: [公式] 将非负可测实值函数空间映射到它自身,即 [公式]

证明如下:

记集合 [公式] 的示性函数为 [公式] ,则 [公式]

因此 [公式] 为一个可测函数。

接下来考虑非负简单函数 [公式] , [公式] 。

由于每个 [公式] 可测,因此 [公式] 可测。

最后令 [公式] ,空间内存在递增简单函数列逐点收敛于 [公式] ,故 [公式]

其中运用了测度论的单调收敛定理。 因此 [公式] 可测。

#证毕#

推论: [公式] 将有界可测函数空间映射到自身,即 [公式] 。从而我们可以说:任何转移函数都定义了一个马尔可夫过程 [公式] 。

对所有 [公式] ,有 [公式]

对所有 [公式] ,有 [公式] 。

也就是说,给定初始概率测度 [公式] ,则 [公式] 是第 [公式] 期状态空间上的概率测度。

类似地,有:

【定理】 [公式] 将 [公式] 上的概率测度空间映射到自身, [公式] 。

证明如下:

显然 [公式] 因此关键是证明可数可加性。

设 [公式] 为不相交集合序列, [公式] 则

[公式]

证明过程中我们又一次使用了单调收敛定理。

#证毕#

接下明确两个算子之间的关系:

设 [公式] , [公式] 则 [公式]

使用泛函分析的记法, [公式] 。因此 [公式] 和 [公式] 都是 [公式] 的下期期望值表达式。

随后我们将会利用以上结果分析函数方程 [公式] ,并利用压缩映射原理给出解的存在性,最后探讨值函数的可微性以结束随机动态规划的讨论。

To Be Continued

[1].参见《随机动态规划:理论及应用(1)》

编辑于 2020-01-24
数学
泛函分析
实变函数
 

文章被以下专栏收录

现代数学方法
现代数学方法
关注领域:基础数学(拓扑、测度论、泛函分析)、数理经济学、金融数学、精算数学、运筹学与控制论

推荐阅读

MP48:线性算子(1):有界算子、算子的谱、自伴算子的谱定理

MP48:线性算子(1):有界算子、算子的谱、自伴算子的谱定理

【泛函基础 3.4】Hilbert 空间上有界线性泛函的表示

在 张楚珩:【泛函基础 2.5】有界线性泛函及其表示 中讲到,对于赋范空间 X,任意泛函可以通过 Hamel 基表示出来 f(x) = sum_i lambda_i f(x_i) ;对于 Hilbert 空间(完备内积空间),任…

泛函分析笔记(19)对偶空间与伴随算子

本次专题我们来研究特殊的算子空间: mathcal{B}(E,K) (K为实数域或复数域) 1、对偶空间 我们先给这节研究对象取个名字:定义1:我们将 E 上所有有界线性泛函构成的赋范线性空间称为 E …

Baire纲定理,一致有界定理

Baire纲定理是实变函数与泛函分析的重要内容,基于Baire纲定理,可以推出线性算子的一致有界定理,开映像与逆算子定理,和闭算子与闭图像定理。Baire纲定理:设 (X,d) 是距离空间, Esubset…

4 条评论

  • Chirpman
    Chirpman2 个月前

    想问一下大佬, ‘由于测度论的工具,我们可以用统一的形式处理:’ 下面的公式中,为什么积分变量可以写成lambda(dz), 如果表示成dlambda (z)可以吗?

  • Victory.Kong
    Victory.Kong (作者) 回复Chirpman2 个月前

    lambda(dz)表示一个“微元”的测度,其实就是概率密度,也可以写作dlambda

  • Chirpman
    Chirpman回复Victory.Kong (作者)2 个月前

    谢谢啦

  • litteral
    litteral18 天前

    请问一下,概率测度lambda(dz)中的dz应该如何理解?