随机动态规划:理论及应用(2)
本节的任务是为随机函数方程分析(Stochastic Functional Equation Analysis)做准备,需要测度论和泛函分析的基础。
动态规划的现代理论是研究如下形式的随机函数方程
我们从原始的Bellman方程开始来介绍这个函数方程是怎么来的,以及函数方程中符号的意义究竟是什么。
考虑对于随机最优控制问题:
其中 是独立同分布随机序列。这样的话,状态转移方程(一个随机差分方程)实质上定义了一个马尔可夫过程(Markov Process)。
在经济学范畴下的动态规划研究中,我们经常将当期的状态变量和随机扰动 记为
,将下期值
记为
。
记 为值函数(Value function),则相应的贝尔曼方程(Bellman Equation)为:
当然也可以写成:
其中的积分一般应理解为Lebesgue积分。
以上是我们已经熟知的结论。外生的随机冲击可能取离散值集合或者是一个实数区间,或者两者的混合。由于测度论的工具,我们可以用统一的形式处理:
是状态变量的当期值,
是外生随机冲击的当期值,
为控制变量的当期值,并且出于使用本维尼斯特-沙因克曼公式(Benvensite-Scheinkman's formula)的方便性[1],我们总是选择状态变量的下期值作为
。
给出了
的可行域,这个可行域是在动态变化着的,因此实际上
是参数
的集值映射:给定
,
给出了控制变量的可行域(一个集合)。
为概率测度。
但这个函数方程依然有缺陷,这是因为式中 意味着每次随机冲击都取自同一分布。在更广泛的情形下,我们如果允许当期随机冲击会影响下期的概率分布,我们将
改写为
。这个记法意味着下期概率测度
受到到当期值
的影响。
最终,随机动态规划的Bellman方程的一般化形式为如下的随机函数方程:
为连续的、紧的集值映射。对于一个优化问题,紧性的必要性不言自明,而连续的集值映射意味着可行域随着参数的变化而连续地变化,不会突然“膨胀”或者“坍缩”,技术上称连续的集值映射为同时满足上半连续性、下半连续性的集值映射。
状态转移函数 满足:对于每个
,
都是
生成的
域
上的一个概率测度,在最简单的情形——马尔科夫链的情形下,
其实就是转移概率矩阵;对于每个
,
都是可测函数。关于状态转移函数的抽象推广的讨论参见随机核的相关研究。这样,我们就可以在测度论的框架下,将各类马尔可夫过程(连续时间/离散时间;连续状态空间/离散状态空间)统一地处理。
可以考虑状态转移函数的迭代,定义 步转移为:
有了状态转移函数,就可以定义马尔可夫算子。设 为可测函数,定义
可以理解为当期状态为
时
的下一期数学期望。
对于 上任意概率测度
,定义
思考一下 的意义是什么?如果当期状态是按照概率测度
取的,则
为下期状态落于集合
的概率。
理解清楚 和
的意义非常重要!
熟悉泛函分析的读者很快会联想到,这样的记法往往暗示着 为
的伴随算子。事实上确实如此。我们稍后讨论。
对于状态转移函数 ,若其对应的马尔可夫算子
将
上的有界连续函数空间映射到自身,则称
具有费勒性质,即
。
【定理】: 将非负可测实值函数空间映射到它自身,即
证明如下:
记集合 的示性函数为
,则
因此 为一个可测函数。
接下来考虑非负简单函数 ,
。
由于每个 可测,因此
可测。
最后令 ,空间内存在递增简单函数列逐点收敛于
,故
其中运用了测度论的单调收敛定理。 因此 可测。
#证毕#
推论: 将有界可测函数空间映射到自身,即
。从而我们可以说:任何转移函数都定义了一个马尔可夫过程
。
对所有 ,有
对所有 ,有
。
也就是说,给定初始概率测度 ,则
是第
期状态空间上的概率测度。
类似地,有:
【定理】 将
上的概率测度空间映射到自身,
。
证明如下:
显然 因此关键是证明可数可加性。
设 为不相交集合序列,
则
证明过程中我们又一次使用了单调收敛定理。
#证毕#
接下明确两个算子之间的关系:
设 ,
则
使用泛函分析的记法, 。因此
和
都是
的下期期望值表达式。
随后我们将会利用以上结果分析函数方程 ,并利用压缩映射原理给出解的存在性,最后探讨值函数的可微性以结束随机动态规划的讨论。
To Be Continued
[1].参见《随机动态规划:理论及应用(1)》
文章被以下专栏收录

推荐阅读

MP48:线性算子(1):有界算子、算子的谱、自伴算子的谱定理
【泛函基础 3.4】Hilbert 空间上有界线性泛函的表示
在 张楚珩:【泛函基础 2.5】有界线性泛函及其表示 中讲到,对于赋范空间 X,任意泛函可以通过 Hamel 基表示出来 f(x) = sum_i lambda_i f(x_i) ;对于 Hilbert 空间(完备内积空间),任…
泛函分析笔记(19)对偶空间与伴随算子
本次专题我们来研究特殊的算子空间: mathcal{B}(E,K) (K为实数域或复数域) 1、对偶空间 我们先给这节研究对象取个名字:定义1:我们将 E 上所有有界线性泛函构成的赋范线性空间称为 E …
Baire纲定理,一致有界定理
Baire纲定理是实变函数与泛函分析的重要内容,基于Baire纲定理,可以推出线性算子的一致有界定理,开映像与逆算子定理,和闭算子与闭图像定理。Baire纲定理:设 (X,d) 是距离空间, Esubset…
4 条评论
想问一下大佬, ‘由于测度论的工具,我们可以用统一的形式处理:’ 下面的公式中,为什么积分变量可以写成lambda(dz), 如果表示成dlambda (z)可以吗?
lambda(dz)表示一个“微元”的测度,其实就是概率密度,也可以写作dlambda
谢谢啦
请问一下,概率测度lambda(dz)中的dz应该如何理解?