随机动态规划:理论及应用(2)
本节的任务是为随机函数方程分析(Stochastic Functional Equation Analysis)做准备,需要测度论和泛函分析的基础。
动态规划的现代理论是研究如下形式的随机函数方程
我们从原始的Bellman方程开始来介绍这个函数方程是怎么来的,以及函数方程中符号的意义究竟是什么。
考虑对于随机最优控制问题:
其中 是独立同分布随机序列。这样的话,状态转移方程(一个随机差分方程)实质上定义了一个马尔可夫过程(Markov Process)。
在经济学范畴下的动态规划研究中,我们经常将当期的状态变量和随机扰动 记为 ,将下期值 记为 。
记 为值函数(Value function),则相应的贝尔曼方程(Bellman Equation)为:
当然也可以写成:
其中的积分一般应理解为Lebesgue积分。
以上是我们已经熟知的结论。外生的随机冲击可能取离散值集合或者是一个实数区间,或者两者的混合。由于测度论的工具,我们可以用统一的形式处理:
是状态变量的当期值, 是外生随机冲击的当期值, 为控制变量的当期值,并且出于使用本维尼斯特-沙因克曼公式(Benvensite-Scheinkman's formula)的方便性[1],我们总是选择状态变量的下期值作为 。 给出了 的可行域,这个可行域是在动态变化着的,因此实际上 是参数 的集值映射:给定 ,给出了控制变量的可行域(一个集合)。 为概率测度。
但这个函数方程依然有缺陷,这是因为式中 意味着每次随机冲击都取自同一分布。在更广泛的情形下,我们如果允许当期随机冲击会影响下期的概率分布,我们将 改写为 。这个记法意味着下期概率测度 受到到当期值 的影响。
最终,随机动态规划的Bellman方程的一般化形式为如下的随机函数方程:
为连续的、紧的集值映射。对于一个优化问题,紧性的必要性不言自明,而连续的集值映射意味着可行域随着参数的变化而连续地变化,不会突然“膨胀”或者“坍缩”,技术上称连续的集值映射为同时满足上半连续性、下半连续性的集值映射。
状态转移函数 满足:对于每个 , 都是 生成的 域 上的一个概率测度,在最简单的情形——马尔科夫链的情形下, 其实就是转移概率矩阵;对于每个 , 都是可测函数。关于状态转移函数的抽象推广的讨论参见随机核的相关研究。这样,我们就可以在测度论的框架下,将各类马尔可夫过程(连续时间/离散时间;连续状态空间/离散状态空间)统一地处理。
可以考虑状态转移函数的迭代,定义 步转移为:
有了状态转移函数,就可以定义马尔可夫算子。设 为可测函数,定义
可以理解为当期状态为 时 的下一期数学期望。
对于 上任意概率测度 ,定义
思考一下 的意义是什么?如果当期状态是按照概率测度 取的,则 为下期状态落于集合 的概率。
理解清楚 和 的意义非常重要!
熟悉泛函分析的读者很快会联想到,这样的记法往往暗示着 为 的伴随算子。事实上确实如此。我们稍后讨论。
对于状态转移函数 ,若其对应的马尔可夫算子 将 上的有界连续函数空间映射到自身,则称 具有费勒性质,即 。
【定理】: 将非负可测实值函数空间映射到它自身,即
证明如下:
记集合 的示性函数为 ,则
因此 为一个可测函数。
接下来考虑非负简单函数 , 。
由于每个 可测,因此 可测。
最后令 ,空间内存在递增简单函数列逐点收敛于 ,故
其中运用了测度论的单调收敛定理。 因此 可测。
#证毕#
推论: 将有界可测函数空间映射到自身,即 。从而我们可以说:任何转移函数都定义了一个马尔可夫过程 。
对所有 ,有
对所有 ,有 。
也就是说,给定初始概率测度 ,则 是第 期状态空间上的概率测度。
类似地,有:
【定理】 将 上的概率测度空间映射到自身, 。
证明如下:
显然 因此关键是证明可数可加性。
设 为不相交集合序列, 则
证明过程中我们又一次使用了单调收敛定理。
#证毕#
接下明确两个算子之间的关系:
设 , 则
使用泛函分析的记法, 。因此 和 都是 的下期期望值表达式。
随后我们将会利用以上结果分析函数方程 ,并利用压缩映射原理给出解的存在性,最后探讨值函数的可微性以结束随机动态规划的讨论。
To Be Continued
[1].参见《随机动态规划:理论及应用(1)》
文章被以下专栏收录
推荐阅读
MP48:线性算子(1):有界算子、算子的谱、自伴算子的谱定理
【泛函基础 3.4】Hilbert 空间上有界线性泛函的表示
在 张楚珩:【泛函基础 2.5】有界线性泛函及其表示 中讲到,对于赋范空间 X,任意泛函可以通过 Hamel 基表示出来 f(x) = sum_i lambda_i f(x_i) ;对于 Hilbert 空间(完备内积空间),任…
泛函分析笔记(19)对偶空间与伴随算子
本次专题我们来研究特殊的算子空间: mathcal{B}(E,K) (K为实数域或复数域) 1、对偶空间 我们先给这节研究对象取个名字:定义1:我们将 E 上所有有界线性泛函构成的赋范线性空间称为 E …
Baire纲定理,一致有界定理
Baire纲定理是实变函数与泛函分析的重要内容,基于Baire纲定理,可以推出线性算子的一致有界定理,开映像与逆算子定理,和闭算子与闭图像定理。Baire纲定理:设 (X,d) 是距离空间, Esubset…
4 条评论
想问一下大佬, ‘由于测度论的工具,我们可以用统一的形式处理:’ 下面的公式中,为什么积分变量可以写成lambda(dz), 如果表示成dlambda (z)可以吗?
lambda(dz)表示一个“微元”的测度,其实就是概率密度,也可以写作dlambda
谢谢啦
请问一下,概率测度lambda(dz)中的dz应该如何理解?