随机动态规划：理论及应用（2）

博士，CPA，喜爱汉服，瑜伽和钢琴

本节的任务是为随机函数方程分析（Stochastic Functional Equation Analysis）做准备，需要测度论和泛函分析的基础。

动态规划的现代理论是研究如下形式的随机函数方程

$V(x,z)=sup_{yinGamma (x,z)}[F(x,y,z)+eta int_{Z}^{}V(y,z^{'})Q(z,dz^{'})]$

我们从原始的Bellman方程开始来介绍这个函数方程是怎么来的，以及函数方程中符号的意义究竟是什么。

考虑对于随机最优控制问题：

$max E_{0}sum_{t=0}^{infty}{eta^{t}}r(x_{t},u_{t})$

$s.t.x_{t+1}=g(x_{t},u_{t},varepsilon_{t})$

其中 $varepsilon_{t}$ 是独立同分布随机序列。这样的话，状态转移方程（一个随机差分方程）实质上定义了一个马尔可夫过程（Markov Process）。

在经济学范畴下的动态规划研究中，我们经常将当期的状态变量和随机扰动 $（x_{t},z_{t})$ 记为 $(x,z)$ ，将下期值 $(x_{t+1},z_{t+1})$ 记为 $（x',z')$ 。

记 $V$ 为值函数(Value function)，则相应的贝尔曼方程（Bellman Equation）为：

$V(x)=max left{ r(x,u)+eta E_{t} left[ V(x^{'}) ight] ight}$

$s.t.x^{'}=g(x,u,varepsilon)$

当然也可以写成：

$V(x)=max left{ r(x,u)+eta int_{}^{} Vleft[ g(x,u,varepsilon) ight] dF(varepsilon) ight}$

其中的积分一般应理解为Lebesgue积分。

以上是我们已经熟知的结论。外生的随机冲击可能取离散值集合或者是一个实数区间，或者两者的混合。由于测度论的工具，我们可以用统一的形式处理：

$V(x,z)=sup_{yinGamma (x,z)}[F(x,y,z)+eta int_{Z}^{}V(y,z^{'}) lambda(dz')]$

$x$ 是状态变量的当期值， $z$ 是外生随机冲击的当期值， $y$ 为控制变量的当期值，并且出于使用本维尼斯特-沙因克曼公式(Benvensite-Scheinkman's formula）的方便性[1]，我们总是选择状态变量的下期值作为 $y$ 。 $Gamma(x,z)$ 给出了 $y$ 的可行域，这个可行域是在动态变化着的，因此实际上 $Gamma(x,z)$ 是参数 $(x,z)$ 的集值映射：给定 $(x,z)$ ， $Gamma(x,z)$ 给出了控制变量的可行域（一个集合）。 $lambda$ 为概率测度。

但这个函数方程依然有缺陷，这是因为式中 $lambda(dz')$ 意味着每次随机冲击都取自同一分布。在更广泛的情形下，我们如果允许当期随机冲击会影响下期的概率分布，我们将 $lambda(dz')$ 改写为 $Q(z,dz')$ 。这个记法意味着下期概率测度 $Q(dz')$ 受到到当期值 $z$ 的影响。

最终，随机动态规划的Bellman方程的一般化形式为如下的随机函数方程：

$V(x,z)=sup_{yinGamma (x,z)}[F(x,y,z)+eta int_{Z}^{}V(y,z^{'})Q(z,dz^{'})]$

$Gamma(x,z)$ 为连续的、紧的集值映射。对于一个优化问题，紧性的必要性不言自明，而连续的集值映射意味着可行域随着参数的变化而连续地变化，不会突然“膨胀”或者“坍缩”，技术上称连续的集值映射为同时满足上半连续性、下半连续性的集值映射。

状态转移函数 $Q:Z imes Omega ightarrow[0,1]$ 满足：对于每个 $zin Z$ ， $Q(z,cdot)$ 都是 $Z$ 生成的 $sigma$ 域 $Omega$ 上的一个概率测度，在最简单的情形——马尔科夫链的情形下， $Q$ 其实就是转移概率矩阵；对于每个 $Ain Omega$ ， $Q(cdot ,A)$ 都是可测函数。关于状态转移函数的抽象推广的讨论参见随机核的相关研究。这样，我们就可以在测度论的框架下，将各类马尔可夫过程（连续时间/离散时间；连续状态空间/离散状态空间）统一地处理。

可以考虑状态转移函数的迭代，定义 $n$ 步转移为：

$Q^{1}(z,A)=Q(z,A)$

$Q^{n+1}(z,A)=int_{}^{}Q^{n}(z',A)Q(z,dz')$

有了状态转移函数，就可以定义马尔可夫算子。设 $f$ 为可测函数，定义 $(Tf)(z)=int_{}^{}f(z')Q(z,dz')$

$(Tf)(z)$ 可以理解为当期状态为 $z$ 时 $f$ 的下一期数学期望。

对于 $Omega$ 上任意概率测度 $lambda$ ，定义 $(T^{*}lambda)(A)=int_{}^{}Q(z,A)lambda(dz)$

思考一下 $(T^{*}lambda)(A)$ 的意义是什么？如果当期状态是按照概率测度 $lambda$ 取的，则 $(T^{*}lambda)(A)$ 为下期状态落于集合 $A$ 的概率。

理解清楚 $(Tf)(z)$ 和 $(T^{*}lambda)(A)$ 的意义非常重要！

熟悉泛函分析的读者很快会联想到，这样的记法往往暗示着 $T^{*}$ 为 $T$ 的伴随算子。事实上确实如此。我们稍后讨论。

对于状态转移函数 $Q$ ，若其对应的马尔可夫算子 $T$ 将 $Z$ 上的有界连续函数空间映射到自身，则称 $Q$ 具有费勒性质，即 $T:C(Z) ightarrow C(Z)$ 。

【定理】： $T$ 将非负可测实值函数空间映射到它自身，即 $T:M^{+}(Z,Omega) ightarrow M^{+}(Z,Omega)$

证明如下：

记集合 $A$ 的示性函数为 $chi_{A}$ ，则 $（Tchi_{A})(Z)=int_{Z}^{}chi_{A}(z')Q(z,dz')=int_{A}^{}Q(z,dz')=Q(z,A)$

因此 $Tchi_{A}$ 为一个可测函数。

接下来考虑非负简单函数 $phiin M^{+}(Z,Omega)$ ， $(Tphi)(z)=int_{}^{}phi(z')Q(z,dz')=int_{}^{}sum_{i=1}^{n}{a_{i} chi_{Ai}}(z')Q(z,dz')=sum_{i=1}^{n}{}a_{i}(Tchi_{Ai})(z)$ 。

由于每个 $Tchi_{Ai}$ 可测，因此 $Tphi$ 可测。

最后令 $fin M^{+}(Z,Omega)$ ，空间内存在递增简单函数列逐点收敛于 $f$ ，故 $(Tf)(z)=int_{}^{}f(z')Q(z,dz')=limint_{}^{} phi_{n}(z')Q(z,dz')=lim(T phi_{n})(z)$

其中运用了测度论的单调收敛定理。因此 $Tf$ 可测。

#证毕#

推论： $T$ 将有界可测函数空间映射到自身，即 $T:B(Z,Omega) ightarrow B(Z,Omega)$ 。从而我们可以说：任何转移函数都定义了一个马尔可夫过程 $T:B(Z,Omega) ightarrow B(Z,Omega)$ 。

对所有 $fin B(Z,Omega)$ ，有 $T^{(n+m)}f=(T^{n})(T^{m}f)$

对所有 $lambdain Lambda(Z,Omega)$ ，有 $T^{*(n+m)} lambda=(T^{*n})(T^{*m} lambda)$ 。

也就是说，给定初始概率测度 $lambda_{0}$ ，则 $lambda_{n}=T^{*}(lambda_{n-1})=T^{*n}(lambda_{0})$ 是第 $n$ 期状态空间上的概率测度。

类似地，有：

【定理】 $T^{*}$ 将 $(Z,Omega)$ 上的概率测度空间映射到自身， $T^{*}：Lambda(Z,Omega) ightarrow Lambda(Z,Omega)$ 。

证明如下：

显然 $(T^{*}lambda)(oslash)=0,(T^{*}lambda)(Z)=1$ 因此关键是证明可数可加性。

设 $left{ Ai ight}_{i=1}^{i=infty}$ 为不相交集合序列， $A=igcup_{i=1}^{i=infty} left{ A_{i} ight}$ 则

$sum_{i=1}^{infty}{T^{*} lambda(A_{i})}=sum_{i=1}^{infty}{ int_{}^{}Q^{}(z,A_{i})lambda(dz)}=int_{}^{}Q^{}(z,A)lambda(dz)=(T^{*}lambda)(A)$

证明过程中我们又一次使用了单调收敛定理。

#证毕#

接下明确两个算子之间的关系：

设 $fin M^{+}(Z,Omega)$ ， $lambdainLambda(Z,Omega)$ 则 $int_{}^{}(Tf)(z)lambda(dz)=int_{}^{}f(z')(T^{*}lambda)(dz')$

使用泛函分析的记法， $<Tf,lambda>=<f,T^{*} lambda>$ 。因此 $<Tf,lambda>$ 和 $<f,T^{*} lambda>$ 都是 $f$ 的下期期望值表达式。

随后我们将会利用以上结果分析函数方程 $V(x,z)=sup_{yinGamma (x,z)}[F(x,y,z)+eta int_{Z}^{}V(y,z^{'})Q(z,dz^{'})]$ ，并利用压缩映射原理给出解的存在性，最后探讨值函数的可微性以结束随机动态规划的讨论。

To Be Continued

[1].参见《随机动态规划：理论及应用（1）》

编辑于 2020-01-24

文章被以下专栏收录

关注领域：基础数学（拓扑、测度论、泛函分析）、数理经济学、金融数学、精算数学、运筹学与控制论

MP48：线性算子(1)：有界算子、算子的谱、自伴算子的谱定理

jRONI发表于数学物理连...

【泛函基础 3.4】Hilbert 空间上有界线性泛函的表示

在张楚珩：【泛函基础 2.5】有界线性泛函及其表示中讲到，对于赋范空间 X，任意泛函可以通过 Hamel 基表示出来 f(x) = sum_i lambda_i f(x_i) ；对于 Hilbert 空间（完备内积空间），任…

张楚珩发表于机器学习中...

泛函分析笔记（19）对偶空间与伴随算子

本次专题我们来研究特殊的算子空间： mathcal{B}(E,K) （K为实数域或复数域） 1、对偶空间我们先给这节研究对象取个名字：定义1：我们将 E 上所有有界线性泛函构成的赋范线性空间称为 E …

得劲儿发表于泛函分析笔...

Baire纲定理，一致有界定理

Baire纲定理是实变函数与泛函分析的重要内容，基于Baire纲定理，可以推出线性算子的一致有界定理，开映像与逆算子定理，和闭算子与闭图像定理。Baire纲定理:设 (X,d) 是距离空间， Esubset…

抹茶拿铁

写下你的评论...

Chirpman2 个月前

想问一下大佬， ‘由于测度论的工具，我们可以用统一的形式处理：’ 下面的公式中，为什么积分变量可以写成lambda(dz)，如果表示成dlambda (z)可以吗？
Victory.Kong (作者) 回复Chirpman2 个月前

lambda(dz)表示一个“微元”的测度，其实就是概率密度，也可以写作dlambda
Chirpman回复Victory.Kong (作者)2 个月前

谢谢啦

litteral18 天前

请问一下，概率测度lambda(dz)中的dz应该如何理解？

《随机动态规划：理论及应用（2）》