强化学习和神经科学之间最显著的联系就是多巴胺,它是一种哺乳动物大脑中与奖励处理机制紧密相关的化学物质。多巴胺的作用就是将TD误差传达给进行学习和决策的大脑结构。这种相似的关系被表示为多巴胺神经元活动的奖励预测误差假说,这是由强化学习和神经科学实验结果引出的一个假设。
从脑功能的理论来看,强化学习的一些元素更容易理解。对于“资格迹”这一概念尤其如此,资格迹是强化学习的基本机制之一,起源于突触的一个猜想性质(突触是神经细胞与神经元之间相互沟通的结构)。
15.1 神经科学基础
神经元的背景活动指的是“背景”情况下的活动水平,通常是它的发放率。所谓“背景情况”是指神经元的活动不是由实验者指定的任务相关的突触输入所驱动的,例如,当神经元的活动与作为实验的一部分传递给被试者的刺激无关,我们就认为其活动是背景活动。背景活动可能由于输入来自于更广泛的网络而具有不规则性,或者由于神经或突触内的噪声而显得不规则。有时背景活动是神经元固有的动态过程的结果。与其背景活动相反,神经元的阶段性活动通常由突触输入引起的脉冲活动发放组成。对于那些变化缓慢、经常以分级的方式进行的活动,无论是否是背景活动,都被称为神经元的增补活动。
突触释放的神经递质对突触后神经元产生影响的强度或有效性就是突触的效能。一种利用经验改变神经系统的方式就是通过改变突触的效能来改变神经系统,这个“效能”是突触前和突触后神经元的活动的组合产生的结果,有时也来自于神经调节剂产生的结果。所谓神经调节剂,就是除了实现直接的快速兴奋或抑制之外,还会产生其他影响的神经递质。
大脑含有几个不同的神经调节系统,由具有广泛分叉的树状轴突神经元集群组成,每个系统使用不同的神经递质。这里重要的是,神经调节系统可以分配诸如强化信号之类的标量信号以改变突触的操作,这些突触往往广泛分布在不同地方但对神经元的学习具有关键作用。
突触效能变化的能力被称为突触可塑性。这是学习活动的主要机制之一。通过学习算法调整的参数或权重对应于突触效能。正如我们下面要详细描述的,通过神经调节剂多巴胺对突触可塑性进行调节是大脑实现学习算法的一种机制,就像本书所描述的那些算法一样。
15.2 奖励信号、强化信号、价值和预测误差
神经科学和计算型的强化学习之间的联系始于大脑信号和在强化学习理论与算法中起重要作用的信号之间的相似性。
奖励信号(以及智能体的环境)定义了强化学习智能体正试图解决的问题。就这一点而言,Rt就像动物大脑中的一个信号,定义奖励在大脑各个部位的初始分布。但是在动物的大脑中不可能存在像Rt这样的统一的奖励信号。我们最好把Rt看作一个概括了大脑中许多评估感知和状态奖惩性质的系统产生的大量神经信号整体效应的抽象。
强化学习中的强化信号与奖励信号不同。强化学习的作用是在一个智能体的策略、价值估计或环境模型中引导学习算法做出改变。对于时序差分方法,例如,t时刻的强化信号是TD误差。某些算法的强化信号可能仅仅是奖励信号,但是大多数是通过其他信号调整过的奖励信号,例如TD误差中的价值估计。
状态价值函数或动作价值函数的估计,即V或Q,指明了在长期内对智能体来说什么是好的,什么是坏的。它们是对智能体未来期望累积的总奖励的预测。智能体做出好的决策,就意味着选择合适的动作以到达具有最大估计状态价值的状态,或者直接选择具有最大估计动作价值的动作。
预测误差衡量期望和实际信号或感知之间的差异。奖励预测误差(reward prediction errors, RPE)衡量期望和实际收到的奖励信号之间的差异,当奖励信号大于期望时为正值,否则为负值。
15.3 奖励预测误差假说
多巴胺神经元活动的奖励预测误差假说认为,哺乳动物体内产生多巴胺的神经元的相位活动的功能之一,就是将未来的期望奖励的新旧估计值之间的误差传递到整个大脑的所有目标区域。Montague、Dayan和Sejnowski(1996)首次明确提出了这个假说(虽然没有用这些确切的词语),他们展示了强化学习中的TD误差概念是如何解释哺乳动物中多巴胺神经元相位活动各种特征的。引出这一假说的实验于20世纪80年代、90年代初在神经科学家沃尔夫拉姆·舒尔茨的实验室进行。
Montague等人(1996)比较了经典条件反射下时序差分模型产生的TD误差和经典条件反射环境下产生多巴胺的神经元的相位活动。Montague等人做了几个假设来进行对比。首先,由于TD误差可能是负值,但神经元不能有负的发放率,所以他们假设与多巴胺神经元活动相对应的量是δt-1+bt,其中bt是神经元的背景发放率。负的TD误差对应于多巴胺神经元低于其背景发放率的发放率降低量。
第二个假说是关于每次经典条件反射试验所访问到的状态以及它们作为学习算法的输入量的表示方式的。这种表示方式使得TD误差能够模仿这样一种现象:多巴胺神经元活动不仅能预测未来奖励,也对收到预测线索之后,奖励何时可以达成是敏感的。
有了这些有关背景发放率和输入表示的假说,在15.5节的模拟实验中,时序差分模型的TD误差与多巴胺神经元的相位活动就十分相似了。在15.5节中我们对这些相似性细节进行了描述,TD误差与多巴胺神经元的下列特征是相似的:1)多巴胺神经元的相位反应只发生在奖励事件不可预测时;2)在学习初期,在奖励之前的中性线索不会引起显著的相位多巴胺反应,但是随着持续的学习,这些线索获得了预测值并随即引起了相位多巴胺反应;3)如果存在比已经获得预测值的线索更早的可靠线索,则相位多巴胺反应将会转移到更早的线索,并停止寻找后面的线索;4)如果经过学习之后,预测的奖励事件被遗漏,则多巴胺神经元的反应在奖励事件的期望时间之后不久就会降低到其基准水平之下。
15.4 多巴胺
多巴胺是神经元产生的一种神经递质,其细胞质主要位于哺乳动物大脑的两个神经元群中:黑质致密部(SNpc)和腹侧被盖区(VTA)。多巴胺不是参与奖励处理的唯一神经调节剂,其在厌恶情况下的作用(惩罚)仍然存在争议。
一个早期的传统观点认为,多巴胺神经元会向涉及学习和动机的多个大脑区域广播奖励信号。
如果多巴胺神经元像强化信号δ那样广播强化信号,那么由于这是一个标量信号,即单个数字,所以SNpc和VTA中的所有多巴胺神经元会被预期以相同的方式激活,并以近似同步的方式发送相同的信号到所有轴突的目标位点。尽管人们普遍认为多巴胺神经元确实能够像这样一起行动,但最新证据指出,多巴胺神经元的不同亚群对输入的响应取决于它们向其发送信号的目标位点和结构,以及信号对目标位点结构的不同作用方式。
大多数多巴胺神经元的轴突与额叶皮层和基底神经节中的神经元发生突触接触,涉及自主运动、决策、学习和认知功能的大脑区域。由于大多数关于多巴胺强化学习的想法都集中在基底神经节,而多巴胺神经元的连接在那里特别密集,所以我们主要关注基底神经节。基底神经节是很多神经元组(又称“神经核”)的集合,位置在前脑的基底。基底节的主要输入结构称为纹状体。基本上所有的大脑皮层以及其他结构,都为纹状体提供输入。皮层神经元的活动传导关于感官输入、内部状态和运动活动的大量信息。皮层神经元的轴突在纹状体的主要输入/输出神经元的树突上产生突触接触,称为中棘神经元。纹状体的输出通过其他基底神经核和丘脑回到皮质的前部区域和运动区域,使得纹状体可能影响运动、抽象决策过程和奖励处理。纹状体的两个主要分叉对于强化学习来说十分重要:背侧纹状体,主要影响动作选择;和腹侧纹状体,在奖励处理的不同方面起关键作用,包括为各类知觉分配有效价值。
但有证据表明,神经科学家称之为皮质纹状体突触的从皮层到纹状体突触相关性的变化,取决于恰当时机的多巴胺信号。
15.5 奖励预测误差假说的实验支持
这是表示神经元只对食物,而非任务中的其他方面有反应的很好的证据。
这些观察结果表明,多巴胺神经元既不响应于运动的开始,也不响应于刺激的感觉特性,而是表示奖励的期望。
上述研究的观察结果使Schultz和他的小组得出结论:多巴胺神经元对不可预测的奖励,最早的奖励预测因子做出反应,如果没有发现奖励或者奖励的预测因子,那么多巴胺神经元活性会在期望时间内降低到基准之下。熟悉强化学习的研究人员很快就认识到,这些结果与时序差分算法中时序差分强化信号的表现非常相似。
15.6 TD误差/多巴胺对应
但是并非多巴胺神经元的相位活动的所有性质都能与δ的性质完美对应起来。最令人不安的一个差异是,当奖励比预期提前发生时会发生什么。我们观察到一个预期奖励的省略会在奖励预期的时间产生一个负的预测误差,这与多巴胺神经元降至基准以下相对应。如果奖励在预期之后到达,它就是非预期奖励并产生一个正的预测误差。这在TD误差和多巴胺神经元反应中同时发生。但是如果奖励提前于预期发生,则多巴胺神经元与TD误差的反应不同——至少在Montague et al.(1996)使用的CSC表示与我们的例子中不同。多巴胺神经元会对提前的奖励进行反应,反应与正的TD误差一致,因为奖励没有被预测会在那时发生。然后,在后面预期奖励出现却没有出现的时刻,TD误差将为负,但多巴胺神经元的反应却并没有像负的TD误差的那样降到基准以下(Hollerman和Schultz,1998)。在动物的大脑中发生了相比于简单的用CSC表示的TD学习更加复杂的事情。
一些TD误差与多巴胺神经元行为的不匹配可以通过选择对时序差分算法合适的参数并利用除CSC表示外的其他刺激表示来解决。Pan、Schmidt、Wickens和Hyland(2005)发现即时使用CSC表示,延迟的资格迹可以改进TD误差与多巴胺神经元活动的某些方面的匹配情况。一般来说,TD误差的许多行为细节取决于资格迹、折扣和刺激表示之间微妙的相互作用。这些发现在不否认多巴胺神经元的相位行为被TD误差信号很好地表征的核心结论下细化了奖励预测误差假说。
一个明显的发展方向是,与多巴胺系统的性质如此契合的强化学习算法和理论完全是从一个计算的视角开发的,没有考虑到任何多巴胺神经元的相关信息——注意,TD学习和它与最优化控制及动态规划的联系是在任何揭示类似TD的多巴胺神经元行为本质的实验进行前很多年提出的。这些意外的对应关系,尽管还并不完美,却也说明了TD误差和多巴胺的相似之处抓住了大脑奖励过程的某些关键环节。
15.7 神经“行动器-评判器”
“行动器-评判器”算法同时对策略和价值函数进行学习。行动器是算法中用户学习策略的组件,评判器是算法中用于学习对行动器的动作进行“评价”的组件,这个“评价”是基于行动器所遵循的策略来进行的,无论这个策略是什么。评判器采用TD算法来学习行动器当前策略的状态价值函数。价值函数允许评判器通过向行动器发送TD误差δ来评价一个行动器的动作。根据这个评价,行动器会持续更新其策略。
“行动器-评判器”算法有两个鲜明特征让我们认为大脑也许采用了类似的算法。第一个是,“行动器-评判器”算法的两个部分(行动器和评判器)代表了纹状体的两部分(背侧和腹侧区)。对于基于奖励的学习来说,这两部分都非常重要——也许分别起着行动器和评判器的作用。暗示大脑的实现是基于“行动器-评判器”算法的第二个特征是,TD误差有着同时作为行动器和评判器的强化信号的双重作用。这与神经回路的一些性质是吻合的:多巴胺神经元的轴突同时以纹状体背侧和腹侧区为目标;多巴胺对于调节两个结构的可塑性都非常重要;且像多巴胺一样的神经调节器如何作用在目标结构上取决于目标结构的特征而不仅取决于调节器的特征。
多巴胺信号不是像强化学习量Rt这样的主要奖励信号。事实上,这个假设暗示了人们并不一定能探测大脑并从任何单个神经元的活动中找出类似Rt的信号。奖励相关的信息是由许多相互联系的神经系统产生的,并根据不同的奖励采用不同的结构。多巴胺神经元从许多不同的大脑区域收集信息,所以对SNpc和VTA的输入应该被认为是从多个输入通道一起到达核中的神经元的奖励相关信息的向量。理论上的奖励标量信号值Rt应该与对多巴胺神经活动有关的所有奖励相关信息的贡献相联系。这是横跨不同大脑区域的许多神经元的综合活动模式的结果。
15.8 行动器与评判器学习规则
如果大脑真的实现了类似于“行动器-评判器”的算法,并且假设大量的多巴胺神经元广播一个共同的强化信号到背侧和腹侧纹状体的皮质突触处,那么这个强化信号对于这两种结构的突触的影响是不同的。行动器和评判器的学习规则使用的是同样的强化信号,即TD误差δ,但是这两个部分对学习的影响是不同的。TD误差(与资格迹结合)告诉行动者如何更新动作的概率以到达具有更高价值的状态。行动器的学习有些类似于采用效应定律的工具性条件反射,行动器的目标是使得δ尽可能为正。另一方面,TD误差(当与资格迹结合时)告诉评判器价值函数参数改变的方向与幅度以提高其预测准确性。评判器致力于减小δ的幅度,采用类似于经典条件反射中的TD模型的学习规则使幅度尽量接近于零。行动器和评判器学习规则之间的区别相对简单,但是这个区别对于“行动器-评判器”算法本质上如何起作用有着显著的影响。区别仅仅在于每种学习规则使用的资格迹的类型。
在每个从状态St到状态St+1的转移过程中,智能体选取动作At,并且得到奖励值Rt+1,算法会计算TD误差,然后更新资格迹向量()和评判器与行动器的参数(w和θ),更新方式如下:
从神经方面来说,这意味着每一个突触有着自己的资格迹,并且是向量的一个分量。一个突触的资格迹根据到达突触的活动水平,即突触前活动的水平,不断地累积,在这里由到达突触的特征向量x(St)的分量所表示。此外这个资格迹由分数λw所支配的速率向零衰减。当一个突触的资格迹非零时,称其为可修改的。突触的功效如何被修改取决于突触可修改时到达的强化信号。我们称这些评判器单元的突触的资格迹为非偶发资格迹,这里因为它们仅仅依赖于突触前活动并且不以任何方式影响突触后活动。
与评判器突触只累积突触前活动x(St)的非偶发资格迹不同,行动器单元的资格迹还取决于行动器单元本身的活动,我们称其为偶发资格迹。资格迹在每一个突触都会持续衰减,但是会根据突触前活动以及突触后神经元是否发放增加或减少。行动器单元资格迹的突触后偶发性是评判器与行动器学习规则唯一的区别。由于保持了在哪个状态采取了怎样的动作这样的信息,偶发资格迹允许产生的奖励(正δ)或者接受的惩罚(负δ)根据策略参数(对行动器单元突触的功效)进行分配,其依据是这些参数对之后的δ值的影响的贡献。偶发资格迹标记了这些突触应该如何修改才能更有效地导向正值的δ。
评判器与行动器的学习规则是如何改变皮质突触的功效的呢?两个学习规则都与唐纳德·赫布的经典推论相关,即当一个突触前信号参与了激活一个突触后神经元时,突触的功效应该增加(Hebb,1949)。评判器和行动器的学习规则与Hebbian的推论共同使用了这么一个观点,那就是突触的功效取决于几个因素的相互作用。在评判器学习规则中,这种相互作用是在强化信号δ与只依赖于突触前信号的资格迹之间的。神经科学家称其为双因素学习规则,这是因为相互作用在两个信号或量之间进行。另一方面,行动器学习规则是三因素学习规则,这是因为除了依赖于δ,其资格迹还同时依赖于突触前和突触后活动。然后,与Hebb的推论不同的是,不同因素的相对发生时间对突触功效的改变是至关重要的,资格迹的介入允许强化信号影响最近活跃的突触。
为了正确地分配强化信号,在资格迹中定义的突触前因子必须是同样定义在资格迹中的突触后因子的产生动因。
神经科学已经提示了这个过程是如何在大脑中起作用的。神经科学家发现了一种被称为脉冲时序依赖可塑性(STDP)的赫布式可塑性,这似乎有助于解释类行动器的突触可塑性在大脑中的存在。
STDP的发现引导神经科学家去研究一种可能的STDP的三因素形式,这里的神经调节输入必须遵循适当的突触前和突触后脉冲时间。这种形式的突触可塑性,被称为奖励调节STDP,其与行动器学习规则十分类似。越来越多的证据证明,基于奖励调节的STDP发生在背侧纹状体的中棘神经元的脊髓中,这表明行动器学习在“行动器-评判器”算法的假想神经实现中确实发生了。
我们这里讨论的使用效应定律学习规则的类神经行动器单元,在Barto et al.(1983)的“行动器-评判器”网络中以一种比较简单的形式出现。这个网络受到一种由生理学家A. H. Klopf(1972,1982)提出的“享乐主义神经元”假说的启发。注意,不是所有的Klopf的假说的细节都与我们已知的突触可塑性的知识一致,但是STDP的发现和越来越多基于奖励调节的STDP的证据说明Klopf的想法并不太离谱。
15.9 享乐主义神经元
在享乐主义神经元假说中,Klopf(1972,1982)猜测,每一个独立的神经元会寻求将作为奖励的突触输入与作为惩罚的突触输入之间的差异最大化,这种最大化是通过调整它们的突触功效来实现的,调整过程基于它们自己的动作电位所产生的奖励或惩罚的结果。换言之,如同可以训练动物来完成工具性条件反射任务一样,单个神经元用基于条件性反应的强化信号来训练。他的假说包括这样的思想:奖励或者惩罚通过相同的突触被输入到神经元,并且会激发或者抑制神经元的脉冲发放活动(如果Klopf知道我们今天对神经调节系统的了解,他可能会将强化学习分配给神经调节输入,但是他尝试避免任何中心化的训练信息来源)。过去的突触前与突触后活动的突触局部迹在Klopf的假说中,是决定突触是否具备资格可以对之后的奖励或者惩罚进行修改的关键。他猜测,这些迹是由每个突触局部的分子机制实现的,因而与突触前与突触后神经元的电生理活动是不同的。
15.10 集体强化学习
在多智能体强化学习(以及博弈论)中,所有的智能体会尝试最大化一个同时收到的公共奖励信号,这种问题一般被称为合作游戏或者团队问题。
15.11 大脑中的基于模型的算法
使用功能性神经影像对人类的研究以及对非人灵长类动物的研究结果都支持类似的观点:大脑的不同结构分别对应于习惯性和目标导向的行为模式。
其他的研究确定了目标导向的活动与大脑前额叶皮质有关,这是涉及包括规划与决策在内的执行功能的额叶皮质的最前部分。具体涉及的部分是眶额皮质(OFC),为前额叶皮质在眼睛上部的部分。
另一个涉及基于模型的行为的结构是海马体,它对记忆与空间导航非常重要。
一些发现直接揭示了海马体在规划过程中起到重要的作用,这里的“规划过程”就是指在进行决策时引入外部环境模型的过程。
15.12 成瘾
多巴胺活动的奖励预测误差假说及其与TD学习的联系是Redish(2004)提出的包括部分成瘾特征的模型的基础。基于对该模型的观察。可卡因和一些成瘾药物的使用会导致多巴胺的短暂增加。在模型中,这种多巴胺激增被认为是增加了TD误差,其中δ是不能被价值函数变化抵消的。
15.13 本章小结
参考文献和历史评注