Reward-based training of recurrent neural networks for cognitive and value-based tasks

zoukankan html css js c++ java

Reward-based training of recurrent neural networks for cognitive and value-based tasks

郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！

Abstract

　　训练后的神经网络模型展现了从行为动物记录的神经活动的特征，可以通过对网络活动和连通性的系统分析来洞悉认知功能的电路机制。然而，与通常通过监督学习来训练网络的分级误差信号相反，动物通过RL从对确定动作的奖励反馈中学习。当最优行为取决于动物内部对自信心或主观偏好的判断时，奖励最大化尤其重要。在这里，我们对循环神经网络实施基于奖励的训练，其中价值网络通过使用决策网络的活动来预测未来奖励来指导学习。我们表明，这样的模型从著名的实验范式捕获行为和电生理的发现。我们的工作为研究各种基于认知和基于价值的计算提供了一个统一的框架，并预测了对于学习（而不是执行）任务必不可少的价值表征角色。

Introduction

　　揭示复杂行为背后的神经机制的主要挑战是我们对大脑中相关电路的不完全访问。最近的工作表明，神经网络模型针对各种任务进行了优化，包括视觉对象识别(Cadieu et al., 2014; Yamins et al., 2014; Hong et al., 2016)，感知决策和工作记忆(Mante et al., 2013; Barak et al., 2013; Carnevale et al., 2015; Song et al., 2016; Miconi, 2016)，时序和序列生成(Laje and Buonomano, 2013; Rajan et al., 2015)和运动范围(Hennequin et al., 2014; Sussillo et al., 2015)可以重现行为动物许多皮质区域记录的神经活动的重要特征。因此，对此类电路的活动和连通性已广为人知的分析已重新成为理解神经计算的有前途的工具(Zipser and Andersen, 1988; Sussillo, 2014; Gao and Ganguli, 2015)。通过提供详细神经记录的任务来限制网络训练也可能提供对控制生物回路中学习的原理的见解(Sussillo et al., 2015; Song et al., 2016; Brea and Gerstner, 2016)。

　　这种方法在诸如认知决策和工作记忆之类的“认知型”行为上的先前应用都集中在从分级误差信号上进行监督学习。但是，动物会根据实验者根据确定的动作（例如通过RL）提供的奖励反馈来学习执行特定的任务(Sutton and Barto, 1998)。在监督学习中，网络将以连续的目标输出形式对每个试验给予正确的响应，而RL则向网络提供有关每个选定动作是“好”还是“坏”的评估反馈。反馈的形式允许行为正确性的分级概念，与监督学习中网络输出与目标输出之间的分级差异不同。为了使用网络生成有关神经机制的假设，这在最优行为取决于动物的内部状态或主观偏好的任务中尤其重要。在具有决策后下注的感知决策任务中，例如，在随机的一半试验中，动物可以选择确定的选择，从而产生较小（与正确的选择相比）但确定的回报(Kiani and Shadlen, 2009)。关于是否选择确定选择的最优决策不仅取决于任务条件，例如连贯移动的点的比例，还取决于动物在试验过程中对其决策的信心。在不为网络提供完整概率解决方案的情况下，做出这种判断的学习不能减少为再现预定目标输出。但是，可以通过选择能够带来最大总体回报的动作，以自然且符合伦理学的方式来学习它。通过训练，网络仅从奖励突发事件中学习，就可以根据其对内部答案的正确估计的内部估计来调整其输出。

　　同时，有监督的学习通常不适用于基于价值或经济的决策，其中“正确”的判断显然取决于与不同动作相关的奖励，即使对于相同的感官投入也是如此(Padoa-Schioppa and Assad, 2006)。尽管可以通过提供相关的奖励作为输入将这些任务转换为感知决策任务，但这并不能说明动物是如何学习基于价值的决策的，因为它将“外部”与“内部”学习的输入相结合。从根本上讲，奖励在所有类型的动物学习中都起着核心作用(Sugrue et al., 2005)。因此，将奖励明确地纳入网络训练是阐明学习的生物学基础的必要步骤，特别是奖励依赖性突触可塑性(Seung, 2003; Soltani et al., 2006; Izhikevich, 2007; Urbanczik and Senn, 2009; Frémaux et al., 2010; Soltani and Wang, 2010; Hoerzer et al., 2014; Brosch et al., 2015; Friedrich and Lengyel, 2016)以及不同大脑结构在学习中的作用(Frank and Claus, 2006)。

　　在这项工作中，我们基于循环策略梯度RL的进展，特别是REINFORCE算法的应用(Williams, 1992; Baird and Moore, 1999; Sutton et al., 2000; Baxter and Bartlett, 2001; Peters and Schaal, 2008)到RNN (Wierstra et al., 2009)，以展示基于奖励的RNN训练，用于系统神经科学中的几种著名实验范式。网络由“执行者-评论者”架构中的两个模块组成(Barto et al., 1983; Grondman et al., 2012)，其中决策网络使用环境提供的输入来选择使奖励最大化的动作，而价值网络使用决策网络的选定动作和活动来预测未来的奖励并指导学习。我们首先介绍训练有素的网络，这些网络先前已使用各种形式的监督学习进行过研究(Mante et al., 2013; Barak et al., 2013; Song et al., 2016)；它们的特点是“简单”的输入-输出映射，其中每个试验的正确响应仅取决于任务条件，包括感知决策，上下文相关的集成，多感官集成和参数化工作记忆任务。然后，我们显示出最优行为取决于动物对内在信心或主观偏好的内部判断的任务的结果，特别是具有决策后下注的感知决策任务(Kiani and Shadlen, 2009)和基于价值的经济选择任务(Padoa-Schioppa and Assad, 2006)。有趣的是，与其他任务不同，在该任务中我们专注于比较决策网络中单位的活动与执行相同任务的动物的背外侧前额叶和顶叶后皮质的神经记录，而对于经济选择任务，我们表明价值网络与眼眶额叶皮层（OFC）的神经记录有着惊人的相似之处，而OFC长期以来一直与奖励相关信号的表现有关(Wallis, 2007)。

　　我们基于REINFORCE的模型的一个有趣特征是，奖励基准（在这种情况下，是循环连接的价值网络的输出(Wierstra et al., 2009)）对于学习至关重要，但对于执行任务却不是必需的，因为后者仅取决于决策网络。重要的是，有时在没有价值网络的情况下学习仍然会发生，但是更加不可靠。有时在实验中观察到，大脑的奖励调节结构（如基底神经节或OFC）对于学习或适应变化的环境是必需的，但对于执行先前学到的技能则不是必需的(Turner and Desmurget, 2010; Schoenbaum et al., 2011; Stalnaker et al., 2015)。这表明这种电路的一种可能的作用是代表一个准确的基准来指导学习。此外，由于信心在许多认知任务中与期望奖励密切相关，因此价值网络对期望奖励的显式计算提供了一种基于学习的具体的可信度估计依据作为决策的普遍组成部分(Kepecs et al., 2008; Wei and Wang, 2015)，即使不是严格要求执行任务。

　　从概念上讲，此处介绍的RL语言中的行为任务的表述与使用基于模型的信念状态(Rao, 2010)或无模型工作记忆(Todd et al., 2008)解决部分可观察的马尔可夫决策过程（POMDP）(Kaelbling et al., 1998)密切相关。的确，就像Dayan and Daw(2008)，这项工作的目标之一是将相关计算统一为一种通用语言，该语言适用于系统神经科学中的各种任务。可以将此类策略与已知的行为“最优”解决方案进行更直接地比较，例如，根据感知决策的信号检测理论进行比较(Gold and Shadlen, 2007)。因此，除了扩大可以通过训练有素的RNN进行研究的任务和神经机制的范围外，我们的工作还为研究大脑中基于认知和基于价值的计算提供了一个方便的框架，人们常常从不同的角度对其进行研究，但是实际上，这源于相同的RL范式。

Results

Policy gradient reinforcement learning for behavioral tasks

Decision and value recurrent neural networks

Tasks with simple input-output mappings

Confidence and perceptual decision-making

Value-based economic choice task

　　我们还训练了网络来执行Padoa-Schioppa and Assad (2006)的简单经济选择任务，并研究了价值网络而不是决策网络的活动。网络的选择模式仅通过改变奖励意外事件来进行调节（图4A，上和下）。我们注意到，在每次试验中都有一个“正确”的答案，即可以带来更大的回报的选择。然而，与先前的任务相反，关于输入是否在这种意义上是正确的信息并不包含在输入中，而是包含在输入与奖励之间的关联中。这将任务与前面几节中讨论的认知任务区分开来：尽管可以通过提供相关的奖励作为输入将任务转换为认知型任务，但通过这种方式进行的训练可以将外部学习内容与“内部”学习内容融合在一起。

　　每个试验都以750毫秒的固定期开始；该报价显示了左侧和右侧选择的“汁液”类型和量，持续时间为1000-2000毫秒，随后是750毫秒的决策期，在此期间需要网络指示其决策。在图4A的上部面板中，在训练过程中将无差异点设置为1A = 2.2B，在与累积高斯拟合时，结果为1A = 2.0B（图4-图补1），而在下部面板中将其设置为在训练期间1A = 4.1B，结果为1A = 4.0B（图4-图补2）。奖励的基本单位（即1B）为0.1。为此，我们将价值网络的输入权重的初始值增大了10倍，以更强劲地推动价值网络。

　　令人惊讶的是，价值网络v_Φ中的单位活动表现出与任务变量类似的调整类型，如在猴子的眶额叶皮层中观察到的那样，某些单位（约占活跃单位的20％）对选定的价值具有选择性，其他单位（对于A和B都约占60％）都可以提供价值，还有其他单位（约20％）可以按照Padoa-Schioppa and Assad (2006)的定义（图4B）进行选择。决策网络还包含具有多种调整功能的单元。图4-图补3显示了此任务以及为该任务训练的其他网络的学习曲线。我们强调，对于基于价值的经济选择任务，网络架构未做任何更改。相反，图1B中所示的相同方案（其中价值网络负责预测未来的奖励以指导学习，但不参与策略的执行）导致了图4B中所示的神经活动模式。

Discussion

　　在这项工作中，我们已经展示了针对认知和基于价值的任务的基于奖励的RNN训练。我们的主要贡献有两个方面：首先，我们的工作扩展了可以通过分析RNN模型进行研究的任务和相应的神经机制的范围，提供了一个统一的环境，可以研究各种计算并与行为动物的电生理记录进行比较；其次，通过将奖励明确地纳入网络训练中，我们的工作使将来有可能更直接地解决大脑中与奖励相关的过程的问题，例如价值表征对于学习而非执行一个任务至关重要的作用。

　　据我们所知，这项工作中使用的基准网络输入的特定形式以前并未在循环策略梯度的背景下使用；它结合了Wierstra et al. (2009)的想法，其中除了选定的动作，基准网络还收到与决策网络相同的输入，以及Ranzato et al. (2016)，其中基准被实现为决策网络活动的简单线性回归，因此决策和价值网络有效地共享了相同的循环单元。的确，后一种架构在机器学习应用中非常普遍(Mnih et al., 2016)，同样，对于此处考虑的一些较简单的任务，模型的基准由所选动作和决策网络活动的线性读数组成，可以在可比较的（但略长）的时间内进行训练（图1-图补4）。决策和价值网络是否应该共享相同的循环网络的问题与正在进行的辩论有关，即选择和置信度是一起计算还是OFC等某些区域在本地计算置信度信号，尽管这种“元认知”表征很明显可以在大脑中广泛发现(Lak et al., 2014)。在计算上，如感知决策任务中所示（图1），当需要非线性计算来确定实现策略所需的期望回报时，预期区别将很重要。

　　有趣的是，一个单独的代表基准的价值网络暗示了大脑中价值表达的明确角色，这对于学习任务（等效于环境变化）至关重要，但对于执行已习得的任务却不是必需的（有时会发现）(Turner and Desmurget, 2010; Schoenbaum et al., 2011; Stalnaker et al., 2015)。由于准确的基准可以极大地改进学习效果，但不是必需的（例如，算法可靠性较低，并且需要使用多个样本以恒定的基准进行收敛），因此，这种关于价值表征作用的基准网络假设可能会解释在OFC病变动物中观察到的一些细微但广泛的学习缺陷(Wallis, 2007)。此外，由于期望奖励与所考虑的许多任务中的决策信心密切相关，因此从决策网络中非线性读取信心信息的价值网络与实验结果一致，在实验结果中，OFC失活会影响报告信心的能力，但不会影响决策准确性(Lak et al., 2014)。

　　因此，我们的结果为基于奖励学习的执行者-评论者图片提供了支持，其中一个电路直接计算了要遵循的策略，而第二个结构则接收来自决策网络的预测以及有关所选动作的信息，从而计算出期望未来奖励以指导学习。执行者-评论者模型在神经科学领域有着悠久的历史，特别是在基底神经节的研究中(Houk et al., 1995; Dayan and Balleine, 2002; Joel et al., 2002; O'Doherty et al., 2004; Takahashi et al., 2008; Maia, 2010)，有趣的是，有一些实验证据表明，纹状体中的信号更适合直接策略搜索，而不是更新动作价值（作为中间步骤）。纯粹基于价值函数的决策策略计算方法(Li and Daw, 2011; Niv and Langdon, 2016)。此外，尽管我们使用单个RNN分别代表决策和价值模块，但使用“深度”多层RNN可能会提高每个模块的表征能力(Pascanu et al., 2013a)。例如，比这项工作中考虑的更为复杂的任务可能需要在决策网络中进行层次化的表征，同样，价值网络可以使用不同特征的组合[包括原始的感官输入(Wierstra et al., 2009)]来预测未来奖励。从解剖学上讲，决策网络可能对应于背外侧前额叶皮层中的回路，而价值网络可能对应于OFC (Schultz et al., 2000; Takahashi et al., 2011)或基底神经节(Hikosaka et al., 2014)中的回路。这种架构还提供了一个有用的例子，说明了大脑的各个区域有效地优化了不同的成本函数(Marblestone et al., 2016)：在这种情况下，决策网络使奖励最大化，而价值网络使未来奖励的预测误差最小。

　　与之前用于训练RNN的许多其他监督学习方法一样(Mante et al., 2013; Song et al., 2016)，使用BPTT计算梯度（特别是资格迹）使得我们的“可塑性规则”不是生物学上合理的。如前所述(Zipser and Andersen, 1988)，确实令人惊讶的是，所得网络的活动仍然表现出从行为动物记录的神经活动中发现的许多特征。因此，我们的重点一直是从环境提供的现实反馈信号中学习，而不是从生理上实现。尽管如此，最近的工作表明精确的反向传播不是必需的，甚至可以在“脉冲”随机单位中实现(Lillicrap et al., 2016)，并且反向传播和SGD的近似形式可以以生物学上可行的方式实现(Scellier and Bengio, 2016)，包括RNN中的时空异步更新(Jaderberg et al., 2016)。这样的想法需要进一步研究，并且可能会导致在训练神经网络模型方面有效而又在神经学上更可行的方法。

　　最近，Miconi (2016)使用了基于“节点扰动”的算法(Fiete and Seung, 2006; Fiete et al., 2007; Hoerzer et al., 2014)，并在每个试验结束时使用了误差信号来训练RNN以进行一些认知任务，实际上，节点扰动与这项工作中使用的REINFORCE算法密切相关。一方面，在Miconi (2016)中描述的方法在生物学上似乎更合理，因为它不需要像我们的方法那样通过时间反向传播来计算梯度。另一方面，与这项工作中的网络相反，Miconi (2016)中的网络并没有“致力于”离散动作，因此误差信号是有等级的。此外，在本研究和其他研究中(Frémaux et al., 2010)，通过算法跟踪特定于刺激（任务条件）的奖励运行均值来计算预测误差。在这里，我们使用了一种具体的方案（即价值网络）来逼近自动依赖于刺激的均值，而无需外部学习系统为每种（真实）试验类型维护单独的记录，这显然是智能体不知道的。

　　REINFORCE算法用于策略梯度RL的优势之一是，直接监督学习也可以与基于奖励的学习相结合，方法是仅将等式3中的资格项包括在内，而无需通过奖励进行调节(Mnih et al., 2014)，也就是说，通过最大化所需动作的对数似然性。尽管这项工作中的所有网络仅从奖励反馈中进行训练，但是研究REINFORCE算法的这一功能将很有趣。我们没有在这里利用的另一个优势是可以为连续的动作空间学习策略(Peters and Schaal, 2008; Wierstra et al., 2009)。例如，这将使我们能够在感知决策任务中为任意扫视目标建模，而不是将网络限制为离散的选择。
　　我们之前曾强调过将生物学约束纳入神经网络训练的重要性(Song et al., 2016)。例如，哺乳动物皮质中的神经元对其他神经元具有纯粹的兴奋性或抑制性作用，这是Dale的神经递质原理(Eccles et al., 1954)的结果。由于校正后的GRU的性质更为复杂，因此在这项工作中我们并未包括此类约束（等式9-12）。特别是，我们使用的单位能够动态调节其时间常数并控制其循环输入，因此我们将发放率单位解释为兴奋性和抑制性群的混合。实际上，这些可能实现了通过实验观察到的“时间常数库”(Bernacchia et al., 2011)。然而，在未来，通过明确区分兴奋性和抑制性单元的作用，将包括更多的生物现实性，将有助于与脉冲网络模型和电生理记录进行比较(Mastrogiuseppe and Ostojic, 2016)。此外，由于决策和价值网络都是通过最小化目标函数获得的，因此可以轻松地包含其他正则化项，以获取其活动与神经记录更相似的网络(Sussillo et al., 2015; Song et al., 2016)。

　　最后，经过训练可以执行许多任务的RNN的最吸引人的功能之一就是它们能够洞悉大脑中的神经计算。但是，揭示此类网络中神经机制的方法仍然仅限于状态空间分析(Sussillo and Barak, 2013)，该方法尤其无法揭示突触连接性如何导致负责执行高层决策策略的动态。仍然需要用于分析受过训练的网络的通用和系统方法，并且这是正在进行的研究的主题。尽管如此，基于奖励的RNN训练使最终的网络更有可能与行为动物实验中观察到的生物网络紧密对应。我们期望在神经科学中训练神经网络模型的工具的不断发展将因此为动物认知的神经基础贡献新见解。

Materials and methods

Policy gradient reinforcement learning with RNNs

Discretized network equations and initialization

Adam SGD with gradient clipping

Computer code

　　这项工作中使用的所有代码，包括用于生成图形的代码，都可以在http://github.com/xjwanglab/pyrl上找到。

查看全文

相关阅读:
ros学习之消息和服务
 linux软件安装
 ros使用QT插件开发
 使用客户端对象模型读取SharePoint列表数据
 使用服务器端对象模型，编写程序管理SharePoint列表
 Visual Studio创建简单的Event Receiver
在SharePoint中使用LINQ
使用Visual Stuidio 2010 创建网站列
 使用Visual Studio 创建新的Web Part项目
 在SharePoint页面嵌入简单的Silverlight程序

原文地址：https://www.cnblogs.com/lucifer1997/p/13589361.html