郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
ENEURO, no. 2 (2018)
Significance Statement
大脑中的神经元网络没有固定的连接性。我们解决了如何通过不断变化的神经回路来实现稳定的计算性能,以及这些网络如何从这些变化中受益的问题。我们表明,网络配置的平稳分布提供了一定程度的分析,这些问题可以以明显的方式得到解决。特别是,这个理论框架使我们能够分析性地解决在这种情况下奖励门控突触重新布线和可塑性的规则最有效的问题,以及不同水平的活动独立突触过程可能产生的影响。我们通过计算机模拟和与实验数据的链接证明了这种方法的可行性。
Visual Abstract
大脑中神经元之间的突触连接是动态的,因为持续进行的脊柱动力学、轴突萌芽和其他过程。事实上,最近表明脊柱动力学的自发突触自主成分至少与依赖于突触前和突触后神经活动历史的成分一样大。这些数据与网络可塑性的常见模型不一致,并提出了以下问题:尽管有这些持续进行的过程,神经回路如何保持稳定的计算功能,以及这些持续进行的过程的功能用途是什么?在这里,我们在基于奖励的学习任务的背景下为这些看似随机的脊柱动力学和重新布线过程提出了一个严格的理论框架。我们表明,自发突触自主过程与多巴胺等奖励信号相结合,可以解释大脑中神经元网络为特定计算任务配置自身的能力,并自动补偿网络或任务的后续变化。此外,我们从理论上和通过计算机模拟表明,稳定的计算性能与持续进行的突触自主变化兼容。在达到良好的计算性能后,它主要导致网络架构和与任务无关维度的动态缓慢漂移,如运动皮层和其他区域的神经活动所观察到的那样。在强化学习的更抽象层次上,由此产生的模型使人们将奖励驱动的网络可塑性理解为网络配置的连续采样。
Key words: reward-modulated STDP; spine dynamics; stochastic synaptic plasticity; synapse-autonomous processes; synaptic rewiring; task-irrelevant dimensions in motor control
Introduction
连接组是动态的:大脑中的神经元网络以数小时到数天的时间尺度重新连接自身(Holtmaat et al., 2005; Stettler et al., 2006; Holtmaat and Svoboda, 2009; Minerbi et al., 2009; Yang et al., 2009; Ziv and Ahissar, 2009; Kasai et al., 2010; Loewenstein et al., 2011, 2015; Rumpel and Triesch, 2016; Chambers and Rumpel, 2017; van Ooyen and Butz-Ostendorf, 2017)。这种突触重新布线表现为树突棘的出现和消失(Holtmaat and Svoboda, 2009)。即使在没有神经活动的情况下,也可以观察到已建立突触的其他结构变化,即脊柱头部的生长和收缩(Yasumatsu et al., 2008)。Dvorkin and Ziv (2016)最近的研究,其中包括在他们的图8中对来自Kasthuri et al. (2015)的小鼠大脑数据的重新分析表明,这种自发成分出奇地大,至少与突触前和突触后神经活动的影响一样大。此外,Nagaoka及其同事提供了体内直接证据,表明树突棘的基准周转是由与活动无关的内在动力学介导的(Nagaoka et al., 2016)。此外,实验数据还表明,Yagishita et al. (2014)的奖励信号介导了神经回路的任务依赖性自我配置。
其他实验数据表明,不仅连接组,而且神经回路的动力学和功能都在不断发生变化。Ziv et al. (2013); Driscoll et al. (2017)报告了神经代码的持续漂移。进一步的数据表明,通过计划和控制运动行为的神经网络将输入映射到输出会在几分钟到几天的缓慢时间尺度上随机游走,这被推测与随机突触重新布线和可塑性有关(Rokni et al., 2007; van Beers et al., 2013; Chaisanguanthum et al., 2014)。
我们解决了这些数据提出的两个问题。(1) 尽管实验发现神经回路中不断进行重新布线和与活动无关的突触可塑性,但如何实现稳定的网络性能?(2) 这些过程的功能作用是什么?
与之前显示的类似(Rokni et al., 2007; Statman et al., 2014; Loewenstein et al., 2015),我们通过随机过程对每个潜在突触连接 i 的自发突触自主脊柱动力学进行建模,该过程调节相应参数θi。我们在本文中为这种随机脊柱动力学和重新布线过程提供了严格的数学框架。我们的分析假设人们可以在任何时间点通过一个向量来描述网络配置,即动态连接组的当前状态和所有当前功能突触的强度,该向量对所有潜在突触连接 i 的当前值θi进行编码。这个高维向量θ的随机动力学定义了一个马尔可夫链,其平稳分布(图1D)提供了对解决局部突触过程特性与神经网络计算功能之间关系的问题的洞察。
基于神经网络中基于奖励的学习的充分研究范式,我们对第一个问题提出以下答案:只要该平稳分布的大部分质量位于参数空间的区域或低维流形中, 尽管(Loewenstein et al., 2015)持续不断地移动,但仍可以确保稳定的网络性能。我们的实验结果表明,当学习了计算任务时,大多数后续动态发生在与任务无关的维度中。
同一个模型也提供了第二个问题的答案:参数向量的突触自主随机动力学使网络不仅可以在具有良好网络性能的高维区域中找到,而且还可以重新连接网络以补偿任务中的更改。我们分析了突触动力学随机分量的强度如何影响这种补偿能力。我们得出的结论是,如果随机分量与实验数据一样大,则补偿最适合这里考虑的任务(Dvorkin and Ziv, 2016)。
在强化学习的更抽象层面上,我们的奖励驱动网络可塑性理论框架提出了一种新的网络学习算法范式:策略采样。与熟悉的策略梯度学习(Williams, 1992; Baxter and Bartlett, 2000; Peters and Schaal, 2006)相比,这种范式与实验数据更一致,实验数据表明网络参数会持续漂移。
由此产生的奖励门控网络可塑性模型建立在Kappel et al. (2015)的方法之上。对于无监督学习,这仅适用于特定的神经元模型和特定的脉冲时序依赖可塑性规则。由于新方法可以应用于任意神经元模型,特别是还可以应用于神经回路和系统的大型数据库模型,因此它可以用于探索基于数据的神经回路和大脑区域模型如何获得和维持计算功能。
Results
Reward-based rewiring and synaptic plasticity as policy sampling
Task-dependent routing of information through the interaction of stochastic spine dynamics with rewards
A model for task-dependent self-configuration of a recurrent network of excitatory and inhibitory spiking neurons
Compensation for network perturbations
Role of the prior distribution
Relative contributions of spontaneous and activitydependent synaptic processes
Discussion
Materials and Methods
Probabilistic framework for reward-modulated learning
Analysis of policy sampling
Network model
Synaptic dynamics for the reward-based synaptic sampling model
Reward-modulated synaptic plasticity approximates gradient ascent on the expected discounted reward
Online learning
Simulation details
Details to: Task-dependent routing of synaptic connections through the interaction of stochastic spine dynamics with rewards
Details to: A model for task-dependent selfconfiguration of a recurrent network of excitatory and inhibitory spiking neurons
Details to: Compensation for network perturbations
Details to: Relative contribution of spontaneous and activity-dependent processes to synaptic plasticity