zoukankan      html  css  js  c++  java
  • 强化学习第2版第14章笔记——心理学

      强化学习与心理学理论之间的一些对应关系并不令人感到惊讶,因为强化学习的发展受到了心理学理论的启发。

      强化学习是从人工智能研究者或工程师的角度探索理想化的情况,目的是用有效的算法解决计算问题,而不是复制或详细解释动物如何学习。因此,我们描述的一些对应关系将在各自领域中独立出现的想法联系起来。我们相信这些关系是特别有意义的,因为它们揭示了学习的重要计算原理,无论是通过人工系统还是自然系统进行学习。

      在大多数情况下,与强化学习相对应的心理学习理论是为了解释动物,如老鼠、鸽子和兔子,如何在受控的实验室中学习而提出的。

    14.1 预测与控制

      我们在本书中描述的算法分为两大类:预测算法和控制算法。这些类别分别对应于心理学家广泛研究的学习类别:经典(或巴甫洛夫)条件反射和工具性(或操作性)条件反射。

      本书中介绍的预测算法估计的值取决于智能体所处环境的特征如何在未来展开。特别地,我们专注于估计智能体与环境交互时期望获得的回报。从这个角度来看,预测算法是一种策略评估算法,他们是策略改进算法中不可或缺的组成部分。但预测算法不限于预测未来的奖励,它们可以预测环境的任何特征(例如,参见Modayil、White和Sutton,2014)。预测算法与经典条件反射之间的关联源于它们的共同特性,即预测将会到来的外部刺激,无论这些刺激是否有奖励(或惩罚)。

      工具性(或者操作性)条件反射实验的情况则不同。这种实验一般被设置为根据动物的表现决定给动物它们喜欢的东西(奖励)或者不喜欢的东西(惩罚)。动物会逐渐倾向于增加产生奖励的行为,而降低导致惩罚的动作。在工具性条件反射中,强化刺激信号被认为是偶发的影响动物的行为,而在经典条件反射中则不是(尽管在经典条件反射实验中也很难完全消除所有的行为偶发性的影响)。工具性条件反射实验类似于我们在第1章中简单讨论过的受Thorndike“效率定律”(Law of Effect) 启发的实验。控制是这种学习形式的核心,它与强化学习中的策略改进算法的做法相对应。

    14.2 经典条件反射

      俄罗斯著名生理学家伊凡·巴甫洛夫在研究消化系统活动时发现,动物对某些特定刺激因素的先天反应可以被其他无关的因素所激发。他以狗作为实验对象,并对它们进行手术以便于准确测量其唾沫反射的强度。在他记录的一个实验中,狗只会在给其提供食物约5秒之后的几秒内分泌6滴唾液,而其他时间内不产生唾液。然而,如果在给狗食物前的较短时间内给予它另一种与食物无关的刺激,如节拍器的声音,经过多次重复实验后,当狗听到节拍器的声音后,也会产生对食物一样的唾液反应。“唾液腺的分泌功能就这样被声音的刺激激活了,尽管这是与食物完全不同的刺激”(Pavlov,1927,第22页),巴甫洛夫这样总结这一发现的意义:

      显然,在自然条件下,正常的动物不仅要对自身直接有利或有害的刺激做出必要的反应,而且还要对其他物理或化学介质,如声波、光线等做出反应,尽管这些信号本身只是提示刺激的迫近,就像正在捕食野兽的身影和吼叫并不会对其他小动物造成实质性的伤害,真正的危险隐藏在它的牙齿和利爪中(Pavlov,1927,第14页)。

      这种将新的刺激与先天的反射联系在一起的方式被称为经典条件反射或巴甫洛夫反射。巴甫洛夫(确切地说是他的译者)将先天反应(如前述的分泌唾液)称为“无条件反射”(unconditioned response, UR),其天然的刺激因素(如食物)称为“无条件刺激”(unconditioned stimuli, US)。同时,他将由预先指定的刺激所触发的反射(同样是分泌唾液)称为“条件反射”(conditioned response, CR),而在先天条件下不会引起强烈反应的中性刺激(如节拍器的声音)则被称为“条件刺激”(conditioned stimuli, CS),在经过反复的训练之后,动物会认为条件刺激是无条件刺激的预示,因此会对条件刺激产生条件反射。由于US强化了CR对CS的反应,因此我们将US称为强化剂。

    14.2.1 阻塞与高级条件反射

      当一个潜在的CS与之前曾用于激发动物产生该CR的另一个CS一起呈现时,若动物未能学习到该CR,则产生阻塞。

      如果我们将之前用作条件反射的CS作为另外一个中性的刺激因素的US进行条件作用时,则会形成高级条件反射。

      高级工具性条件反射也会发生。经过长期进化,动物自身会具有本能的趋利避害的强化过程,我们称这样的强化过程为初级强化。依此类推,若某种刺激物预示着强化剂的出现,则称其为次级强化剂,或者更普遍地称为高级强化剂或者条件强化剂。条件强化剂会引发条件强化过程:即条件奖励或条件惩罚。条件强化与初级强化一样,增加了动物采用会获得条件奖励的行为的倾向,减少了动物采用会导致条件惩罚行为的倾向。

    14.2.2 Rescorla-Wagner模型

      Rescorla和Wagner创建这个模型的主要目的是解决阻塞问题。Rescorla-Wagner模型的核心思想是动物只有在事件违背其预期时才会学习。

      从机器学习的角度来看,Rescorla-Wagner模型是一个基于误差纠正的监督学习模型。

      Rescorla-Wagner模型在动物学习理论的历史上是非常有影响力的,因为它表明,“机械”理论可以解释关于阻塞的主要事实,而不用诉诸于更复杂的认知学理论。Rescorla-Wagner模型表明了条件反射的连续性理论(即刺激的时间连续性是学习的充分必要条件)经过简单的调整可以用来解释阻塞现象(Moore and Schmajuk,2008)。

    14.2.3 TD模型

      与Rescorla-Wagner模型相反,TD模型不是一个试验层面的模型,而是一个实时模型。同时,Rescorla-Wagner模型也没有考虑高级条件反射的机制,但是对于TD模型来说,高级条件反射是TD模型的核心思想——自举思想的自然结果。

      状态特征不仅可以描述动物所经历的外部刺激,还可以描述外部刺激在动物大脑中产生的神经活动模式,而这些模式是历史相关的,这意味着可以通过一系列外部刺激来形成持久的神经活动模式。综上所述,TD模型并不会确定任何一种特定的状态刺激表示。此外,由于TD模型包含了跨越不同刺激时间间隔的折扣和资格迹,因此,该模型还可以让我们探究折扣和资格迹是如何与刺激物的表示进行交互的,这些交互可以用于预测经典条件反射试验的结果。

    14.2.4 TD模型模拟

      然而,即便是最简单的存在表示,所有Rescorla-Wagner模型能够解释的关于条件反射的基本特性都可以由TD模型产生,并且超出试验层面模型描述范围的条件反射特征也可以由TD模型产生。

      TD模型考虑了阻塞问题,因为它和Rescorla-Wagner模型一样有一个误差纠正的学习规则。

      在TD模型中,较早出现的预测性刺激的优先级高于较晚出现的预测性刺激,因为就像本书中所描述的所有预测方面一样,TD模型基于“回溯”或“自举”的思想:关联强度的更新改变了某个特定状态对其后继状态的强度。另外,基于自举思想的TD模型为“高级条件反射”提供了一个解释,这也是Rescoral-Wagner和其他类似模型所不具有的条件反射特性。

      TD模型提供了对次级(二级)以及更高级的条件反射的模拟。自举值与次级条件反射以及高级条件反射密切相关。

      当TD模型与特定的刺激表示和反应生成机制相结合后,就能够解释在经典条件反射中观察到的各种现象,但它远不是一个完美的模型。

      TD模型最显著的特点大概是它基于一个理论,该理论说明了动物神经系统在经历条件作用时尝试去做的事情:形成准确的长期预测,这与刺激物的表示形式所带来的限制以及神经系统的工作方式相一致。换句话说,该理论提出了一个针对经典条件反射的规范性描述,表明长期预测才是经典条件反射的重要特征,而并非即时预测。

      对条件反射TD模型的探究是对动物学习行为的一些细节进行建模的一个实例。TD学习除了作为算法外,也是生物学习方面模型的基础。

    14.3 工具性条件反射

      在工具性条件反射的实验中,学习是依赖于行为的结果来进行的,即根据动物做了什么来发送强化刺激信号。相比之下,在经典条件反射的实验中强化刺激信号(即US)的传送是与动物的行为是无关的。工具性条件反射的起源可以追溯到本书第1版出版的一百年前美国心理学家Edward Thorndike进行的实验。

      Thorndike将猫放进如下图所示的“迷箱”中,观察猫的行为,在该箱子中的猫需要采取特定的动作才能逃出箱子。例如,一个箱子的猫可以通过采取如下三个动作打开箱子的门;按压箱子背面的板;抓住并拉动箱子;以及上下推动把手。当第一次被放在“迷箱”之中并且可以同时看到箱子外面的食物时,Thorndike中的猫除了少数几只外,都显示出“明显的不适”和异常活跃的动作来“本能地逃出禁闭”(Thorndike,1898)

      实验中包含了不同的猫以及具有不同逃跑机制的箱子,Thorndike记录了每只猫在每个箱子的多次试验中逃跑所耗的时间。他观察到随着试验次数的增加,试验所用的时间不停地下降,例如从300s降到6s、7s。Thorndike这样描述“迷箱”中猫的行为:

    由于冲动抓遍整个箱子却难以跳出箱子的猫可能会正好抓绳子、环和按按钮而打开箱子的门。逐渐地,不能打开门的冲动慢慢消失,而成功打开门的冲动会由于开门的快乐而逐渐增强。最终经过多次试验后,猫一被放入箱子中,就会立刻以一种确定的方式去按按钮和拉环(Thorndike 1898,p.13).

    Thorndike在这些和其他试验的基础上总结了一系列学习的“规律”,其中最具影响力的是我们在第1章(14页)中提到的效应定律。效应定律所描述的内容现在提出被称为试错学习。

    “面对同样的情境时,动物可能产生不同的反应。在其他条件相同的情况下,如果某些反应伴随着或紧随其后能够引起动物自身的满意感,则这些反应将与情境联系更加紧密。因此,当这种情境再次发生时,这些反应也更有可能再出现。而在其他条件相同的情况下,如果某些反应给动物带来了不适感,则这些反应与情境的联系将被减弱,所以当这种情境再次发生时,这些反应便越来越不容易再现。更大的满意度或更大的不适感,决定了更强化的或更弱化的联系。”(Thorndike,1911,p.244)。

      强化学习算法中的关键特点可以对应到效应定律中描述的动物学习的特点。第一,强化学习算法是选择性的,即它们会尝试不同的选择,并通过比较这些选择的结果来在其中挑选。第二,强化学习算法是关联性的,即在构建智能体的策略时,其可进行的选择是与特定的场合或状态相关联。如效应定律中描述的学习一样,强化学习不仅仅是一个找到能产生大量奖励的动作的过程,也是一个将动作与场合或状态连接在一起的过程。Thorndike用“选择与连接”一词来表示学习(Hilgard,1956)。进化中的自然选择过程是一个很好的选择过程的例子,但是它不具有关联性(至少目前是这么认为的)。监督学习具有关联性,但是它没有选择性,因为它依赖的指令直接告诉智能体如何改变它的行为。

      使用计算机科学的术语进行描述的话,“效应定律”描述的是一种基本的结合搜索和存储的方法,搜索的方式是在某个场合下尝试不同的动作并在其中选择一个,而存储则是将场合和在该场合下目前为止找到的最好的动作关联起来。无论存储的形式是智能体的策略、价值函数还是环境模型,搜索和存储都是所有强化学习算法中的关键组成部分。强化学习算法对于搜索的需求导致它必须以某种方式进行试探。动作的选择到底是“随机选择的或者说是胡乱选择的”(Woodworth, 1938, p. 777),还是在一定的指导(先验知识、推理以及其他形式)。强化学习算法对于智能体在选择动作使用多少指导有着多样的选择。在本书中介绍的算法中,试探过程的形式,如ε-贪心法和基于置信区间界限的动作选择等,都属于最简单的一类。只要能够保证某种形式的试探使得算法可以高效运行,其实我们也可以设计更为复杂的方法。

      强化学习的一个特性是在任何时刻可以选择的动作的集合依赖于环境的当前状态,这一特性与Thorndike在他的迷箱实验中观察到的猫的行为也是类似的。这些猫所选择的动作是在当前的场合下它们本能会做出的一些动作,Thorndike称其为“本能冲动”。成功的动作是从这些动作而不是从所有动作中选出来的。确定这个集合是强化学习的一个重点,因为它能大幅简化学习过程。这些动作就像是动物的本能冲动一样。另一方面,Thorndike的猫并非单纯地从本能冲动的集合中选择动作,而是会根据当前状况本能地对可选动作进行排序。这是另一个能简化强化学习的方式。

      在受效应定律影响的动物学习研究人员中,最著名的两位是Clark Hull(例如Hull,1943)和B.F.Skinner(例如Skinner,1938),他们研究的核心就是基于行为的结果选择行为这一想法。强化学习中的很多特性与Hull理论是一致的,其中包括了采用类似于资格迹的机制和次级强化来在动作和由其引发的强化刺激信号(参见14.4节)之间有很长的时间间隔时进行学习。随机性在Hull理论中也是很重要的,它通过一种称为“行为振荡”的方式引入随机性来得到试探性的行为。

      Skinner不完全同意效应定律中的关于存储的那部分描述。他反对关联连接的观点,强调动作是从自发行为中选择的。他提出了“操作”这个术语来强调动作对于动物所处环境的影响的重要作用。与Thorndike等人的实验不同,Skinner的操作性条件反射实验并非由一连串单独的试验组成,它允许动物在更长的一段不受打断的时间内表现其行为。他发明了操作性条件反射箱,现在叫作“Skinner箱”。它的最简单版本包含一个杠杆或一个钥匙,一旦盒子里面的动物按压了,就会得到回报,比如水或者食物。回报的规则是预习设计好的,其也被称作强化程序表。通过记录随着时间推移动物按压杠杆的累积次数,Skinner和他的同事可以试探不同的强化学习表对动物按压频率的影响。

      Skinner的另一个贡献在于,他发现通过强化对理想行为模式的接连不断的近似可以实现对动物的有效训练,他将这个过程称为塑造。虽然其他人,包括Skinner自己都曾用过这个方法,但真正让它意识到其重要性的实验,是他和他的同事们尝试训练鸽子用它的喙击木球来使球滚动,但他们等了很长时间,但没等到他们可以用于强化的击中木球的情况,在这样的情况下,他们

    “……决定对任何只要与击球有细微的相似的反应都进行强化。例如在一开始强化的反应可能只是看着木球,后来就可以选择强化离最终的目标更接近的反应。结果令人惊喜。几分钟后,球就从盒子边上掉了出来,鸽子就已经像冠军壁球选手一样了。”(Skinner, 1958, p.94)

    这些鸽子不仅学会了一种对它们来说不同寻常的动作,而且它们通过一个行为和强化规则互相对应变化的交互过程能够快速地进行学习。Skinner将强化规则变化的这个过程与雕塑家将黏土塑成想要的形状的过程相比较。塑造在强化学习的计算系统中也是一个强有力的技术。由于奖励的稀疏性,或者由于很难从初始行为达到这些状态,因此当智能体很难得到任何非零的奖励信号时,如果从比较简单的问题开始,然后逐渐增加任务难度,智能体的学习过程就会更有效,并且对于有些任务,必须要采取这种学习策略。

      心理学中的动机这一概念与工具性条件反射密切相关,这里的动机指的是一种影响行为的方向、大小和活力的过程。

      从某种意义上来说,强化学习智能体的奖励信号是其动机中最基本的部分:智能体被其激发去最大化长期的总奖励。那么,动机中的一个关键点就在是什么使得智能体的某段经历具有奖励。在强化学习中,奖励信号取决于强化学习智能体所处环境的状态和智能体的动作。

      引入价值函数带来了与心理学的动机的概念更深层次的联系。

      动物的另一个特性是动物的动机状态不仅能影响学习过程,而且也会影响在学习后动物的行为的强度和活力。例如,在学习如何在迷宫中找食物后,饥饿的老鼠会比不饿的老鼠更快地到达目标。

    14.4 延迟强化

       效应定律的成立需要假设能够反向影响之前的连接,但早期的一些批评者并不认同现在能影响过去的事情的想法。在学习时,动作和其导致的奖励或惩罚之间甚至可能存在巨大的时间间隔,这加重了批评者的这种担忧。我们将这个问题称为延迟强化,这与Minsky(1961)提出的“学习系统的功劳分配的问题”(如何将成功结果的功劳分配给许多在取得成功的过程中做出的动作?) 密切相关。本书中介绍的强化学习算法包括两种用来解决这个问题的机制,第一种就是使用资格迹;第二种则是用TD方法来学习价值函数,学到的价值函数(在类似于工具性条件反射实验的任务中)几乎可以立刻对动作进行评估,或者(在类似于经典条件反射实验的任务中)可以立刻对目标做出估计。在动物学习理论中,这两种方法都有对应的相似机制。

    14.5 认知图

      基于模型的强化学习算法使用了环境模型,这与心理学中所说的认知图有许多共同点。

      接下来的问题是动物会不会用到环境模型,如果使用了环境模型,那么这些模型是什么样子的,它们又是怎么学习的?这些问题在动物学习的研究中扮演者重要的角色。一些研究人员提出潜在学习的概念,开始挑战当时盛行的关于学习和行为的“刺激-反应”(S-R) 的观点(对应于最简单的模型无关的学习策略)。这可以总结为:“在无奖励阶段,实验组老鼠对迷宫进行潜在学习,一旦产生奖励,它们就能快速利用。”(Blodgett,1929).

      与潜在学习关系最大的心理学家Edward Tolman,他解释了这个结果,并且被广泛认可。他提出,动物可以在奖励或者惩罚缺失的情况下,学习到一个“环境的认知图”,当动物在以后有动机去达成一个目标时,他们会利用这个图(Tolman,1948)。用认知图解释潜在学习实验,可以视为动物使用了基于模型的算法,并且环境模型可以在没有显式的奖励或惩罚时被学习到。之后当动物发现奖励/惩罚的迹象而有动力时,模型将被用于规划。

      Tolman关于动物如何学习认知图的解释是,他们通过在试探环境时体验连续的刺激,来学习刺激-刺激(S-S)连接。在心理学中这又被称为期望理论:给定S-S连接,一个刺激的出现将会产生一个关于下一个刺激的预期。这很像控制工程师所称的系统辨别,其中一个未知动态特性的系统模型通过从有标注的训练样本中学习得到。

    14.6 习惯行为与目标导向行为

      无模型与基于模型的强化学习算法之间的差别,对应于心理学家对于学习到行为模式所做的“习惯行为”与“目标导向行为”之间的区分。习惯是由适当的刺激触发,之后多多少少会自动执行的行为模式。目标导向的行为,可以通过心理学家如何使用这个词组看出:在某种意义上它是有目的性的,它是通过目标价值的知识以及行动以及后果之间的关系来控制的。习惯有时被认为是由先行刺激所控制的,而目标导向行为被认为是由其后果控制的(Duckinson,1980,1985)。目标导向的优势在于它能够使得动物根据环境状态的变化及时调整行为。习惯动作能够对来自固定环境的输入快速反应,但是它不能对变化的环境做出调整。目标导向行为控制的发展对动物智力进化来说可能是重要的一步。

      如果无模型智能体的环境改变了它对于智能体的动作做出的反应时,智能体必须在这个改变中获得经验,以更新其策略或者价值函数。关键是,如果无模型的智能体要改变由其策略决定的某个状态下的动作,或者改变对应某个状态的动作价值,它需要移动到那个状态,做出动作(可能需要多次),然后体验这个动作带来的结果。

      而基于模型的智能体就能在没有任何这种“个人经验”的情况下适应环境的变化,这种模型会自动(通过规划)改变智能体的策略。规划过程可以决定环境变化导致的结果,而与智能体自己过去的经验是没有任何联系的。规划过程由于使用环境模型,所以奖励值的改变对于规划来说是透明的,在迷宫实验中不需要额外的经验。

      正是这种逻辑构成了动物的结果贬值实验的基础。这些实验的结果为动物是学习到了一个习惯还是由目标导向控制行为问题提供了有益的启发。结果贬值实验与潜在学习实验类似,奖励值会发生对应改变。在学习开始时奖励值固定,之后其中一个结果的奖励值发生改变,有可能变成零,甚至有可能变为负值。

      Adams和Dickinson得出的结论是,注射的老鼠通过认知图将杠杆按压与蔗糖球相联系,并将蔗糖球与感到恶心联系,从而使相关的杠杆按压伴随恶心。因此,在消退实验中,老鼠“知道”按下杠杆的后果是它们不想要的,所以它们从一开始就减少了杠杆的压力。重要的一点是,它们并没有真正经历过按压杠杆之后就产生恶心的情况。它们似乎能够将行为选择结果的知识(按压杠杆后将得到一个蔗糖球)与结果的奖励价值(感到恶心,从而应避免蔗糖球)相结合,因此它们可以相应地改变行为。并不是每个心理学家都同意该实验的这种“认知”的说法,这不是解释这些结果的唯一可能的方式,但是基于模型的“规划”的解释是被广泛接受的。

      没有什么能阻止智能体使用无模型和基于模型的算法,并且使用两者都有很好的理由。根据我们自己的经验,我们知道,经过大量的重复后,目标导向的行为往往会变成习惯性的行为。如果延长的训练使老鼠对贬值不那么敏感,那么相较于接受较少训练的老鼠,这将是延长的训练使得该行为更加习惯的依据。结果是,贬值大大降低了非过度训练老鼠的杠杆按压率。而对于过度训练的老鼠则相反,贬值对它们的杠杆按压率影响不大。事实上,如果有的话,也会使得它更有活力(完整的实验包括对照组,显示不同量的训练本身并不显著影响学习后的杠杆按压率)。这个结果表明,没有过度训练的老鼠以对它们的目标导向的方式(对其行为的结果有清楚的了解)选择它们的行为,过度训练的老鼠已经形成了杠杆按压的习惯。计算神经科学家Daw、Niv和Dayan(2015)提出的一个想法是:动物同时使用无模型和基于模型的决策过程。每个过程都生成一个候选动作,最终选择执行的的动作被认为是两个更值得信赖的过程所提出的动作,其由整个学习过程中保持的置信度决定。对于基于模型的系统,规划过程的早期学习阶段更值得信赖,因为它将短期预测串在一起,与无模型流程的长期预测相比,这些预测可以变得更准确,经验更少。但是随着经验的不断增长,无模型过程变得更加值得信赖,因为规划容易出错(由于模型的不准确性和使规划变得可行所必需的捷径,例如各种形式的“树剪枝”,即删除没有希望得到结果的搜索树分支)。

      根据这个想法,随着经验的累积,人们会期望从目标导向行为转向习惯行为。已经有人提出关于动物如何在目标导向和习惯控制之间进行权衡的其他想法,并且行为和神经科学领域都在继续研究这个问题和相关问题。

    14.7 本章小结

    参考文献和历史评注

    14.3 Selfridge、Sutton和Barto说明了在杆平衡强化学习任务中塑造的有效性。Gullapalli和Barto(1992),Mahadevan和connell(1991),Mataric(1994),Dorigo和Colombette(1994),Saksida、Raymond和Touretzky(1997),以及Randløv和Alstrøm(1998)这些人提出了在强化学习中使用塑造的其他例子。

    术语注释:在另一方面,经常有人指出,使用一个数字作为信号,奖励或惩罚仅取决于它的正负值,这与动物的喜好和厌恶系统不一致。因为实际上这个系统有许多本质上不同的性质,并且涉及不同的大脑机制。这实际上指明了强化学习在未来的一个发展方向:即利用独立的好恶系统的计算优势。目前我们正在尝试各种可能性。

  • 相关阅读:
    ActiveX在.NET 2005中的实现(三)
    SharePoint学习研究资源
    配置Excel Service的Excel Web Access 功能及应用
    SkyDrive 与 Hotmail 的 Office Web Apps
    ActiveX在.NET 2005中的实现(二)
    Sharepoint设置SMTP邮件发送服务器(使用中继服务器)
    SharePoint2010新功能
    Analysis自动处理
    NBear V3
    Server数据推送,长连接
  • 原文地址:https://www.cnblogs.com/lucifer1997/p/13502639.html
Copyright © 2011-2022 走看看