zoukankan      html  css  js  c++  java
  • 【思维论01】如何让自己像打王者荣耀一样发了疯、石乐志的学习?

    这是我思维导论的第1期,灵感来自另一位博主。视频做完后会接着更新算法系列专栏~


    我们玩王者荣耀,究竟是为了什么

    对于非职业玩家来说,打王者荣耀,是为了什么?除去消遣时间这个普遍因素,是为了推掉对方水晶?还是拿到5杀?抑或只是为了和朋友一起,享受在游戏中畅快地倾泻技能的感觉?

    这些都不是本质原因,单次的获胜,或者5杀,并不能促使我们不断打开下一局游戏。本质上,我们对游戏的快感,都是大脑对游戏反馈机制的一种奖励,它由我们的多巴胺所决定。

    人们常以为多巴胺等同于快感,但事实并非如此。多巴胺(dopamine)只是脑垂体腺中的前体物质,它不是快感本身,而是对快感的预期,或者说,对快感的追求。当你获胜,或者拿到击杀,你的肾上腺素、催产素以及内啡肽分泌增多,你会感到愉悦、兴奋,当你被击杀、水晶被推,你会感到沮丧、愤怒。但对于大脑神经来说,这些情绪只是暂时的体验,突触上的电信号一触即走,不带走半点云彩。而多巴胺所构成的信号机制,才是决定你会不会接着玩下去,并且以后还会打开游戏的关键。

    换句话说,多巴胺赋予你沉迷游戏的欲望。在多巴胺的信号机制中,它并不会让你感到“我玩王者荣耀很爽”,而是让你觉得“这把我能翻”、“下把一定赢”“再赢一把排位我就升段位了”。

    也正由于多巴胺是直接作用于大脑的奖励回路,使得一个人即使对某件事感到厌恶,也会在多巴胺的作用下去做这件事。于是,一次又一次地,我们打开手机或电脑,点开了游戏,进入了排位,周而复始。

    这,就是我们玩王者荣耀的根本原因。


     

    反馈回路

    反馈回路是一种“信号-动作-反馈”机制,可以简单描述为一个五元组系统

    · 环境 – 你的交互环境,比如游戏

    · 状态 – 你所处的状态,比如击杀、被击杀、以及获得胜利

    · 动作 – 打开游戏,操作游戏角色,或者关掉游戏

    · 更新 – 提高或降低你做出某个动作的概率。概率-可以理解为大脑信号的强弱

    · 奖励 – 获胜的愉悦,也就是快感预期

    并且满足以下4个规则:

    1. 当你进入游戏,你会以不同的概率,在每一个时间点上,做出不同的动作

    2. 你的动作决定了下一刻你所处的状态,每个状态都对应一个奖励,也即大脑所获得的反馈

    3. 每一步动作,都不只影响下一步的反馈,也可能影响更远的状态和反馈

    4. 反馈可以为正,也可以为负

    举个例子,作为一个刚玩MOBA类游戏的玩家,你只知道要推掉敌方水晶。当你进入游戏(环境),你孤身进入敌方防御塔范围(动作),被击杀(状态),你的大脑感觉失望(奖励)。于是,当你从泉水复活(环境),你孤身进塔的动作概率被降低(更新),你选择跟随兵线一起进入(动作),推掉了防御塔(状态转移),并在数十个类似动作后,最终胜利(更远状态),你获得了满足(奖励)。

    根据奖励结果,大脑判断第二种路径更好,因此下一次循环,你选择跟随兵线的概率会继续增加,并随之做出更多正确操作,最终加强这个正向反馈回路的效果。这,也是职业选手得以脱颖而出的原因——他们的反馈机制更为迅速,且响应更快。


     

    强化学习

    这个反馈回路,就是构成人工智能中强化学习理论的基础机制。强化(reinforcement),是指在不断尝试中,个体所学习到的反馈回路在不断更新,并最终优化到可能目标的过程。

    它和监督式机器学习一样,是构成人工智能的基石。

    监督式机器学习,就好比你做历年真题,它由往年题目(旧数据)和答案(标签)构成,通过做题,你获得了从题目和答案中学习到的解题方法,并将这种方法应用到下一次考试中去。本质上,它学习出的是问题和答案之间的关系,这种关系就是模型。机器学习,只是把我们在过去学习中所做了十几年的事情,复制到了计算机上。

    而强化学习,学到的是反馈回路。反馈 (reward),即用来判断这个行为是好是坏。一个优秀的强化学习系统,甚至不需要旧有的数据,就可以直接进行学习。

    强化学习的反馈有延时,即有可能走了很多步以后,才知道以前的某一步的选择是好还是坏,而监督式机器学习只学习方法,不考虑时间。这样的思考方式其实并不与现实相似,因为我们所做的每个选择,所处的每个环境,都与过去的许多行为有关,它们极其复杂,没有一个固定、线性的模式可被学习,但通过强化学习,可以尽量逼近可能存在的完美模型。

    从生物学的角度讲,强化学习更符合人类的进化方式,从古代的尼安德特人就已经开始:不符合正反馈回路的行为或族群,注定被“环境”所“更新”,也意味着淘汰。人类之所以进化成人类,是因为除了总结旧有知识并发现规律(机器学习)外,还会不断尝试和探索(强化学习)。

    现如今,最完善的强化学习系统,就是谷歌的AlphaGo。每日与自己对弈数十万局,根据对弈结果,强化棋盘落子的正反馈回路。如果说,监督式机器学习是一种方法迁移,那强化学习则是方法探索。在某种意义上,强化学习更接近想象中的人工智能。

    现在,让我们回到问题中来。

    学习,究竟是为了什么?

    不打游戏,是为了更好的学习。更好的学习,是为了更好的生活。那,什么是更好的生活?可以痛快地玩游戏,算不算更好的生活?我们从小被教导要好好学习,却从来没有真正思考过为什么要好好学习。如果连成因、机制都不了解,看再多的思维教学、学习导论,也没有办法让自己真正地执行“好好学习”这件事。

    让我们思考一个问题:

    “我们真的厌恶学习吗?”

    其实,用强化学习的角度看,学习和玩王者,本质上没有区别。

    学习是一个枯燥的过程,你要背单词、背公式,要写作、还要练习。玩游戏也是如此:你要记忆每个英雄的技能、走位技巧、出装顺序,也要通过很多次的对局来练习、提高技能。

    区别在哪里?在学习系统中,它们都是同一种东西,即“动作”,动作无所谓枯燥和有趣,关键看它所处的“状态”和预期的“奖励”。

    人类厌恶枯燥的东西,所以当学习变得索然无味,我们就会讨厌学习,这是天性。我们在学习时,并不能获得和做爱一样的快感,否则的话,没有人会讨厌学习。但是,有的人却能坚持学习并乐在其中,为什么?答案是反馈机制。

    当学习的“动作”带给人的长期收益为正,就会获得我们所说的快感预期,也即前文提到的多巴胺。如果不靠多巴胺,只靠意志力去坚持学习,会怎么样呢?就像不断绷紧一根弦,强行违背身体的感觉,到最后早晚会断掉。

    我们绝大多数人,没有移山填海的毅力,因此这样的学习方式,是不科学的。大脑发出指令的动机其实和海洋馆的海豹一样,是为了眼前那一条小鱼干,顶一次球,给一条鱼,再顶一次,再给一次。也就是说,只有不断收到正向的反馈,才会自然而然地保持前进的动力。

    本质上,这只是把“学习”动作的反馈回路,搬到了游戏上来。搞清楚这点,我们就可以思考,如何让自己像打王者荣耀一样的学习


     

    反馈强化

    先让我们回到游戏本身。游戏带给玩家的反馈是否足够,是决定一个游戏是否有趣的基础。而游戏厂商在做的事情,就是将反馈回路,竭尽所能的加强和加快,也即提高动作的收益,比如推掉水晶,你获得的不只是胜利,游戏分数也会提升。或者增加不确定性,让玩家耗费更多次的尝试,来确定反馈回路,比如部分皮肤的随机性。

    简单来说,常见的游戏,都是基于以下三种强化模式,来对游戏结果的反馈机制进行加强:

    • 一种是“固定比率强化”(Fixed Ratio),比如“打败10个哥布林一定可以升1级”,“连胜10场一定可以升段”

    • 一种是“固定时距强化”(Fixed Interval),比如“《皇室战争》里的白银宝箱3小时后一定可以解锁”

    • 还有一种“不固定比率强化”(Variable Ratio),也就是“《阴阳师》每抽一次卡,有1%的几率抽到SSR”

    这三种方法,将强化学习中的不确定性奖励,固化成为确定性收益,比如分数、卡牌、等级。

    分别为游戏厂商带来了留存率,在线人数,和净收入。


     

    我们该怎么做?

    学霸和学渣的区别,就在于对快感的预期不同。预期不同,形成的反馈也就不同。成为学霸,需要不断强化自己的反馈回路。最基本的,从以下三点做起

    1. 缩短反馈周期

    反馈周期太长,意味着半衰期长。半衰期是什么,下期文章我会讲。这里只需要知道,反馈周期太长是大多数人无法坚持的主要障碍。举个例子,有的人高中时成绩很好,为何到大学时成绩就一落千丈?有人说,是因为高考之后人松懈了,就容易变笨。很可惜,这个说法或许有道理,却并没有研究结论支撑。真正的原因,其实是反馈周期变长了。

    在高中时,一个月会有3-4次测试,你努力学习一个周,就能看到努力的效果,班级名次很容易进步。接着,同学吃惊,家长老师表扬,你觉得特别很开心,打了鸡血一样继续学习,这种感觉可能会持续几天,还没等它消退,下一次考试又来了。不出意外,你会接着获得下一次正反馈。在这样的反馈回路中,“动作”带来的“奖励”被极大加速,整个系统变得完全正向。

    上了大学以后,认真学习一个学期,才能有一个好的GPA,这个反馈周期变长了几倍,而且也很少有人因为GPA受到表扬,因此,大多数人坚持不来。取而代之的,很多人习惯考试前1个周开始执行“学习”动作,因为只需要1个周就可以获得相当可观“奖励”,比如及格。所以,想办法减少你的反馈周期,比如,将大目标分解为小目标,会更容易获得成就感。

    2. 增加反馈强化

    我们提到过三种反馈强化模式,那么把“游戏”替换成“学习”,我们要做的是什么呢?可以是考试累计进步10名就请自己吃烧烤,也可以是隔壁班的小爱刮目相看的“SSR”,又或是再看3小时书就去打王者荣耀。

    对应到游戏厂商的三种收益上来,就是提高学习留存率,延长学习时间,增加学习收益。

    3. 调整反馈难度

    斯坦福大学行为科学研究人员曾发表过一篇论文,大意是玩家在高难度游戏获胜的那一刻,大脑多巴胺回路会异常激活。也就是说,适当的高难度游戏,能够最大化地激活反馈回路。这也是各大竞技类游戏排位赛机制的由来,通过匹配不同难度的对手,即不会让你一直输下去,也不会让你永远赢。它们塑造一种“升段”“掉段”的奖励机制,让你的反馈回路一直处于半激活状态。

    在学习中,如何设置难度,需要根据个人情况制定,比如,下一次考试提高10分,和成为班级第一,就是两种不同的难度。难度可以递进,既不要太简单,也不能太难。

    一旦大脑形成了正反馈回路机制,那么尝过一次甜头,食髓知味,你的动力将会更加充足,久而久之,甚至会享受学习这件事情本身,像打王者一样石乐志一般的学习,最终爱上学习。这,就是学霸的诞生规则。

    关于反馈机制,其实还有很多东西可以讲,具体的学习方法也远不止这些,有一种叫做“心流”的东西,是增强学习能力的利器。但是因为时间关系,我不想把文章写的太长。更多的学习方法和强化学习知识,欢迎关注我的下一期文章。

    文章之后会制作成视频发在B站,也谢谢大家的阅读~

     
  • 相关阅读:
    如何:为 Silverlight 客户端生成双工服务
    Microsoft Sync Framework 2.1 软件开发包 (SDK)
    Windows 下的安装phpMoAdmin
    asp.net安全检测工具 Padding Oracle 检测
    HTTP Basic Authentication for RESTFul Service
    Windows系统性能分析
    Windows Server AppFabric Management Pack for Operations Manager 2007
    Mongo Database 性能优化
    服务器未能识别 HTTP 标头 SOAPAction 的值
    TCP WAIT状态及其对繁忙的服务器的影响
  • 原文地址:https://www.cnblogs.com/y1ran/p/12155728.html
Copyright © 2011-2022 走看看