从婴儿学走路说起。经历过婴儿学走路的父母都知道婴儿学走路的时候就是让他不停地走,有时摔倒,有时走得稳些。我们不会指导他该怎么走,甚至不会和他说话,反正他也听不懂。就这样走着走着宝宝突然会走路了。这像极了人工神经网络的学习过程,大量的训练数据,大量试错,自动提取模式。当宝宝长大到4、5岁开始学自行车的时候,学习模式已经和婴儿时有所不同,我们不再满足于让他自由试错,任其跌倒、爬起,而是会通过给宝宝讲骑车的知识帮助他缩短训练过程。比如我们会说“重心再靠前点”。这里“重心”、“靠前”都是我们总结出来的知识,这些知识是如何传授给宝宝的,又是如何帮助宝宝加快学习过程的呢?
关于知识是如何传授给宝宝的我们后面再说,先说说知识是如何加速训练过程的。我们通过“重心再靠前点”这样的知识可以让宝宝减少重心比较靠后的训练状态,也就是说对他的训练数据进行了过滤,或者说剪枝。让他把精力更多地集中到重心靠前的训练数据上去,使他更多地得到成功的训练体验,每次成功的训练体验会使他脑内那些成功模式得到强化,不成功的模式会被慢慢遗忘。但我认为对训练数据进行过滤、剪枝并不是知识加速训练的全部,当知识和训练体验产生了某种模式匹配后,我们会感受到强烈的兴奋或者喜悦,这种强烈的神经反应会加速对成功模式的固化。如果我们只是产生了成功的训练体验但并没有与相关的知识匹配,神经兴奋度是较低的,就需要更多的成功体验才能将成功模式固化。也就是说知识能非常强烈地确认我们的训练是成功的,告诉大脑“就是它了,快点固化它”,在没有相关知识的情况下大脑不太确认这次训练是否真的成功,需要再多一些训练来确认。
现在说说知识是如何传授给宝宝的。像“重心”、围棋中的“势”、“空”这样的知识是怎样传递给其他人的呢?当我们说“势、空”的时候我们会拿一些围棋盘面给别人看,告诉他们这就是势或者空。看到这些盘面,学习者头脑中会出现一组模式,我们不去研究到底是什么样的模式只用代号表示它们,比如这组模式是a、b、c、d、e、f、g。学习者的大脑就将这组模式和势或者空这个概念建立起关联。然后我们给他看另一组盘面,告诉他这也叫势或者空,这时他脑子里出现了新的一组模式a、b、d、e、g、m、n,这些模式中a、b、d、e、g与之前的模式相同,与概念的连接得到加强,c、f、m、n这几个模式前后两次没有匹配上,与概念的连接较弱。经过多次训练大脑就找出了与“势、空”这样的知识点相关度最高的模式,也就实现了知识的学习和传递。
如果上面我们对人脑学习的认识是正确的,那么可以总结出一些对学习有帮助的方法和原则:
1. 大量训练、大量试错
2. 想办法增加训练时的成功体验,减少失败体验。失败体验是无效的,是需要被遗忘的,只会增加训练时间。
3. 通过知识对训练数据进行剪枝、过滤,大幅增加成功的训练体验的概率,并在体验到成功训练时增加神经的确认强度。我们都知道一两次成功的训练体验我们就觉得基本上学会了,比如一两次成功的换气就基本学会了游泳,一两次成功的滑行就基本上学会了滑板。这也是名师出高徒的原因,教得好学得快。
下面是一些零散的想法,随时补充:
深度学习对人类知识的利用基本也是对训练数据进行过滤,或者对训练结果进行判断,但没有人脑这样简单和自动化,需要专业技术人员根据特定应用环境特殊编码。未来能否出现用知识加速训练的通用方案?
现在的深度学习只能提取模式不能提取知识,知识是模式之上的模式,很可能需要意识这样的东西的帮助才能提取。是否将神经网络提取的模式再输入另一个网络,如此迭代、循环就产生了意识?
需要设计一个通用神经网络可以不用在意数据的模式(音频、视频、已经由音频视频提取出的模式再作为数据输入),不用像现在这样为每一种数据源单独设计网络结构。
很多人将人脑的一切特性都归因于训练,比如说人脑可以只看几张图片就学会识别猫,他们会说这是因为人一出生就无时无刻不在训练,只看几张图片就能识别猫是建立在之前的大量训练上的。但是我们都知道小马、小羊一出生很快就能站立走路,跟着妈妈。它们的视觉能力并没有足够的时间来训练。因此我认为人脑的有些能力是一出生就有的,是脑结构所固有的,不需要通过训练产生。比如我们要识别一只猫确实需要训练一下,但我们可以不经训练就能识别出图像里的不同物体,虽然不知道它是什么,但我们知道这是一个独立的物体,那是另一个物体,这种能力我认为是脑结构天生具有的。人工神经网络是否能设计出这种不经训练,内化于结构中的物体识别、分离能力?
人脑经过简单的训练就可以完成对手写数字的识别,而且在完成这个训练后不需要更多的训练就可以识别用细麻绳、粗麻绳绕成的数字,甚至用几个香蕉摆出的数字也能轻松识别。在这个过程中并不是完全的模式提取和匹配,人脑会对输入图像进行很多的脑补工作,如降噪、填充、替换材质、局部变形等等变换,如果经过一系列的变换后输入图形能映射到记忆中的标准数字形状我们就认为识别出了这个数字。想想你识别用麻绳绕成的数字8时是不是这样的过程。我认为对图形的各种变换能力(降噪、填充、替换材质、局部变形等等)也是内置于脑结构中的,并非学习得来。