“深度学习”是人工智能的一场革命吗?
昨天《纽约时报》的头版把深度学习deep learning称为人工智能革命性的一种新技术?有理由让我们对深入学习进一步深入了解,作为一个复杂的“机器学习”的算法,在识别音频和图像准确率上,远远超过先前的技术。但也有充分的理由来怀疑这一观点。虽然《纽约时报》报道说,“深度学习让机器执行人类的活动,如看、听和思考,可以模式识别提供了可能性,促进了人工智能技术的进步。”深度学习让我们向真正的智能机时代的迈进,也只是一小步。与即时实际应用相结合,深度学习是很重要的工作。但它不是象《纽约时报》的头版所暗示那么惊人。
深入学习根源于传统的“神经网络”,“神经网络”可以追溯到20世纪五十年代后期。当时,弗兰克·罗森布拉特试图建立一种类似机械大脑的感知器,可以“感知,识别,记忆,像人的思维做出响应的机器”。在一定范围内这个系统能够识别一些基本的形状,如三角形和正方形。人们对它的潜力寄予厚望,甚至“New Yorker”宣称这种“这个卓越的机器能够思考。”
但是测验最终以失败告终,一本写于1969年由马文·明斯基和他的合作者西摩帕尔特一本书指出,罗森布拉特设计的原系统是非常有限制的,从字面上盲目进行一些简单的逻辑功能如“异或”(比如说你可以拥有蛋糕或馅饼,但不能同时兼有)。众所周知,“神经网络”的魅力很快消失了。
然而,在上世纪八十年代中期,当卡内基-梅隆大学的年轻教授杰夫·欣顿帮助构建更复杂的虚拟神经元网络,可以规避一些明斯基指出的难点,罗森布拉特的又一个想法再度出现。韩丁引入一个“隐藏层”的概念,“隐藏层”神经元允许新一代网络有更复杂的学习功能(原始感知器无法处理的类似的异或功能)。然而新的模型也有严重的问题。训练时间长,学习缓慢,效率低下,就像史蒂文·平克和我指出的,不能像孩子一样掌握一些基本的东西,比如学习规则动词的过去式。由19世纪九十年代晚期,神经网络又开始失宠。
然而,欣顿坚持不懈,在2006年做出了重大改进,提出深度学习,这个概念延续了我的同事Yann LeCu早期提出的重要概念,这个技术仍然谷歌,微软,和其他地方有所应用。一个典型的设置是这样的:一台电脑面临着一个大的数据集,需要对这些数据进行分类,有点像没有没有具体指令的情况下让孩子对玩具进行分类。孩子可能对它们的颜色,形状或功能,或其他的方面进行分类。机器学习者尝试这样做,例如数以百万计的手写体进行大规模学习,把这些手写体数据相互对比,相似性的基础上对他们“聚类”。深度学习的重要创新在于建立模型逐步学习,试图确定下来低层次的分类(如字母),然后再尝试学习更高级别的分类(如词)。
深入学习擅长于这类问题,被称为无监督学习。在某些情况下,它的性能远远好过以前的技术。例如,它可以在一个新的语言对音节的学习识别优于早期的系统。但它仍然不够好,当分类可能性的集合很大的情况下,在对象识别或分类情况下就显得捉襟见肘了。大家常用的的谷歌系统,例如图像中识别猫,准确率比先前技术提高约70%。但它仍可以识别训练集不足六分之一的图像,但是当图像旋转或图像中的元素进行左右移动,给出的结果会更糟。
实际上,深入学习只是建设智能机器所面临的巨大挑战其中的一部分。这样的技术缺乏因果关系的表示方法(如疾病及其症状之间的因果关系),可能面临获得抽象的概念的挑战,如“兄弟姐妹关系”或“共同指代”。他们没有明了的方式进行逻辑推理,和在整合抽象知识方面还有很长的路要走,如信息的对象是什么,信息归什么类,以及如何使用信息。最强大的AI系统比如Watson 在“Jeopardy”中击败人类,其中深入学习技术,只是作为非常复杂的合奏技术中的一个元素,包括从贝叶斯推理的统计技术进行演绎推理。
8月,我与谷歌研究总监彼得·诺维格交流,并问他类似深入学习的技术是否能解决复杂的有人类智能特征的任务,比如理解故事,这是诺维格在19世纪八十年代所作的工作。然后,Norvig针对以前让机器理解故事的工作写了一个优秀的综述,并完全赞同基于“symbol-manipulation”的分类技术。Norvig的研究小组现在正和Hinton合作,Norvig显然对Hinton将要提出的观点很感兴趣。但是,即使Norvig还不明白如何建立一个机器,可以单独使用深入学习来理解故事。
套用一个古老的寓言,Hinton已建立了一个很好的梯子,但这个梯子并不一定能带你到月球。
纽约大学心理学教授加里·马库斯,著有“Guitar Zero: The Science of Becoming Musical at Any Age” 和 “Kluge: The Haphazard Evolution of The Human Mind.”