课程学习心得
经过这几周对机器学习的学习,了解了很多基础的概念,对模式识别有了一个整体上的认识。其实整体上的思路很简单,就是将待判别的目标抽取特征,使用训练好的模型得出结果。
对于特征抽取课程并没有深入介绍,只有介绍了一些粗略的原则。重点主要在模型的确定上。
模型介绍了基于距离和基于概率的模型。基于距离的介绍了欧式距离和马氏距离,一步步分析了不足,体现了数学的思想和线性代数的重要性。
基于概率的模型核心在于贝叶斯公式和全概率公式,采用后验概率最大的做决策。而后验概率又需要先验概率,观测概率和边缘概率,对于概率的模型主要是正态分布。为了求后验概率,有时并非先验概率这些都已经,我们需要使用一些数学上的方法去估计它,主要是已知分布的极大似然和贝叶斯估计和未知分布的KNN估计、直方图和核密度估计。
将脉络梳理后其实机器学习并非太难,本质上就是提出问题,然后利用数学来解决问题,反应了数学的重要性和探索的过程。
人工智能领域的前沿技术——深度强化学习
基本概念
强 化 学 习 (Reinforcement Learning, RL)作为机器学习领域另一个研究热点,已经广泛应用于工业制造、仿真模拟、机器人控制、优化与调度、游戏博弈等领域.RL的基本思想是通过最大化智能体(agent) 从环境中获得的累计奖赏值,以学习到完成目标的最优策略。因此 RL 方法更加侧重于学习解决问题的策略,被认为是迈向通用人工智能(Artificial General Intelligence, AGI)的重要途径。
研究前沿
分层深度强化学习:利用分层强化学习(Hierarchical Reinforcement Learning,HRL)将最终目标分解为多个子任务来学习层次化的策略,并通过组合多个子任务的策略形成有效的全局策略。
多任务迁移深度强化学习:在传统 DRL 方法中, 每个训练完成后的 agent只能解决单一任务. 然而在一些复杂的现实场景中,需要 agent 能够同时处理多个任务,此时多任务学习和迁移学习就显得异常重要.Wang 等人总结出 RL 中的迁移分为两大类:行为上的迁移和知识上的迁移,这两大类迁移也被广泛应用于多任务 DRL 算法中。
多 agent 深度强化学习:在面对一些真实场景下的复杂决策问题时,单agent 系统的决策能力是远远不够的.例如在拥有多玩家的 Atari 2600 游戏中, 要求多个决策者之间存在相互合作或竞争的关系. 因此在特定的情形下,需要将 DRL 模型扩展为多个 agent 之间相互合作、通信及竞争的多 agent 系统。
基于记忆与推理的深度强化学习:在解决一些高层次的 DRL 任务时, agent 不仅需要很强的感知能力,也需要具备一定的记忆与推理能力,才能学习到有效的决策. 因此赋予现有 DRL 模型主动记忆与推理的能力就显得十分重要。
深度强化学习的应用
在 DRL 发展的最初阶段, DQN 算法主要被应用于 Atari 2600 平台中的各类 2D 视频游戏中. 随后,研究人员分别从算法和模型两方面对 DQN 进行了改进,使得 agent 在 Atari 2600 游戏中的平均得分提高了 300%,并在模型中加入记忆和推理模块,成功地将 DRL 应用场景拓宽到 3D 场景下的复杂任务中. AlphaGo 围棋算法结合深度神经网络和MCTS,成功地击败了围棋世界冠军. 此外, DRL在机器人控制、计算机视觉、自然语言处理和医疗等领域的应用也都取得了一定的成功。
我们国家人工智能领域的先进和不足
我国在深度学习、识别技术等领域实力突出,在人工智能市场应用层面走在世界前列。但在基础技术、产业链跨界协同、核心人才培养方面则存有短板。
人工智能研究可以分为基础层、技术层、应用层,美国在技术难度大、技术带动效应强的基础层方面,不断取得研究以及实践进展;而中国在基础层方面能力稍弱,在技术层和应用层发力更多。基础层主要指处理器、芯片等支撑人工智能技术的核心能力;技术层包括自然语言处理、计算机视觉、技术平台等通用技术;应用层是指自动驾驶、智能机器人等实际应用主体。
从事计算机视觉识别的中国公司“旷视科技”品牌与市场中心总经理谢忆楠表示,在图像识别领域,公司同时应用英伟达和英特尔的芯片,目前还没有国产芯片能够完全取而代之。英特尔中国研究院院长宋继强也承认,我国人工智能领域不足之处在于我们原创理论创新、基础人工智能研发能力还不太够。中国学者需要在理论上有所突破。地平线机器人技术创始人余凯表示,在PC电脑与移动互联网时代,我们都错失了如操作系统等基础平台性技术,人工智能时代需要迎头赶上。