zoukankan      html  css  js  c++  java
  • 《机器学习》(西瓜书)笔记(5-2)--神经网络

    第五章    神经网络
    5.4    全局最小与局部极小
     
     
     
    5.5    其他常见神经网络
    RBF(Radial Basis Function,径向基函数)网络
    是一种单隐层前馈神经网络,使用径向基函数作为隐层神经元激活函数,而输出层则是对隐层神经元输出的线性组合。
     
    假定输入为 d 维向量 x ,输出为实值,则RBF网络可表示为:
     
    ART网络
    竞争性学习(competitive learning)是神经网络中一种常用的无监督学习策略——网络的输出神经元相互竞争,每一时刻仅有一个竞争获胜的神经元被激活,其他神经元的状态被抑制。这种机制亦称“胜者通吃”(winner-take-all)原则。
     
    ART(Adaptive Resonance Theory,自适应谐振理论)网络是竞争型学习的重要代表。该网络由比较层、识别层、识别阈值和重置模块构成。
    比较层负责接收输入样本,并将其传递给识别层神经元。
    识别层每个神经元对应一个模式类,神经元数目可在训练过程中动态增长以增加新的模式类。
     
    1. 在接收到比较层的输入信号后,识别层神经元之间相互竞争以产生获胜神经元。竞争的最简单方式是,计算输入向量与每个识别层神经元所对应的模式类的代表向量之间的距离,距离最小者胜。
    2. 获胜神经元将向其他识别层神经元发送信号,抑制其激活。
    3. 若输入向量与获胜神经元所对应的代表向量之间的相似度大于识别阈值,则当前输入样本将被归为该代表向量所属类别,同时,网络连接权将会更新,使得以后在接收到相似输入样本时该模式类会计算出更大的相似度,从而使该获胜神经元有更大可能获胜;
    4. 若相似度不大于识别阈值,则重置模块将在识别层增设一个新的神经元,其代表向量就设置为当前输入向量。
     
    可塑性(plasticity):神经网络学习新知识的能力
    稳定性(stability:神经网络在学习新知识时要保持对旧知识的记忆
    稳定性-可塑性窘境(stability-plasticity dilemma
     
    ART网络的重要优点:可进行增量学习(incremental learning)
    增量学习是指在学得模型后,再接受到训练样例时,仅需根据新样例对模型进行更新,不必重新训练整个模型,而且先前学得的有效信息不会被冲掉。
     
     
    SOM网络
    SOM(Self-Organizing Map,自组织映射)网络是一种竞争学习型的无监督神经网络,它能将高维输入数据映射到低维空间(通常为二维),同事保持输入数据在高维空间的拓扑结构,即将高维空间中相似的样本点映射到网络输出层中的邻近神经元。
     SOM的训练目标就是为每个输出层神经元找到合适的权向量,以达到保持拓扑结构的目的。
     
    SOM训练过程:
    1. 在接收到一个训练样本后,每个输出层神经元会计算该样本与自身携带的权向量之间的距离,距离最近的神经元成为竞争获胜者,称为最佳匹配单元(best matching unit)
    2. 最佳匹配单元及其邻近神经元的权向量被调整,以使得这些权向量与当前输入样本的距离缩小。这个过程不断迭代,直至收敛。
     
     
    级联相关网络
    结构自适应网络将网络结构也当做学习的目标之一,并希望能在训练过程中找到最符合数据特点的网络结构。
     
    级联相关(Cascade-Correlation)网络是结构自适应网络的重要代表。
    级联:指建立层次连接的层级结构。
    相关:指最大化新神经元的输出与网络误差之间的相关性来训练相关的参数。
     
    优点
    级联相关网络无需设置网络层数、隐层神经元数目,且训练速度较快。
    缺点
    在数据较小时易陷入过拟合。
     
     
    Elman网络
    递归神经网络(recurrent neural networks)允许网络中出现环形结构,从而可让一些神经元的输出反馈回来作为输入信号。
     
    Elman网络是最常用的递归神经网络之一。
     
     
    Boltzmann机
    Boltzmann机是一种基于能量的模型——为网络状态定义一个能量,能量最小化时网络达到理想状态,网络的训练就是在最小化这个能量函数。
     
    Boltzmann机的神经元分为两层:显层和隐层。
    显层用于数据的输入和输出;
    隐层被理解为数据的内在表达。
     

    若网络中的神经元以任意不依赖于输入值的顺序进行更新,则网络最终将达到Boltzmann分布,此时状态向量 s 出现的概率将仅由其能量与所有可能状态向量的能量确定:

     
     
    受限的Boltzmann机
     
     
    5.6    深度学习
    无监督逐层训练(unsupervised layer-wise training)是多隐层网络训练的有效手段。
    其基本思想是:
    1. 每次训练一层隐结点,训练时将上一隐层结点的输出作为输入,而本层隐结点的输出作为下一层隐结点的输入,这称为预训练(pre-training)
    2. 在预训练全部完成后,再对整个网络进行微调(fine-tuning)训练
     
    预训练+微调的做法可视为将大量参数分组,对每组先找到局部看来比较好的设置,然后再基于这些局部较优的结果联合起来进行全局寻优。这样就在利用了模型大量参数所提供的自由度的同时,有效的节省了训练开销。
     
    另一种节省训练开销的策略是权共享(weight sharing),即让一组神经元使用相同的连接权。这个策略在卷积神经网络(Convolutional Neural Network)中发挥了重要作用。
     特征学习
     
     
  • 相关阅读:
    种子销售管理需求
    三角函数
    软件人性化的体现
    三角函数
    ProductManager
    不能说的秘密
    种子销售管理需求
    JTable使用
    不能说的秘密
    设计模式(了解篇)转载
  • 原文地址:https://www.cnblogs.com/lyu0709/p/7240552.html
Copyright © 2011-2022 走看看