zoukankan      html  css  js  c++  java
  • 强化学习:matlab官方文件理解(无代码)

                                      1.强化学习与传统控制流程对比

    传统控制流程:
    强化学习流程:
    reference:控制量(一般是根据某个性能指标进行控制:比如滑移率)。
    Part of reward function and observations:部分R、部分S,输入Agent( Agent = RL algorithm+policy)
    controller:采用某种控制算法对reference的量进行控制,使之收敛(经典控制理论PID/现代控制理论(State Space Model)/MPC/智能控制算法)。
    Policy:策略,是强化学习算法中每一步迭代更新的输出量。
    Actuator commands:(控制器发出的)控制量(比如制动力矩)。
    Actions:Agent的输出,作用于Environment。注意Action是具体的动作,决策a=Π(s)或Π(a|s)是指在某个状态下做什么样的动作,这两个是有区别的。
    plant:实体/执行器。
    Environment:属于环境的一部分。
    State feedback:反馈信号,构成闭环控制。
    Observation:可观测的状态变量S。

                                 2.强化学习5个步骤

    Step1:创建环境,这个环境能够给出奖励R和状态变量S
    Step2:设计奖励函数Reward(根据所研究的问题设计奖励项与惩罚项)
    Step3:设计策略(?)
    Step4:选择一种优化算法,对模型进行训练,迭代得到最优值
    Step5:具体应用于某个问题

                        3.强化学习的"环境"概念理解

             4. 强化学习“代理”和“环境”的输入输出关系

    问题:
    1.强化学习=> 马尔可夫决策:满足马尔科夫假设,给时序数据给定了一定假设,随机变量的时序性,那么价值函数中包含时间信息,回溯图可以体现时间,那马尔科夫决策过程示意图可以体现时间么,还是说时间在价值函数和回报中体现了?
    2.Reward如何设定? 越接近你想要的目标,奖励越高;越远离目标,惩罚越高。
    3.强化学习就是“寻找最优决策”的过程。通过寻找 最优状态/状态动作价值函数,得到Π*,本质是一个最优化问题。
    Π*=argmaxQΠ(s,a)。
    迭代求解Π,直到Π收敛,得到最好的价值函数,也是最好的决策Π。
    4.matlab,simulink, reinforcement learning toolbox
    5.实际用强化学习/HMM/GMM/贝叶斯网络/深度神经网络解决一个问题。

    参考资料:
    1.Matlab 官方指导reinforcement learning toolbox: https://ww2.mathworks.cn/products/reinforcement-learning.html
    2.
    https://www.cnblogs.com/dingdangsunny/p/12559616.html#_label1_1

  • 相关阅读:
    go函数
    Linux 查看磁盘容量、查找大文件、查找大目录
    五分钟理解一致性哈希算法(consistent hashing)
    使用Java实现三个线程交替打印0-74
    Python实现IOC控制反转
    Wannafly挑战赛5 A珂朵莉与宇宙 前缀和+枚举平方数
    Yandex Big Data Essentials Week1 Scaling Distributed File System
    Yandex Big Data Essentials Week1 Unix Command Line Interface Processes managing
    Yandex Big Data Essentials Week1 Unix Command Line Interface File Content exploration
    Yandex Big Data Essentials Week1 Unix Command Line Interface File System exploration
  • 原文地址:https://www.cnblogs.com/feynmania/p/13392384.html
Copyright © 2011-2022 走看看