zoukankan      html  css  js  c++  java
  • 强化学习:matlab官方文件理解(无代码)

                                      1.强化学习与传统控制流程对比

    传统控制流程:
    强化学习流程:
    reference:控制量(一般是根据某个性能指标进行控制:比如滑移率)。
    Part of reward function and observations:部分R、部分S,输入Agent( Agent = RL algorithm+policy)
    controller:采用某种控制算法对reference的量进行控制,使之收敛(经典控制理论PID/现代控制理论(State Space Model)/MPC/智能控制算法)。
    Policy:策略,是强化学习算法中每一步迭代更新的输出量。
    Actuator commands:(控制器发出的)控制量(比如制动力矩)。
    Actions:Agent的输出,作用于Environment。注意Action是具体的动作,决策a=Π(s)或Π(a|s)是指在某个状态下做什么样的动作,这两个是有区别的。
    plant:实体/执行器。
    Environment:属于环境的一部分。
    State feedback:反馈信号,构成闭环控制。
    Observation:可观测的状态变量S。

                                 2.强化学习5个步骤

    Step1:创建环境,这个环境能够给出奖励R和状态变量S
    Step2:设计奖励函数Reward(根据所研究的问题设计奖励项与惩罚项)
    Step3:设计策略(?)
    Step4:选择一种优化算法,对模型进行训练,迭代得到最优值
    Step5:具体应用于某个问题

                        3.强化学习的"环境"概念理解

             4. 强化学习“代理”和“环境”的输入输出关系

    问题:
    1.强化学习=> 马尔可夫决策:满足马尔科夫假设,给时序数据给定了一定假设,随机变量的时序性,那么价值函数中包含时间信息,回溯图可以体现时间,那马尔科夫决策过程示意图可以体现时间么,还是说时间在价值函数和回报中体现了?
    2.Reward如何设定? 越接近你想要的目标,奖励越高;越远离目标,惩罚越高。
    3.强化学习就是“寻找最优决策”的过程。通过寻找 最优状态/状态动作价值函数,得到Π*,本质是一个最优化问题。
    Π*=argmaxQΠ(s,a)。
    迭代求解Π,直到Π收敛,得到最好的价值函数,也是最好的决策Π。
    4.matlab,simulink, reinforcement learning toolbox
    5.实际用强化学习/HMM/GMM/贝叶斯网络/深度神经网络解决一个问题。

    参考资料:
    1.Matlab 官方指导reinforcement learning toolbox: https://ww2.mathworks.cn/products/reinforcement-learning.html
    2.
    https://www.cnblogs.com/dingdangsunny/p/12559616.html#_label1_1

  • 相关阅读:
    Linux中more命令的实现
    hdu1392 Surround the Trees 凸包
    陈耀烨必将开启属于自己的围棋时代
    此文胜过听三年的培训课
    [置顶] 【持续更新中】推荐工具包
    【读书笔记】《未来闪影》罗伯特·J·索耶
    Redis util
    591
    多线程
    [Usaco2008 Feb]Meteor Shower流星雨
  • 原文地址:https://www.cnblogs.com/feynmania/p/13392384.html
Copyright © 2011-2022 走看看