强化学习：matlab官方文件理解（无代码）

zoukankan html css js c++ java

强化学习：matlab官方文件理解（无代码）

1.强化学习与传统控制流程对比

传统控制流程：
强化学习流程：
reference：控制量(一般是根据某个性能指标进行控制：比如滑移率)。
Part of reward function and observations：部分R、部分S，输入Agent( Agent = RL algorithm+policy)
controller：采用某种控制算法对reference的量进行控制，使之收敛（经典控制理论PID/现代控制理论(State Space Model)/MPC/智能控制算法）。
Policy：策略，是强化学习算法中每一步迭代更新的输出量。
Actuator commands：（控制器发出的）控制量（比如制动力矩）。
Actions：Agent的输出，作用于Environment。注意Action是具体的动作，决策a=Π(s)或Π(a|s)是指在某个状态下做什么样的动作，这两个是有区别的。
plant：实体/执行器。
Environment：属于环境的一部分。
State feedback：反馈信号，构成闭环控制。
Observation：可观测的状态变量S。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　2.强化学习5个步骤

Step1：创建环境，这个环境能够给出奖励R和状态变量S
Step2：设计奖励函数Reward（根据所研究的问题设计奖励项与惩罚项）
Step3：设计策略（？）
Step4：选择一种优化算法，对模型进行训练，迭代得到最优值
Step5：具体应用于某个问题

3.强化学习的"环境"概念理解

4. 强化学习“代理”和“环境”的输入输出关系

问题：
1.强化学习=> 马尔可夫决策：满足马尔科夫假设，给时序数据给定了一定假设，随机变量的时序性，那么价值函数中包含时间信息，回溯图可以体现时间，那马尔科夫决策过程示意图可以体现时间么，还是说时间在价值函数和回报中体现了？
2.Reward如何设定？越接近你想要的目标，奖励越高；越远离目标，惩罚越高。
3.强化学习就是“寻找最优决策”的过程。通过寻找最优状态/状态动作价值函数，得到Π*，本质是一个最优化问题。
Π*=argmaxQΠ(s,a)。
迭代求解Π，直到Π收敛，得到最好的价值函数，也是最好的决策Π。
4.matlab，simulink, reinforcement learning toolbox
5.实际用强化学习/HMM/GMM/贝叶斯网络/深度神经网络解决一个问题。

参考资料：
1.Matlab 官方指导reinforcement learning toolbox:https://ww2.mathworks.cn/products/reinforcement-learning.html
2.
https://www.cnblogs.com/dingdangsunny/p/12559616.html#_label1_1

查看全文

相关阅读:
征战蓝桥 —— 2013年第四届 —— C/C++A组第7题——错误票据
 征战蓝桥 —— 2013年第四届 —— C/C++A组第5题——前缀判断
 征战蓝桥 —— 2013年第四届 —— C/C++A组第5题——前缀判断
 征战蓝桥 —— 2013年第四届 —— C/C++A组第5题——前缀判断
 征战蓝桥 —— 2013年第四届 —— C/C++A组第4题——颠倒的价牌
 征战蓝桥 —— 2013年第四届 —— C/C++A组第4题——颠倒的价牌
 征战蓝桥 —— 2013年第四届 —— C/C++A组第4题——颠倒的价牌
 单例模式中的多线程安全问题分析
 单例模式中的多线程安全问题分析
 每个程序员都应该警惕的文件上传漏洞！！

原文地址：https://www.cnblogs.com/feynmania/p/13392384.html