1policy Gradient(Review)
三个组件:ActorEnviromentReward
Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward.
2Policy of Actor
policy:π,是带有参数的network
input:机器可以理解的数据,矢量或者矩阵
output:动作的选项,有几个就是有几个neuron.network给这几个动作权值.权值不同,采取的policy就不同.
流程:Actor-->环境--->判断结果采取action,采取Action之后会得到reward