李弘毅的强化学习 - 走看看

zoukankan html css js c++ java

李弘毅的强化学习

1policy Gradient(Review)

　　三个组件:ActorEnviromentReward

　　Enviromwnt和Reward开始之前就已经存在,能调整的就是Actor的策略,如何是Actor的策略可以得到最大的Reward.

2Policy of Actor

　　policy:π,是带有参数的network

　　input:机器可以理解的数据,矢量或者矩阵

　　output:动作的选项,有几个就是有几个neuron.network给这几个动作权值.权值不同,采取的policy就不同.

　　流程:Actor-->环境--->判断结果采取action,采取Action之后会得到reward

查看全文

相关阅读:
数据挖掘入门系列教程（九）之基于sklearn的SVM使用
 问题_001_Vivian
TypeScript学习笔记（五）
TypeScript学习笔记（四）
TypeScript学习笔记（三）
TypeScript学习笔记（二）
TypeScript学习笔记（一）
使用Visual Studio Code开发Asp.Net Core WebApi学习笔记（十）-- 发布(Windows)
使用Visual Studio Code开发Asp.Net Core WebApi学习笔记（九）-- 单元测试
 使用Visual Studio Code开发Asp.Net Core WebApi学习笔记（八）-- 多环境开发

原文地址：https://www.cnblogs.com/smartmsl/p/10992342.html

Copyright © 2011-2022 走看看