Policy Gradients - 走看看

zoukankan html css js c++ java

Policy Gradients
这篇博客只是为了自己记录，思路比较跳跃。

Policy Gradients

不估计局面的价值，转而预测选取每个动作的概率。因为某些游戏中我们可能会需要在相同的状态下做出随机行为，比如说某些资源有限的游戏，我们不可能一直在某一个地方一直获取资源。

更新函数是( heta_{t+1}= heta_t + alpha cfrac{partial J}{partial heta})，其中(J( heta))是对当前参数产生的策略的评价，越高越好。

(J( heta))中，( heta)的影响来自于两方面，一是在特定状态下的行为选择，二是这个策略到每个状态的概率。行为选择的偏导比较好考虑，然而行为造成的“某些高价值的状态没有到达”这件事情的偏导就没有那么形象了。

我们把策略对可能到达状态的影响浓缩在了一个(mu (x))里，表示在该策略下到达(x)的概率。

最后关于这个梯度的计算，我自己有一些想法：
- 一是通过蒙特卡洛估计，即使状态量巨大或者无限，状态的密度分布依然会把我们带到密度大的状态，我们的(q)值也是策略下的(q)值，没有统计到的密度小的状态价值再高也会被密度冲淡，影响不大。
- 二是通过Q-learning or DQN来估计(q)值，两个算法相互迭代。
查看全文

相关阅读:
linux安装mongo-c-driver
DPDK在虚拟机上运行时，报错: Ethdev port_id=0 requested Rx offloads 0xe doesn't match Rx offloads capabilities 0x82a1d in rte_eth_dev_configure()
用python写xml文件
 openvas在centos中扫描单项的python实现
 ARP协议的报文格式
 python装饰器使用
 openvas漏洞扫描：使用openvas时扫描漏洞时，报告中显示的数据与数据库数据不同
 单链表实现一元多项式乘法与加法运算（C语言）
Java学习笔记DayN Java高级特性概况
 Java学习笔记Day5 集合

原文地址：https://www.cnblogs.com/LincHpins/p/10545122.html

Copyright © 2011-2022 走看看