强化学习笔记10：经典游戏示例 classic games

zoukankan html css js c++ java

强化学习笔记10：经典游戏示例 classic games
1、前沿 state of art

学习经典游戏的原因
- 规则简单，细思又很深入
- 历史悠久，已经被研究了几百年
- 对IQ测试有意义
- 是现实世界的问题的缩影
已经有很多RL案例，战胜了人类，例如

2、游戏理论 game theory

游戏的最优性

对于石头剪刀布来说，最优策略，显然和对手agent策略相关，我们期望找到一种一致的策略策略，对所有对手都有效
什么是第i个玩家的最优策略(pi)
- 最佳响应 best response (pi^i_*(pi^{-i})) 是针对其他agent的最优策略
- 纳什平衡点 Nash equilibrium是针对所有对手的联合策略 [
  pi^i = pi^i_*(pi^{-i})]
对于agent来说的最优策略，是一种general 的策略，对大多数情况，都适用一致的策略去action.

单agent 自驱动强化学习
- 最佳响应是单代理RL问题的解决方案
  
  其他玩家变成环境的一部分
  
  将游戏抽象为MDP
  
  最佳策略是最佳响应
- 纳什平衡点在自学习RL问题中是不动点
  
  学习的经验是代理玩游戏产生的
  [a_{1} sim pi^{1}, a_{2} sim pi^{2}, ldots]
  
  每个代理学习针对其他玩家的最佳响应
  
  代理的策略决定了其他代理的环境
  
  所有的代理适应其他代理
二人零和博弈游戏

收益来自其他agent，一方受益，意味着其他亏损

[R^1 + R^2 = 0]

methods for finding 纳什平衡点
- Game tree search （i.e. planning）
- 自驱动RL
perfect and imperfect information games
- 完美信息或者马尔科夫游戏是 完全可观的
  
  象棋
  
  围棋
  
  跳棋
  
  五子棋
- 不完全信息游戏是部分可观的
  
  扑克
  
  拼图
3、最小、最大搜索

introduction
- 价值函数定义了策略(pi)下的价值
  [
  vpi(s) = mathcal E_pi [G_t|S_t= s]]
- 最小、最大化价值函数，是在降低其他代理表现的同时，最大化自己的价值
[
v_{*}(s)=max _{pi^{1}} min _{pi^{2}} v_{pi}(s)
]
- 最小、最大搜索存在纳什平衡点
- 通过深度优先树搜索，找到极值
从下往上找：
一步找max，一步找min
缺点是，运算量指数增长，不能求解整个树的分支
Solution：
- 用值函数估计器，估计叶节点
- 根据节点值，限制搜索深度
Example

二进制线性组合值函数
- 每个状态特征，只有0、1
- 每个特征对应权重 w
- 线性组合
深蓝 Deep blue，并不是真正的学习，手动权重
- 知识 Knowledge
  
  8k个手动特征
  
  二进制线性组合价值函数
  
  人工个调参权重
- 搜索 Search
  
  高性能平行字母搜索
  
  40步预测
  
  每秒
- 结果 Results
  
  击败了世界冠军
Chinook
- 知识 Knowledge
  
  二进制线性组合价值函数
  
  21个经验权重（位置、流动性）
  
  四象限
- 搜索 Search
  
  高性能平行字母搜索
  
  逆向搜索
  
  从赢的位置从后向前搜索
  
  存储所有决胜点位置在 lookup 表中
  
  在最后n步，表现完美
- 结果 Results
  
  击败了世界冠军
4、自驱动强化学习 self-play reinforcement learning

Introduction

应用 Value-based RL，完成游戏自学
- MC 向(G_t)更新
  [Delta mathbf{w}=alphaleft(G_{t}-vleft(S_{t}, mathbf{w} ight) ight) abla_{mathbf{w}} vleft(S_{t}, mathbf{w} ight)]
- TD（0）向(v(s_t +1))更新
  [Delta mathbf{w}=alphaleft(vleft(S_{t+1}, mathbf{w} ight)-vleft(S_{t}, mathbf{w} ight) ight) abla_{mathbf{w}} vleft(S_{t}, mathbf{w} ight)]
- TD（(lambda)）向(lambda)-return (G_t^lambda)更新
  [Delta mathbf{w}=alphaleft(G_{t}^{lambda}-vleft(S_{t}, mathbf{w} ight) ight) abla_{mathbf{w}} vleft(S_{t}, mathbf{w} ight)]
策略提升 Policy improvement

规则的定义决定了后继者的状态 (succ(s,a))

对于确定性的游戏，估计价值函数是足够的
[
q_*(s,a) = v_*(succ(s,a))]

同样采用最小最大优化

[ A_{t}=underset{a}{operatorname{argmax}} v_{*}left(operatorname{succ}left(S_{t}, a ight) ight)
for white\
A_{t}=underset{a}{operatorname{argmin}} v_{*}left(operatorname{succ}left(S_{t}, a ight) ight)
for black]

Self-play TD in Othello： logistello

使用了策略迭代的方法：
- 用2个代理进行对抗
- 用MC 评估策略
- Greedy 策略优化
6：0战胜世界冠军

TD Gammon: 非线性价值函数估计

自学习 TD 在西洋双陆棋 Backgammon
1. 权重随机初始化
2. 自学习训练
3. 使用非线性TD 学习算法
  [egin{aligned}
  delta_{t} &=vleft(S_{t+1}, mathbf{w} ight)-vleft(S_{t}, mathbf{w} ight) \
  Delta mathbf{w} &=alpha delta_{t} abla_{mathbf{w}} vleft(S_{t}, mathbf{w} ight)
  end{aligned}]
4. Greedy 策略优化
TD gammon 的几个层级：
- zero 专家经验
- 人造特征
- n层极小极大搜索
隐藏层个数、训练代数，直接影响模型表现

5、联合强化学习和最大化搜索

简单 TD Simple TD

TD：向继承者的方向更新价值函数

分为两步
- 用TD learning 学习价值函数
- 用价值函数进行最小最大搜索
[v_{+}left(S_{t}, mathbf{w} ight)=operatorname{minimax}_{s in ext {leaves}left(S_{t} ight)} v(s, mathbf{w})]

在有些情景表现优异，有些糟糕

TD root

TD root：从继承者 搜索值更新 价值函数
- 搜索值根据根节点计算得到
  [v_{+}left(S_{t}, mathbf{w} ight)=underset{s in ext { leaves }}{operatorname{minimax}} left(S_{t} ight) v(s, mathbf{w})]
- 从下一个状态的搜索值备份值函数
  [vleft(S_{t}, mathbf{w} ight) leftarrow v_{+}left(S_{t+1}, mathbf{w} ight)=vleft(l_{+}left(S_{t+1} ight), mathbf{w} ight)]
- (I_+(s))是从状态s 进行极小极大搜索后的叶节点值
TD leaf

TD leaf：从继承者的 搜索值 更新 搜索值
- 搜索值由当前和下一个状态计算得到
这个公式无法显示
```
v_{+}left(S_{t}, mathbf{w}
ight)=underset{{s in 	ext { leaves }left(S_{t}
ight)}}{
m{minimax}} v(s, mathbf{w})\
v_{+}left(S_{t+1}, mathbf{w}
ight)=underset{{s in 	ext { leaves }left(S_{t+1}
ight)}}{
m{minimax}} v(s, mathbf{w})
```
MommyTalk1599040691831
- t时刻的搜索值由 t+1时刻的搜索值备份得到
  [
  egin{aligned}
  v_{+}left(S_{t}, mathbf{w} ight) & leftarrow v_{+}left(S_{t+1}, mathbf{w} ight) \
  Longrightarrow vleft(l_{+}left(S_{t} ight), mathbf{w} ight) & leftarrow vleft(l_{+}left(S_{t+1} ight), mathbf{w} ight)
  end{aligned}
  ]
examples：

TD leaf in chess： knightcap
- learning
  
  训练专家对手
  
  使用TD leaf 学习权重
- 搜索
  
  alpha-beta search
- Results
  
  master level 完成少数的游戏之后
  
  不够高效 in 自学习
  
  不够高效，受初始权重影响较大
TD leaf in Checkers： Chinook
- 初始的chinook采用手动调优的权重
- 后来的版本自训练
- 采用Td leaf 调整权重
  
  固定了专家
- 自学习权重的表现＞人工调优权重的表现
- 超过人类水平
TreeStrap
- TreeStrap：用深层的搜索值 更新浅层的 搜索值
- 在所有节点计算极小、极大搜索
- 价值从搜索值备份得到，在同一个step，对所有节点
[egin{aligned}
vleft(s, mathbf{w} ight) & leftarrow v_{+}left(s, mathbf{w} ight) \
Longrightarrow vleft( s, mathbf{w} ight) & leftarrow vleft(l_{+}left(s ight), mathbf{w} ight)
end{aligned}]

Treestrap in chess ：meep
- 2k个特征，二进制线性组合价值函数
- 随机初始权重
- 权重调节方式：Treestrap
- 自驱动学习过程表现高效：利用率高
- 随机权重情况下表现良好
Simulation-based Search
- 自驱动RL 可以替代搜索
- 基于仿真的游戏从根节点 (s_t)开始
- 应用RL 到仿真经验
  
  MC control (Rightarrow) MC tree search
  
  最高效的变体算法是 UCT 算法
  
  使用置信上界UCB 来平衡探索和利用
  
  自驱动 UCT 收敛于极小极大价值函数
  
  在完美信息游戏、不完美信息游戏均表现良好
MCTS蒙特卡洛树搜索表现in games

简单蒙特卡洛搜索 in Maven（拼字游戏）
- 学习价值函数
  
  二进制价值函数
  
  MC policy iteration
- 搜索价值函数，
  
  搜索n步
  
  使用学到的价值函数评价当前状态
  
  x
  
  选择高分动作
  
  特定的endgame 用(B^*)
6、在非完整信息中的强化学习

Game tree search 在不完美信息游戏中

真实的状态可能共享相同的信息状态空间

Solution：
- Iterative forward-search mehtods
  
  e.g. 反事实的后悔值最小化
- 自驱动RL
- e.g. smooth UCT
Smooth UCT search
- 应用 MCTS 到信息状态游戏树
- UCT的变种，由博弈论的虚拟play启发
  
  代理agent根据对手的平均行为作出动作并学习
- 从节点的动作计数中提取平均策略
  [pi_{a v g}(a mid s)=frac{N(s, a)}{N(s)}]
- 对每个节点，根据UCT概率选择动作
  [A simleft{egin{array}{ll}
  ext { UCT }(S), & ext { with probability } eta \
  pi_{ ext {avg}}(cdot mid S), & ext { with probability } 1-eta
  end{array} ight.]
- 经验
  
  Naive MCTS 发散
  
  Smooth UCT 收敛到纳什平衡点
7、结论
查看全文

相关阅读:
vc 获得文件相对路径
 C#关闭MessageBox消息框(转)
ip地址及地理位置查询
 WinDbg关联dump文件
 国外程序员推荐：每个程序员都应读的书
 [转]史上最全的C位域总结201036 2:58:00
android 屏幕保持唤醒不锁屏
 [转]win7如何共享
 一些DirectUI方面的资料
 计算器程序，可以计算正实数范围内的任何数据的加减乘除括号，混合运算