RL Algorithm Components

zoukankan html css js c++ java

RL Algorithm Components
RL Algorithm Components

通常包括一个或者更多：
- Model(模型): world对agent的动作如何改变的一种表示(representation)
- Policy(策略): 映射agent的state到动作的函数
- Value function(价值函数): 遵循一个policy处于一个状态/执行一个动作之后的未来奖励
Model

模型是Agent的world如何对其动作产生回应的表示(what happens in the world as it takes its action and what reward it might get)。

Transition/dynamics(变迁/动态)模型预测下一个agent的state
$p(s_{t+1}=s'|s_t=s,a_t=1)$

Reward模型预测即时奖励：
$r(s_t=s,a_t=a)=mathbb{E}[r_t|s_t=s,a_t=t]$

Policy

策略 $π$ 决定agent如何选择动作
$π : S \to A$ ，映射states到actions
确定性策略(Deterministic policy):
$π (s) = a$
随机性策略(Stochastic policy):
$pi(a|s)=Pr(a_t=a|s_t=s)$

Value

价值函数 $V^{pi}$ : 在一个特定策略 $π$ 下所有未来的打折奖励总和的期望。
$V^{pi}(s_t=s)=mathbb{E}_{pi}[r_t+gamma r_{t+1}+gamma^2r_{t+2}+gamma^3r_{t+3}+...+|s_t=s]$

折扣因子(Discount factor) $γ$ (between 0 and 1)加权了即时奖励和未来奖励(weighted by how much I care about immediate versus long term rewards)。

可以被用于量化状态和动作的好坏程度。

通过比较不同的策略决定如何行动。

RL Agents

基于模型的(Model-based)
```
- 显式：模型
- 可能有也可能没有策略和/或价值函数
```
不基于模型的(Model-free)
```
-显式：价值函数和/或策略函数
-没有模型
```
Key Challenges in Learning to Male Sequences of Good decisions

下面是在对比规划和强化学习:

规划(planning)(Agent的内部计算)
- 给定模型world怎样运作
  动态和奖励模型
- 算法计算如何行动以取得最大奖励期望
  和实际环境没有交互
Reinforcement Learning
- Agent不知道world怎样运作
- 显式或者隐式地和world交互以学习world如何运作
- Agent会改进策略(可能包含规划过程)
查看全文

相关阅读:
Windows10右键添加“在此处打开命令窗口"
赋值简单理解
 应用 EditPlus 配置 Java 编译环境
 进程和线程的区别
 Java栈与堆
 进程与线程的简单解释
 java的多态性（二）
内部类详解（很详细）
java的super和this关键字用法总结
 Java类成员(成员变量和方法)的覆盖与隐藏归纳

原文地址：https://www.cnblogs.com/wanghongze95/p/13842465.html

RL Algorithm Components

RL Algorithm Components

Model

Policy

Value

RL Agents

Key Challenges in Learning to Male Sequences of Good decisions