Game Theory and Multi-agent Reinforcement Learning笔记上

zoukankan html css js c++ java

Game Theory and Multi-agent Reinforcement Learning笔记上
一、引言
- 多智能体强化学习的标准模型：
  
  多智能体产生动作a1，a2.....an联合作用于环境，环境返回当前的状态st和奖励rt。智能体接受到系统的反馈st和ri，根据反馈信息选择下一步的策略。
二、重复博弈
1. 正规形式博弈
- 定义：正规形式的博弈是一个元组(n,A1,...,n,R1,...,n)
  n代表n个参与者
  Ak代表参与者k能够选择的动作
  Rk是参与者k的奖励函数，指定他通过执行动作a∈A1×A2....×An
-纯策略与混合策略：如果动作a ∈ Ak，且σk(a) = 1，而其他所有动作σall-k(a) = 0，则称为全策略。否则称为混合策略。
- 玩家k在策略配置σ下的预期回报：
- 经典的双人博弈：(a)匹配硬币，一种纯粹的竞争(零和)游戏。(b)囚徒困境，一般和博弈。(c)协调博弈，即共同利益(相同收益)博弈。(d)性别博弈，各主体偏好不同的协调博弈)纯纳什均衡用粗体表示。
  
  博弈a：玩家1和玩家2一起抛硬币，若是双方硬币是同一面的，则玩家1获胜，否则玩家2获胜。零和博弈
  博弈b：囚徒博弈，一般和博弈。
  博弈c：一个共同兴趣游戏。在这种情况下，两个玩家在每次联合行动中获得相同的收益。这个游戏的挑战是让玩家协调最优的联合行动。选择错误的联合行动将给出次优收益，而未能协调结果将得到0收益。
  博弈d：性别之战，是另一个协调游戏的例子。然而，在这里，玩家会获得个人奖励，并偏好不同的结果。Agent 1偏好(a1,a1)而Agent 2偏好(a2,a2)除了协调问题之外，玩家现在还必须就哪种优选结果达成一致。
- 3个动作的共同兴趣游戏：(a)攀爬对策(b)惩罚对策，k≤0。这两款游戏都具有共同的兴趣类型。纯纳什均衡用粗体表示。
1. 博弈中的解决方案概念
- 定义：设σ = (σ1,…,σn)是一个策略配置，令表示相同的策略配置，但不包含参与人k的策略σk。如果下列条件成立，则称为参与人k的最佳响应:
- 纳什均衡的定义：（纳什均衡是博弈的核心解决概念）
  如果对于每个玩家k，策略σk是对其他玩家σ−k的策略的最佳响应，则策略轮廓σ=(σ1，...，σn)被称为纳什均衡。
1. 重复博弈中的强化学习
- 遗憾值定义：
  
  其中a(t)表示在t时玩的联合动作，a−k(t)∪{a}表示相同的联合动作，但玩家k选择动作a。
- 梯度上升方法
  线性奖励-处罚：
  
  r(t)为时刻t接收到的反馈，K为自动机可用的动作数。λ1 和λ2 是常数，分别称为奖励和惩罚参数。根据这些参数的值，可以考虑算法的3种不同的变化。当λ1 =λ2，该算法被称为线性奖罚(LR−P)，而当λ1 > >λ2时，称为线性奖励-ε惩罚(LR−εP)。．如果λ2 = 0的算法被称为线性奖励-不作为(LR−I)．
顺序博弈
1. 马尔可夫场
- 定义：马尔可夫对策是一个元组(n,S,A1,...,n, R1,...,nT):
  n 系统中智能体的个数
  S 系统状态的有限集合
  Ak 智能体k的动作集合
  Rk 智能体k的奖励函数
  T 转移函数
  在联合策略下π = (π1,π…n)，agent k的期望折扣报酬的定义如下：
  
  该策略为每一个代理i分配了一个策略πi
  而该联合策略下agent k的平均报酬定义为:
查看全文

相关阅读:
Centos 6下使用cmake编译安装MariaDB
mysql索引
 mysql基础指令知识
 git/github安装与使用教程
 Linux目录结构详解
 static关键字的作用（修饰类、方法、变量、静态块）
Java中重载(overloading)和重写(Overriding)的区别
 @PropertySources和@ImportReSources注解
 @ConfigurationProperties注解和@Value注解的区别
 Java中数组的定义，初始化和使用

原文地址：https://www.cnblogs.com/suancai/p/15392723.html

Game Theory and Multi-agent Reinforcement Learning笔记 上

一、引言

二、重复博弈

顺序博弈

Game Theory and Multi-agent Reinforcement Learning笔记上