解读gym中的action_space和observation_space

zoukankan html css js c++ java

解读gym中的action_space和observation_space
做强化学习的相关任务时通常需要获取action和observation的数目，但是单智能体和多智能体环境下的action_space等其实是不同的。

先看单智能体环境，
```
print(env.action_space)
print(env.observation_space)
```
打印相关的space，输出如下：
```
Discrete(19)
Box(115,)
```
其中Discrete(19)是action_space，19代表有19个action，它其实是一个类，并且继承一个Space类，所以不可能用n_actions=env.action_space[0]这样类似数组的手段来得到action的个数，同理observation也是，一般获取action和observation个数如下：
```
n_actions=env.action_space.n #19
n_observations=env.observation_space.shape[0] #115
```
这样就能得到action个数为19，observation为115。
而对于多智能体的相关space如下：
```
MultiDiscrete([19 19 19])
Box(3, 115)
```
其中MultiDiscrete([19 19 19])代表的是action_space，它不能再像单智能体那样n_actions=env.action_space.n来获取action个数，因为MultiDiscrete([19 19 19])这个类没有n这个属性，此外我们需要从这两个space中得到智能体的个数，针对action_space，其实可以用.nvec属性将MultiDiscrete转为数组：
```
sa_size=[]
for acsp in env.action_space.nvec:
	sa_size.append((env.observation_space.shape[1], acsp))

print(sa_size)
n_agents=len(sa_size)
```
将所有的action和observation个数写到sa_size列表中就行。
如何写一个通用的呢？可以使用env.action_space.shape这个变量来判断，在单智能体该变量为空，如下：
```
sa_size=[]
if env.action_space.shape:
    for acsp in env.action_space.nvec:
        sa_size.append((env.observation_space.shape[1], acsp))
else:
    sa_size.append((env.observation_space.shape[0], env.action_space.n))

print(sa_size)
```
查看全文

相关阅读:
年纪大了，要学会控制自己的欲望
 java为什么要用类型擦除实现泛型？--c++，java，c# 的泛型是如何实现的
 面向对象：类的成员---只是特定（类的）命名空间的全局变量（函数）而已
 人的意志与自然法则—人的意志与人造事物
 所有的思考都有两个目的:建模降熵
 控制论、系统论与熵
 秩序(也常简称为序)是系统的本质特征之一
 控制论：基于全局信息和整体目标、整体规则的系统结构和状态维护
 人类社会的全部认识成果可以概括为三大领域的科学，即自然科学、社会科学和思维科学
 “逻辑”的古希腊词源

原文地址：https://www.cnblogs.com/hzcya1995/p/13281652.html