[year] 2008
[source] 智能系统学报
目前用于从示教学习中不愿回报函数的评述已非基于逆向增强学习的深造学习和MMP框架两种
Ng和Russell提出 IRL,通过最大化专家演示策略和其他策略的还原。Abbeel等将IRL进行拓展,称为学徒学习。
基于线性回报函数的学习
IRL
max_{\tao, w}{\Tao}, with V_w (\tao_E) \ge V_w(\tao_i) + \tao
MMP
凸函数最优化问题:
min(R_w) , R(w)= 1/N(w^TF_i\mu_i – \min {w^TF_i\mu_i-l_i^T\mu}) + \lamda/2|w|^2