回报函数学习的学徒学习综述 - 走看看

zoukankan html css js c++ java

回报函数学习的学徒学习综述

[year] 2008

[source] 智能系统学报

目前用于从示教学习中不愿回报函数的评述已非基于逆向增强学习的深造学习和MMP框架两种

Ng和Russell提出 IRL，通过最大化专家演示策略和其他策略的还原。Abbeel等将IRL进行拓展，称为学徒学习。

基于线性回报函数的学习

IRL

     max_{\tao, w}{\Tao}, with V_w (\tao_E) \ge V_w(\tao_i) + \tao

MMP

    凸函数最优化问题:

    min(R_w) , R(w)= 1/N(w^TF_i\mu_i – \min {w^TF_i\mu_i-l_i^T\mu}) + \lamda/2|w|^2

查看全文

相关阅读:
Jsoup系列学习(1)-发送get或post请求
 使用httpclient发送get或post请求
 charles 抓取eclipse中的请求
 springmvc学习资料整理
 springmvc和struts2的区别
 Linux常用命令
 Sql Server 2008R2 数据库发布与订阅
 jquery 父、子页面之间页面元素的获取，方法的调用
 封装ajax
Maven 的安装配置

原文地址：https://www.cnblogs.com/justin_s/p/2072408.html

Copyright © 2011-2022 走看看