【KDD2019论文】基于深度价值网络的多司机智能派单模型阅读笔记

zoukankan html css js c++ java

【KDD2019论文】基于深度价值网络的多司机智能派单模型阅读笔记
强化学习与有监督学习的区别：

迭代的方式，训练的模型会决定训练的target

故强化学习要求训练稳定性——正则化方式

新增target neural network

优化问题：二分图匹配，最大化权值总和（value function、TD error）+满足constrain

权值大小与订单终点价值正相关——倾向于调往热区

与司机当前价值成反比——倾向于离开冷区

定义冷区与热区：长期的价值——一天期望的收益值

动作具有时间上的延展性，故需要价值函数也具有时间上的延展性

离线学习

线上规划
- 新的value function是通过旧的来得到的，有delay——on-policy
  
  无法用到 importance sampling
  
  执行策略时不能仅仅根据概率分布进行抽样，而必须采用组合优化方式解决
- 六边形格子系统进行多精度分割
  
  自适应的分割表达
  
  市中心：高精度
  
  郊区：相对低精度
- Lipschitz 正则化——控制value function的常数，使得value function更加光滑
  
  光滑：输入上的小扰动不会导致函数输出的巨大变动
  
  实验中测试：加入噪声
  
  更好的学习的动态效应及收敛性
- 随机
  
  机器人学习中DR思想
  
  在训练环境中加入足够多的随机效果，确保智能体在所有情境下都能很好地工作（包括现实中的情况）
- 迁移学习的网络结构：多城市
  
  渐进式网络结构
  
  学习中决定迁移哪些知识、怎样迁移
  
  do-a-path-way架构，平行的渐进式架构
  
  对独特的输入可以专门学习
  
  迁移学习Focus on对通用的实时特征学习
- 实验：（接驾距离——用户体验）
  
  与DQN对比
  
  收敛性
  
  动态效应
  
  衰减系数：越接近1，bias和variance的trade-off，更难训练
  
  基于现实数据的离线实验
  
  与动态规划
  
  与DQN（单个司机视角）
  
  最近提出的迁移学习方法
  
  A/B实验
  
  answer rate
  
  finish rate
  
  司机总收入
  
  训练数据：
  
  司机轨迹
  
  实时特征：空车数、司机数等
![image-20200203185152877](/Users/zhaowanru/Library/Application Support/typora-user-images/image-20200203185152877.png)

其他解读：

[1] KDD2019展示视频

[2] 滴滴KDD 2019 论文详解：基于深度价值网络的多司机智能派单模型

[3] 滴滴KDD2019重点论文分享直播
查看全文

相关阅读:
微信浏览器内 h5 直接唤醒 app 之微信开放标签 wx-open-launch-app
HTML5之2D物理引擎 Box2D for javascript Games 系列翻外篇--如何结合createJS应用box2d.js
HTML5之2D物理引擎 Box2D for javascript Games 系列第三部分之创建图腾破坏者的关卡
 HTML5之2D物理引擎 Box2D for javascript Games 系列第二部分
 HTML5之2D物理引擎 Box2D for javascript Games 系列第一部分
 写给“有钱大爷”、”美工殿下”、“前端文艺青年”的微信HTML5页面设计建议
 微信 JS-SDK Demo “分享信息设置” API 及数字签名生成方法（NodeJS版本）更新时间（2020-10-29）
NodeJS让前端与后端更友好的分手
 “榕树下·那年”移动app ( hybrid ) 开发总结
 如何在移动端app中应用字体图标icon fonts

原文地址：https://www.cnblogs.com/Ryan0v0/p/12255339.html

【KDD2019论文】基于深度价值网络的多司机智能派单模型 阅读笔记

【KDD2019论文】基于深度价值网络的多司机智能派单模型阅读笔记