zoukankan      html  css  js  c++  java
  • 【KDD2019论文】基于深度价值网络的多司机智能派单模型 阅读笔记

    强化学习与有监督学习的区别:

    迭代的方式,训练的模型会决定训练的target

    故强化学习要求训练稳定性——正则化方式

    新增target neural network

    优化问题:二分图匹配,最大化权值总和(value function、TD error)+满足constrain

    权值大小与订单终点价值正相关——倾向于调往热区

    ​ 与司机当前价值成反比——倾向于离开冷区

    定义冷区与热区:长期的价值——一天期望的收益值

    动作具有时间上的延展性,故需要价值函数也具有时间上的延展性

    离线学习

    线上规划

    • 新的value function是通过旧的来得到的,有delay——on-policy
      • 无法用到 importance sampling
      • 执行策略时不能仅仅根据概率分布进行抽样,而必须采用组合优化方式解决
    • 六边形格子系统进行多精度分割
      • 自适应的分割表达
        • 市中心:高精度
        • 郊区:相对低精度
    • Lipschitz 正则化——控制value function的常数,使得value function更加光滑
      • 光滑:输入上的小扰动不会导致函数输出的巨大变动
      • 实验中测试:加入噪声
      • 更好的学习的动态效应及收敛性
    • 随机
      • 机器人学习中DR思想
      • 在训练环境中加入足够多的随机效果,确保智能体在所有情境下都能很好地工作(包括现实中的情况)
    • 迁移学习的网络结构:多城市
      • 渐进式网络结构
        • 学习中决定迁移哪些知识、怎样迁移
        • do-a-path-way架构,平行的渐进式架构
          • 对独特的输入可以专门学习
          • 迁移学习Focus on对通用的实时特征学习
    • 实验:(接驾距离——用户体验)
      • 与DQN对比
        • 收敛性
        • 动态效应
        • 衰减系数:越接近1,bias和variance的trade-off,更难训练
      • 基于现实数据的离线实验
        • 与动态规划
        • 与DQN(单个司机视角)
        • 最近提出的迁移学习方法
      • A/B实验
        • answer rate
        • finish rate
        • 司机总收入
      • 训练数据:
        • 司机轨迹
        • 实时特征:空车数、司机数等

    image-20200203184835144

    image-20200203184853591

    image-20200203184919466

    image-20200203185004897

    image-20200203185021593

    image-20200203185143555

    ![image-20200203185152877](/Users/zhaowanru/Library/Application Support/typora-user-images/image-20200203185152877.png)

    image-20200203185222605

    image-20200203185241848

    image-20200203185254621

    image-20200203185312413

    image-20200203185335861

    image-20200203185407012

    image-20200203185421234

    image-20200203185442347

    image-20200203185459812

    其他解读:

    [1] KDD2019展示视频

    [2] 滴滴KDD 2019 论文详解:基于深度价值网络的多司机智能派单模型

    [3] 滴滴KDD2019重点论文分享直播

  • 相关阅读:
    [hdu4436 str2int]后缀自动机SAM(或后缀数组SA)
    bytedance专题
    LSTM+CRF维特比解码过程
    spark core类梳理
    spark源码阅读---Utils.getCallSite
    python2.7官方文档阅读笔记
    cs224d---词向量表示
    cs231n---强化学习
    cs231n---生成模型
    Spring 2017 Assignments3
  • 原文地址:https://www.cnblogs.com/Ryan0v0/p/12255339.html
Copyright © 2011-2022 走看看