zoukankan      html  css  js  c++  java
  • 唐平中讲座笔记 Reinforcement mechanism design 20171107

    渣排版预警,纯草稿。。。

    唐平中。研究方向是经济学和ai方向,机制设计和拍卖设计。
    内容:广告优化的方法论,自动优化。

    【内容】
    Basics on mechanism design and resrve pricing
    Reinforcement mechanism design:
    1.Reserve pricing in ad auctions (在广告拍卖中占到保留位,怎么算到最优)
    2.Seller ranking in e-commerce.


    【前言】
    Auctions design and revenue optimization 拍卖设计
    拍卖:
    拍卖的设计涉及钱
    谁能够拿到物品,每个人应该付多少钱。
    目标是什么:


    例子:1个用户,1个广告主。
    q=1 if sold, q=0 if reserve;
    buyer(advertiser):valuation x from Uniform [0,1]
    假设所有信息大家都知道
    buyer utility = x(q-t)
    Auction = set a price p(in this case)
    buyer decsion: buy if x>p
    max(p(1-p)),solution: p = 0.5
    可以推广到任何分布,改为f(p)*(f(1-p))即可


    1个用户,n个广告主

    1.first-price auction
    known:Bayes equilibrium to bid (n-1) xi/n
    Expected revenue:(n-1)/(n+1)

    2.second price auction
    known:Dominant strategy to bid truthfully
    Expected revenue:(n-1)/(n+1)
    结论:如果你不设保留价的话,那么你的期望收入和二价一样。无需证明(x


    二价定律失效的例子:
    毕加索的画卖给了王健林,2800万,但是王健林心理预期很高,但是他遇到了一些week buyer.所以付钱价格很低。
    解决方案:设最小保留价格,比如我设4000万的门槛。
    但这只是单次拍卖。


    最优情况:
    如果有1个物品,n个拍卖者
    大家的xi都是uniform[0,1]
    解决方案:second price auction with reserve 0.5
    think of 0.5 as seller's bid, competitive for strong buyers
    当大家的分布不一样的时候,查看07年诺贝尔论文。Myerson,1981,Nobel prize 2007
    Myerson的问题:
    没有按照bid排序,会影响公平性。
    有不同的门槛。
    Myerson may charge too much.可能会使得卖家流失。
    (solution:objective: a revenue + b welfare + c clicks)(MSR论文) 平台+广告主+用户
    雅虎:通过手动调整保留价,使得收入增加10%


    High frequency mechanism design
    区别:
    1.高频的环境
    2.Dynamic set of players
    3.Rational,reflected in the data
    4.Complicated,dynamic decision variables


    工业界的现状:
    gsp在工业界没有什么用,vcg也没什么用。
    经常去调整广告的拍卖参数。
    Ad hoc,Costly
    能不能有一个算法来自动调整参数,使得能够得到很好的结果。


    【主题】
    Reinforcement mechanism design
    这个不是机器学习,原因是:
    我的方法是想得到更好的参数,使得广告收益更高。之前参数的data和我现在的data无关,所以这不是机器学习。
    从一组参数很难预测出另外一套全新的参数的结果,有一些阶跃的东西,总之,这就不是一个machine learning


    Dynamic GSP auctions
    一堆关键字,平台会收到广告主的报价,然后我们能会回复kpis。
    然后我们都会根据反应来修正自己的行为。
    这实际上是一个Markov,每次的报价都depend on 昨天的bid distribution和 昨天的kpis


    f(t+1) depend on f(t)

    平台的参数制定,把整个广告主和自己的平台当作一个整体,action是每天调整参数,revenue就是每天赚得钱。
    对于状态一,然后一堆bidder根据昨天的kpis和参数出了一次价格,然后可以推出新的状态。


    每个关键字我们只看出价最高的bidder,不会让出价变动很大。
    我们的bidder model使用rnn
    输入:
    kpis containing stats of several consecutive days
    time-sepecific features.
    输出:
    bid distribution for the next time step(bid不容易预测的准,所以我们直接预估分布,而且头部buyers也是会变动)


    结果的话,用rnn预估的结果和线上的结果确实比较符合。
    效果比百度本身的预估好一倍。


    解决刷单:
    刷单方案:
    1.建一个微信群,然后每个人给钱,寄空包裹,然后提高我的好评
    2.把自己的价格压的非常低,使得自己的成交量上去。

    导致使得一些不是优质的卖家,占据了优质流量,使得平台的转化量比较低。
    淘宝本身的objective比较复杂。

    解决方案,实际上是将差的卖家扔到下面去。
    本质上是流量的分配。


    总结:
    。。。好像我们的广告系统的bid和推荐系统是分开的,所以这玩意儿好像我们根本没法用。
    不过动态调整参数可以借鉴一下,可以试试greedy的方案。

  • 相关阅读:
    栈和堆的区别【个人总结】
    理解堆与栈
    javacript属性
    Reapeater CommandName ,CommandArgument
    FormsAuthentication.HashPasswordForStoringInConfigFile(str1, str2);
    文件上传处理
    GetJson
    js内置对象
    Debug
    [转]关于一些SPFA的标程
  • 原文地址:https://www.cnblogs.com/qscqesze/p/7798415.html
Copyright © 2011-2022 走看看