zoukankan      html  css  js  c++  java
  • 机器学习在电商领域三大应用,推荐,搜索,广告中商品排序

    1、业务角度
    一般是在一个召回的商品集合里,通过对商品排序,
    追求GMV或者点击量最大化。
    基于一个目标,如何让流量的利用效率最高。
    很自然的,如果我们可以准确预估每个商品的GMV转化率或者
    点击率,就可以最大化利用流量,从而收益最大。
    2、技术服务于业务,模型本身的迭代需要配合业务目标才能发挥出
    最大的价值,因此选择模型迭代的路线,必须全盘考虑业务。
    3、在点击率预估领域,常用的是有监督的模型,其中样本,特征,模型
    是绕不开的问题。
    4、首先,如何构建样本,设计模型的目标函数是什么,即要优化什么。
    原则上,我们希望样本构建越接近真实场景越好。比如点击率模型
    常用用户行为日志作为样本,曝光过没有点击的日志是负样本,
    有点击的是正样本,去构建样本集,变成一个二分类。
    在另一个相似的领域-----learning to rank,样本构建方法分为3类:
    pointwise,pairwise,listwise.
    5、pointwise范畴,即每一条样本构建时不考虑与其他样本直接的关系。
    真实的场景中,往往需要考虑其他样本的影响,比如去百度搜一个关键字,
    会出来一系列的结果,用户的决策会受整个排序结果影响。
    6、pairwise做了一点改进,它的样本都是pair对组成,比如电商搜索下,
    商品a和商品b可以构建一个样本,如果a 比 b好,
    样本pair{a,b}是正样本,否则是负样本。
    当然,这会带来新问题,比如a>b,b>c,c>a这个时候怎么办?
    7、而listwise就更接近真实,但复杂性也随之增加,工业界用的比较少
    这里不做过多描述,理论上,样本构建方式listwise>pairwise>pointwise
    但实际应用中,不一定是这个顺序。
    如,你在pointwise的样本集下,模型的fit情况不是很好,比如auc不高,
    这个时候上pairwise,意义不大,更应该从特征和模型入手,
    一开始就选择pairwise或者Listwise,并不是一种好的实践方式
    8、其次是模型和特征,不同模型对应不同的特征构建方式,比如广告
    的点击率预估模型,通常就有两种组合方式,采用大规模离散特征+logistic
    regression模型或种小规模特征+复杂模型。

  • 相关阅读:
    Mysql 5.6 源码编译安装
    Python中的数据类型之字符串
    Python中变量的命名与使用(个人总结)
    Windows环境下python3.7版本怎么安装pygame
    web应用无法访问的原因之一以及如何设置数据库编码
    项目代码设计规范总结之分页查询
    当java web项目部署到服务器上时,无法将图片等媒体文件保存到服务器的最终奥义
    如何查看服务器上打印的信息
    java代码实现JVM栈溢出,堆溢出
    springmvc源码分析(转)
  • 原文地址:https://www.cnblogs.com/guoyinglichong/p/7473389.html
Copyright © 2011-2022 走看看