zoukankan      html  css  js  c++  java
  • CTR预估(4)--CTR特征工程

    1、特征工程

      模型与特征在机器学习中的关系:

      

      特征:决定了效果的上限;模型决定了接近效果上限的程度;

      数据格式:

      

      label:0/1点击或者没有点击

      urlID:广告的url经过hash后得到的hash值

      adid:广告本身的ID

    2、数据预处理

      (1)、label匹配

        主要就是不同数据文件中的不同的特征合到一起,整理成一个特征集;

        

      (2)负样本采样

        丢弃负样本,保留正样本,使得训练集变小,便于训练

        

     3、特征工程

      一般来说:

      

      Ad中title表示广告的文字描述;浏览器可能会屏蔽广告,以及不同人群使用的浏览器可能不同;

      对于KDDcup数据集来说:

      

      对于特征来说可以大致分为两类:

      

      泛化能力表示使用一个特征推论其他的特征;自解释能力使用一个特征来表示该特征的属性。

      比如:

      

      

    4、特征处理方法

      

      (1)、One Hot Encoding

      (2)、离散化

      

      3、特征组合

    4、模型训练

      训练的目的:

      

      在这里使用逻辑斯蒂函数,进行逻辑回归训练。

  • 相关阅读:
    Mongodb C#客户端数据关联数据,使用Linq语法进行关联
    express增加swagger功能
    RabbitMQ错误检查
    nodejs mongoose populate 多层模型
    c# Mongodb
    vscode安装过的插件
    phantomjs安装步骤
    记录平时有用到的前端学习网站
    初学做uniapp项目过程梳理的一些记录
    用纯css实现双边框效果
  • 原文地址:https://www.cnblogs.com/daguankele/p/6417303.html
Copyright © 2011-2022 走看看