zoukankan      html  css  js  c++  java
  • 基于storm和hadoop的广告系统研究【5】

    数值逻辑化处理

    许多维度上的数据并不是数值的,如一个用户访问的网页地址,搜索的关键词等等

    直接对这样的维度进行处理并不合适,需要进行数字化处理,一般就是用id替代

    然后,大多数情况下通过id只存在时序上的相关并不存在逻辑上的相关。

    比如id相邻的两个关键词,一个是“金融”,一个是“考古”,但是在某些算法分析中,有可能把二者作为一个类别给处理了。

    所以就需要在进行数字化处理的同时还要进行逻辑化处理,让数据的值域有着逻辑上的关联。

    逻辑化处理并不会影响算法效果,而且还能给使用了数值距离分析的算法提供一定的便利。

    广告点击预测

    进行广告点击预测则需要一个广告点击记录表和广告展示记录表

    广告点击记录表

    序号 字段名 类型 注释
    1 id int 主键id
    2 urlid int 广告宿主页面地址id
    3 cookieid string 用户客户端的cookieid
    4 ip string 用户访问ip
    5 advid int 广告id
    6 clicktime datetime 点击时间

    广告展示记录表

    序号 字段名 类型 注释
    1 id int 主键id
    2 urlid int 广告宿主页面地址id
    3 cookieid string 用户客户端的cookieid
    4 ip string 用户访问ip
    5 advid int 广告id
    6 showtime datetime 展示时间

  • 相关阅读:
    ISO 学习笔记 2015-03-15
    IOS 学习笔记 20150314
    IOS 学习日志 2015-3-13
    Letter Combinations of a Phone Number
    anagrams
    Pow(x, n)
    Distinct Subsequences
    Excel Sheet Column Number
    MIT 三课程
    c++ 重载,覆盖,重定义
  • 原文地址:https://www.cnblogs.com/AI001/p/3996892.html
Copyright © 2011-2022 走看看