1、特征工程
模型与特征在机器学习中的关系:
特征:决定了效果的上限;模型决定了接近效果上限的程度;
数据格式:
label:0/1点击或者没有点击
urlID:广告的url经过hash后得到的hash值
adid:广告本身的ID
2、数据预处理
(1)、label匹配
主要就是不同数据文件中的不同的特征合到一起,整理成一个特征集;
(2)负样本采样
丢弃负样本,保留正样本,使得训练集变小,便于训练
3、特征工程
一般来说:
Ad中title表示广告的文字描述;浏览器可能会屏蔽广告,以及不同人群使用的浏览器可能不同;
对于KDDcup数据集来说:
对于特征来说可以大致分为两类:
泛化能力表示使用一个特征推论其他的特征;自解释能力使用一个特征来表示该特征的属性。
比如:
4、特征处理方法
(1)、One Hot Encoding
(2)、离散化
3、特征组合
4、模型训练
训练的目的:
在这里使用逻辑斯蒂函数,进行逻辑回归训练。