Evernote Export
比赛题目介绍
- facebook想要准确的知道用户登录的地点,从而可以为用户提供更准确的服务
- 为了比赛,facebook创建了一个虚拟世界地图,地图面积为100km2,其中包含了超过1000000个地点
- 通过给定的坐标,以及坐标准确性,判断用户登录地点
- 训练集和测试集是根据时间划分的,而在公共排行榜和私人排行榜上的测试集数据是随机划分的
- row_id 登录事件的id,作为标识符使用
- x,y:坐标数值
- accuracy:坐标的准确性
- time:时间戳
- place_id:地点id,需要预测的变量
- 其中,accuracy和time的具体含义并没有给出,关于这两个变量的探索也是比赛的一部分内容
XGboost
-
XGboost就是梯度提升树的改进(速度快)
-
kaggle神器 XGboost
-
模型: 如何在已知xi而预测y^i
-
线性模型:y^i=∑jwjxij包含线性模型和逻辑回归模型
-
预测分数y^i可以有基于任务的不同解读
- 线性回归 y^i是预测分数
- 逻辑回归 1+exp(−y^i)1是对积极的实例的可能性预测
- 其他,比如排名预测
-
参数:我们需要从数据中学习到的参数
-
线性模型:wj∣j=1,...,d
-
损失函数的使用
-
Obj(Θ)=L(Θ)+Ω(Θ)
-
训练数据中的损失:L=∑i=1nl(yi,y^i)
- 方差损失 l(yi,y^i)=(yi−y^i)2
- 逻辑损失 l(yi,y^i)=yiln(1+e−y^i)+(1−yi)ln(1+eey^i)
-
模型的复杂度
- L2规范 Ω(w)=λ∣∣w∣∣2
- L1规范 Ω(w)=λ∣∣w∣∣1
-
正则项(惩罚模型的复杂度) ∑i=1n(yi−wTxi)2+λ∣∣w∣∣2
-
Lasso ∑i=1n(yi−wTxi)2+λ∣∣w∣∣1
-
逻辑回归 ∑i=1n[yiln(1+e−wTxi)+(1−yi)ln(1+ewTxi)]+λ∣∣w∣∣2
回归树
- 线性回归问题就是用折线或者折平面(高维度)去拟合训练集
- 用小的决策树,不剪枝,用投票的方式将决策树组合起来
- 折线回归树预测:
-
y^i=k=1∑Kfk(xi),fk∈F
数据探索
特征工程
- 与坐标相关的特征
- 与时间相关的特征
- 与准确性相关的特征
- Z-值