一、模型与特征哪个重要?
参与Sberbank Russian Housing Market比赛,一开始使用sklearn的岭回归函数Ridge(),残差值一直是0.37左右,然后同样的特征又使用了XGboost,残差值降到了0.34左右,提高的还是挺显著的。
但是另外一些参赛选手,使用XGboost,残差值可以降到0.31左右。所以由此来看,xgboost模型确实厉害,效果很好。
通过比赛不断调整特征发现,特征多了未必好,少了重要特征更不行,只有留下最重要的特征,模型的残差值才会降到最低。所以,选择合适的特征最重要,还是应该将大量时间花费在特征分析与处理上面。