zoukankan      html  css  js  c++  java
  • 数据化运营(2)

    第10章 预测响应(分类)模型的应用和技术小窍门
           正如上篇文章所说的本书的重点是商业+模型,本章节中关于算法的一些描述我觉得有些不妥,例如介绍决策树(DT)的优缺点的时候,文中指出“如果目标变量是连续型变量,那么决策树就不适用了,最好改成线性回归”,其实DT算法也是可以解决回归问题的,例如互联网广告页面的点击率预测就可以用GBRT(梯度的boosting tree)来预测,再例如文中对比线性回归跟逻辑回归时,说线性模型是目标变量跟自变量呈线性,而logistic regression又不是线性的,这个从算法层面来讲就有点矛盾了,logistic regression其实也是一个线性模型。全章介绍了4种算法(神经网络NN,决策树DT,逻辑回归LR,多元线性回归),关于这四种算法的总结如下
    关于各个算法的详细情况(优化,目标函数,参数调优,并行化策略),可以google或者看论文,下图对比了不同学习算法优缺点
     
             最后关于模型的过拟合问题也是需要关注的,导致过拟合的原因有如下:
    业务原因:1) 建模样本数据的提取跟业务逻辑不对应; 2) 根据业务提取的数据质量存在问题;
    模型原因:1) 模型自变量(特征属性)过多; 2) 模型迭代次数过多;
           另外数据样本要保证足够,否决就欠拟合啦
           应对过拟合的解决手段:1)把数据分成训练、测试、验证三组数据集合,结合模型调整参数; 2)数据采样的时候要注意最好层次采样。
  • 相关阅读:
    行为模式---之--解释器模式
    行为模式---之--访问者模式
    行为模式---之--状态模式
    行为模式---之--备忘录模式
    行为模式---之--命令模式
    行为模式---之--责任链模式
    行为模式---之--迭代子模式
    行为模式---之--观察者模式
    行为模式---之--模板方法模式
    行为模式---之--策略模式
  • 原文地址:https://www.cnblogs.com/kobedeshow/p/3549936.html
Copyright © 2011-2022 走看看