zoukankan      html  css  js  c++  java
  • 机器学习的几个误区-转载

    http://www.cnblogs.com/CheeseZH/p/4096546.html

    写的还不错。里面还引申了好几个概念,包括AdaBoost,L1/L2正则(范数)等。

    提纲列一下:

    1. 使用模型默认的损失函数

    例如我在珍爱网做付费用户预测时,由于付费用户本身数量级就不大,所以我宁可误判十个,也不能错过一个。所以这个时候我们就需要去修改分类器模型的损失函数。

    2. 无根据地选择线性模型

    我个人的经验往往是先使用逻辑回归做一次分类,但是同时也会采用决策树,或者SVM等非线性模型来对该数据进行重新的分类比对。

    3. 忽视异常值的意义

    如果当训练数据中包含一些异常值的时候,我们就需要考虑模型的敏感性了,例如AdaBoost, Kmeans这种就属于对异常值很敏感的机器学习模型。

    4. 不考虑n和p的关系

    n: 训练数据的数量。p: 特征的数量。如果当n << p的时候,还依然采用SVM来选定模型,那么就必然会导致p进一步增加,于是导致特征的参数中自由变量增加,必然会对分类的效果产生很大的影响。

    5. L1 / L2 正则化之前并没有对特征进行标准化

    6. 变量之间的共线性问题

  • 相关阅读:
    git stash回退
    基于git tag快速修复
    Go语言开发规范
    defer实现原理
    string数据结构
    关于const iota
    struct
    map数据结构底层详解
    go 函数进阶
    go 内存分配原理
  • 原文地址:https://www.cnblogs.com/charlesblc/p/6298330.html
Copyright © 2011-2022 走看看