机器学习的几个误区-转载 - 走看看

zoukankan html css js c++ java

机器学习的几个误区-转载

http://www.cnblogs.com/CheeseZH/p/4096546.html

写的还不错。里面还引申了好几个概念，包括AdaBoost，L1/L2正则（范数）等。

提纲列一下：

1. 使用模型默认的损失函数

例如我在珍爱网做付费用户预测时，由于付费用户本身数量级就不大，所以我宁可误判十个，也不能错过一个。所以这个时候我们就需要去修改分类器模型的损失函数。

2. 无根据地选择线性模型

我个人的经验往往是先使用逻辑回归做一次分类，但是同时也会采用决策树，或者SVM等非线性模型来对该数据进行重新的分类比对。

3. 忽视异常值的意义

如果当训练数据中包含一些异常值的时候，我们就需要考虑模型的敏感性了，例如AdaBoost, Kmeans这种就属于对异常值很敏感的机器学习模型。

4. 不考虑n和p的关系

n: 训练数据的数量。p: 特征的数量。如果当n << p的时候，还依然采用SVM来选定模型，那么就必然会导致p进一步增加，于是导致特征的参数中自由变量增加，必然会对分类的效果产生很大的影响。

5. L1 / L2 正则化之前并没有对特征进行标准化

6. 变量之间的共线性问题

查看全文

相关阅读:
数组名和指针区别（还有数组退化等）
无法从“const char *”转换为“char *”
c语言数组初始化问题
 c语言实现atoi和itoa函数。
不使用临时变量交换两个整数
 hdu 1282回文数猜想
 Android仿WIN8系统磁贴点击下沉倾斜效果
 Android Studio使用心得
 处理json中影响解析的多余引號
 我也来开发2048之主界面设计

原文地址：https://www.cnblogs.com/charlesblc/p/6298330.html

Copyright © 2011-2022 走看看