机器学习面笔试-数据篇

zoukankan html css js c++ java

机器学习面笔试-数据篇

1. 数据的预处理方法有哪些？

常用的有白化，去均值，归一化和PCA。
可参考这里。

2.数据的归一化方法有哪些？

常用的归一化方法：线性归一化和0均值标准化
线性归一化将数据转换到[0,1]之间：

$X_{n o r m} = \frac{X - X_{m i n}}{X_{m a x} - X_{m i n}}$

0均值标准化，均值为0，方差为1的数据集:

$z = \frac{x - μ}{σ}$
$μ$ 为数据的均值， $σ$ 为数据的标准差
更多可阅读这里。

3.数据归一化的原因

要强调：能不归一化最好不归一化，之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。
有些模型在各维度进行了不均匀的伸缩后，最优解与原来不等价（如SVM）需要归一化。
有些模型伸缩有与原来等价，如：LR则不用归一化，但是实际中往往通过迭代求解模型参数，如果目标函数太扁（想象一下很扁的高斯模型）迭代算法会发生不收敛的情况，所以最坏进行数据归一化。
补充：其实本质是由于loss函数不同造成的，SVM用了欧拉距离，如果一个特征很大就会把其他的维度dominated。而LR可以通过权重调整使得损失函数不变。

[更多]

4.样本不均衡问题

可以通过上采样和下采样来解决，即多的样本通过取其中一部分，少的样本重复利用；
进行特殊的加权，如在Adaboost中或者SVM中过修改loss 函数，修改样本的权值，让少样本的更大权值；
采用对不平衡数据集不敏感的算法；
改变评价标准：用AUC/ROC来进行评价；
采用Bagging/Boosting/ensemble等方法；
考虑数据的先验分布；

查看全文

相关阅读:
第一讲递归与循环3
第一讲递归与循环2
第一讲递归与循环1
[转]批处理
 VBA运算符（九）
VBA常量（八）
VBA变量（七）
VBA输入框（InputBox）(六)
VBA消息框（MsgBox）（五）
VBA宏注释（四）

原文地址：https://www.cnblogs.com/siucaan/p/9623114.html

机器学习面笔试-数据篇

1. 数据的预处理方法有哪些？

2.数据的归一化方法有哪些？

3.数据归一化的原因

4.样本不均衡问题