zoukankan      html  css  js  c++  java
  • 机器学习面笔试-数据篇

    1. 数据的预处理方法有哪些?

    常用的有白化,去均值,归一化和PCA。
    可参考这里

    2.数据的归一化方法有哪些?

    常用的归一化方法:线性归一化和0均值标准化
    线性归一化将数据转换到[0,1]之间:

    Xnorm=XXminXmaxXmin

    0均值标准化,均值为0,方差为1的数据集:

    z=xμσ

    μ为数据的均值,σ 为数据的标准差
    更多可阅读这里

    3.数据归一化的原因

    要强调:能不归一化最好不归一化,之所以进行数据归一化是因为各维度的量纲不相同。而且需要看情况进行归一化。
    有些模型在各维度进行了不均匀的伸缩后,最优解与原来不等价(如SVM)需要归一化。
    有些模型伸缩有与原来等价,如:LR则不用归一化,但是实际中往往通过迭代求解模型参数,如果目标函数太扁(想象一下很扁的高斯模型)迭代算法会发生不收敛的情况,所以最坏进行数据归一化。
    补充:其实本质是由于loss函数不同造成的,SVM用了欧拉距离,如果一个特征很大就会把其他的维度dominated。而LR可以通过权重调整使得损失函数不变。

    [更多]

    4.样本不均衡问题

    可以通过上采样和下采样来解决,即多的样本通过取其中一部分,少的样本重复利用;
    进行特殊的加权,如在Adaboost中或者SVM中过修改loss 函数,修改样本的权值,让少样本的更大权值;
    采用对不平衡数据集不敏感的算法;
    改变评价标准:用AUC/ROC来进行评价;
    采用Bagging/Boosting/ensemble等方法;
    考虑数据的先验分布;

  • 相关阅读:
    iOS BUG整理-记录我近期视频开发遇到的问题
    iOS 翻译-UIWebView的基本简介-官方文档翻译
    iOS 翻译-Xcode使用-文档翻译
    4.redis设计与实现--跳跃表
    3.redis设计与实现--字典
    2.redis设计与实现--链表
    1.redis设计与实现--简单动态字符串
    12.编码问题讨论
    11.nginx upload module + python django 后台 实现视频上传与切片
    10.nginx+ffmpeg上搭建HLS切片
  • 原文地址:https://www.cnblogs.com/siucaan/p/9623114.html
Copyright © 2011-2022 走看看