zoukankan      html  css  js  c++  java
  • 机器学习-常见问题积累【1】

    -----JHJ_BABY 平时学习积累、归纳、整理-------------------------

    1、python和R在做数据分析时各有自己得擅长得领域,如python做时域分析得难度就远远比R大,因为R有非常成熟得Package!

    2、数据处理:如何处理缺失数据?各种处理方法得的利弊?

    3、数据处理:如何将类别型(又称做描述型)变量转为连续变量?如何处理有序变量?如何处理无序变量?

    4、数据处理:如何进行特征选择?如何进行数据压缩?

    5、模型解释:什么是欠拟合?什么是过拟合?如何处理这两种情况?

    6、模型解释:什么是偏差与方差分解?与欠拟合和过拟合有什么联系?

    7、评估模型一般有哪些手段?

    1)分类模型评估的方法有哪些?

    2)回归问题评估方法有哪些?

    3)数据不均衡的评估方法有哪些?

    8、深度学习是否比其他学习模型都好?为什么?

    9、在只有少量的有标签数据的情况下,如何构建一个反保险欺诈系统?

    10、在数据分布不均匀的情况下,是采用过采样还是欠采样?如何调整代价函数和阈值?

    11、SVM,什么是最大间隔分类器?什么是kernel,如何选择kernel?

    12、为什么K-means不适合异常值检测?K-means和GMM是什么关系?是否可以用FMM来直接拟合异常值?

    13、如何可以得到无监督学习中的分类规则?

    14、L1和L2正则化两者有什么不同,什么时候采用L1,什么时候采用L2?为什么L1可以得到稀疏解?它们与嵌入式特征选择有什么联系?

    15、根据岗位准备一份项目策划书

    16、精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?

     

    看懂周志华<<机器学习>>前十章,并熟练的使用Sklearn中基础API进行建模就可以了,勿矫枉过正,如果你的岗位不是理论型科学家岗位,不要与

    数学推导死磕。

    -----------------------------------------------------------------------------------------

    Answer:

    2、

    第一类:

    1>分析缺失值所在比例,如果某个属性的缺失值太多,可考虑去除该属性。

    2>可以用均值、众数、中位数、随机值填充代替。

    3>用0填充代替 。

    第一类措施,效果一般,相当于人为的添加了噪声

    第二类:

    用其他变量做预测模型(如logistic)来算出缺失变量。

    第二类效果稍微比第一类好点。但是存在缺陷,如果其他变量和该变量毫无关联,那么预测值将毫无意义。如果预测的缺失值很准确,则说明其他变量和该变量强相关,这个变量没有存在的意义。

    第三类:

    将缺省值当作一个类型,把变量映射到高维空间。比如,一个变量为男、女、缺失值的取值范围,映射到高维后就成为是否为难,是否为女,是否为缺失值,由原来的一维映射到三维。这样做的好处是,可以保存原始信息,不用考虑缺失值的问题。缺点在于这种情况在基础变量多,数据量大的时候容易出现特征爆炸,计算量剧增,如果样本不够大,特征信息稀疏、计算效果差。

    ------------------------------------------------------------------

    3、

    类别型转连续型的变量,一般理解就是用离散数据拟合一个回归方程,将相当于数电信号转模电信号原理差不多。但数据处理方面,我们接触的大多数是连续型转类别型,比如将连续的年龄分布,转成类别型:小学生,初中生,高中生,大学生,其他。

    所谓有序变量,如班长<排长<连长,只可排序,加减,不可乘除。所谓无序变量,如赤、橙、黄、绿、青、蓝、紫。这两者在处理的时候最好都做下one-hot encoding(独热编码又称哑变量),也有将有序变量直接当作连续变量来用,但最好是做下one-hot encoding。

    -------------------------------------------------------------------

    4、

    过滤式(filter)包裹式(wrapper)嵌入式(embedding)

    过滤式(filter):先对特征集选择,然后进行训练。其特征重要性由“相关统计量”的一个算法来计算得到,一般用的少。

    包裹式(wrapper):直接将学习模型性能做为特征子集的评价准则,针对给定的学习模型进行优化。wrapper比filter要好。特征选择过程需要多次训练学习器,因此计算开销比filter大很多。

    嵌入式(embedding):将特征选择和模型训练过程融为一体。

    数据压缩:总的思想就是将一个原始信号数据,采样抽取其特征信号,保存下这些特征信号后的大小肯定比原始信号数据小,而这些特征信号在后来的解压过程能够大部分的还原原始信号。

    ------------------------------------------------

    5、

    过拟合:在训练数据上表现良好,在测试数据上表现差。

    常见处理方式:

    交叉验证、增加样本、减少特征量、降低正则化、去除噪声特征量等。

    欠拟合:在训练数据和未知数据上表现都很差。

    常见处理方式:

    增加特征量、添加组合特征、增强正则化等。

    6、

    偏差度量了学习算法的期望预测与真实结果的偏离程度,即i刻画了学习算法本身的拟合能力。

    方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。

    噪声,则表达了在当前上任何学习算法所能达到的期望泛化误差的下界,刻画的是学习问题本身的难度。

    给定学习任务,为取得好的泛化性能,则需要使偏差较小,即充分拟合数据,并使得方差较小,即使得数据扰动产生较小的影响。

    算法学习初期,偏差主导了泛化错误率,训练拟合数据不充分(欠拟合);在学习后期,数据拟合充分后,算法拟合能力很强,容易拟合噪声数据(过拟合),这时方差主导了泛化错误率。

    7、

    1)分类模型评估方法:

    混淆矩阵、准确率(Accuracy)、对数损失函数(log-loss)、AUC、ROC

     2)回归问题评估方法有:

    MAE(Mean Absolute Error)平均绝对差值

    MSE(Mean Square Error)均方误差

    RMSE(Root Mean Square error)均方根误差

     

  • 相关阅读:
    jquery键盘事件全记录
    ASP.NET Session的七点认识
    11个强大的Visual Studio调试小技巧
    javascript 执行顺序详解
    编程笔记:JavaScript 中的类型检查
    js中实现文件上传下载的三种解决方案(推荐)
    前端中实现文件上传下载的三种解决方案(推荐)
    网页中实现文件上传下载的三种解决方案(推荐)
    Web中实现文件上传下载的三种解决方案(推荐)
    B/S中实现文件上传下载的三种解决方案(推荐)
  • 原文地址:https://www.cnblogs.com/liang2713020/p/7449749.html
Copyright © 2011-2022 走看看