ML 100问

zoukankan html css js c++ java

ML 100问

准备整理自己关于ML的思考和理解，长期迭代，整理出100个自己认为的重要问题来。

180823：ABTest为什么使用Z检验？不用卡方检验？

http://webdataanalysis.net/data-analysis-method/t-test-and-chi-square-test/这篇文章中说t检验，检验样本均值差异；卡方检验，检验比例差异。

如何通过置信区间和置信度要求确定样本量？

置信水平表达的物理含义是什么呢？

显著性水平低于5%，拒绝假设，此时我们可以说这个事件在假设下发生的概率小于5%，所以拒绝假设；但是显著性水平大于5%，此时不能说事件发生的概率95%，应该怎么说呢？

1、交叉验证的方法在训练过程中是否有用？

1、过拟合的表现？

1)训练集误差小，评估集误差大；2)训练集误差还在减小，评估集误差开始波动

2、过拟合的原因？

模型复杂，dvc高——对于决策树，就是没有剪枝，模型可以完美拟合数据；神经网络，收敛于复杂决策面；

噪音，模型overtrain，模型拟合了噪音和没有区分性的特征；

建模样本抽取错误，包括有限的训练数据、抽样方法错误，没有考虑业务场景等；

3、如何解决？

对应导致过拟合发生的几种条件，我们可以想办法来避免过拟合。

(1) 假设过于复杂(excessive dvc) => start from simple model

(2) 随机噪音 => 数据清洗

(3) 数据规模太小 => 收集更多数据，或根据某种规律“伪造”更多数据

正规化(regularization) 也是限制模型复杂度的

4.1 数据清洗(data ckeaning/Pruning)
将错误的label 纠正或者删除错误的数据。

4.2 Data Hinting: “伪造”更多数据, add "virtual examples"
例如，在数字识别的学习中，将已有的数字通过平移、旋转等，变换出更多的数据。

参考：

http://blog.csdn.net/a819825294/article/details/51239686

http://blog.csdn.net/findsd1989/article/details/45894483

http://news.ifeng.com/a/20170522/51139366_0.shtml

判断variance是否比较高，要看test error是否比traing error明显高很多。

提升问题：

1、随机森林是否过拟合？gbdt是否过拟合？SVM是否过拟合？

random forest 虽然我没有在实际中运用过，并且Breiman确实说过它不会overfitting。但是他的意思是随着tree数目的增多，testing error不会急剧的增大，会稳定在一个数值。但是我们通常讨论的overfitting是说testing error比training error大很多，这个Random forest显然是无法避免的，尽管RF会限制error的limit。<br>简单说random forest会随着tree的增多而减少variance，但是它不会去修改bias啊

Add：没有任何的learning algorithm可以彻底避免overfitting的。这是由机器学习的本质决定的，不是在技术层面可以修复的。机器学习的核心在于generalization，但是数据又不可避免的包含noise，所以generalization走到最后就会开始考虑是不是要把noise也generalize一下。对于一个算法，它是没有办法区分noise和‘good’ data的。因为这些通常是人也无法知道的，我们说一个toy dataset中某些data是noise，这是我们的prior，机器是没有办法知道的。

https://www.zhihu.com/question/23578594

2、bagging 、boosting和varince/bias的关系？

1、如何处理长尾item的预估问题？和弱特征有什么关系？

相关：https://www.bbsmax.com/A/obzbW4j3JE/

https://zhuanlan.zhihu.com/p/31578121

FM在长尾特征上的作用：通过交叉泛化

GBDT的长尾：通过统计平均来泛化

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！

微信: legelsr0808

邮箱: legelsr0808@163.com

查看全文

相关阅读:
nmap加快扫描速度（转载）
deepin换源
 利用74HC595实现的流水灯 Arduino
解决用vscode开发arduino时Serial未定义
 JS获取格式为YYYY-MM-DD的当前日期
 链式前向星存图
 Nginx+FFmpeg实现RTSP转RTMP
非root用户安装centos的jdk
Nginx配置请求头
 Eclipse-Che 安装（Centos）

原文地址：https://www.cnblogs.com/ai1024/p/7677812.html

如果发现文中有问题，敬请联系作者批评指正，真诚欢迎您的指教，谢谢！