机器学习技法总结（四）（aggregation，vote，bootstrap...）

zoukankan html css js c++ java

机器学习技法总结（四）（aggregation，vote，bootstrap...）

研究的动机是：我们采用了不同的模型得到T个不同的g，那么我们是不是可以通过这些不同的g的融合得到更加出色的G呢？因此，便有了以上四种不同的方法；1）（select）直接选择最好的一个作为融合的结果；2）（uniform）所有的g公平vote；3）（non-uniform）相当于你比较相信某个结果，就赋予它较高的vote权重，这种类似于二次回归问题，就是说，先对不同模型进行优化得到不同的g，然后再次优化做出回归；4）很简单的predictions conditionally。前面的都可以看作是后面的特例。

上图解释了通过aggregation，通过均匀的弱的hypothesis的mix，我们可以实现比较弯弯曲曲的分界线，这是不是实现了特征转换，使得Ein比较小？另外，这样多次的mix，可能使得PLA取得比较靠中间的那个hypothesis，这样是不是就类似了svm中的large margin的效果，这样aggregation就类似于能够较好的实现特征转换和正则化。

在设计融合的时候，要注意一点，如果我们直接从Ein中选择最小的作为目标的话，这就像是扩大了Hypothesis set的大小，那么VC dimension则变大了，很容易出现overfitting，因此，最好的办法还是通过validation来赛选g-，然后再回传g进行融合。如下图所示：

下面如何得到不同的g呢？主要有以下几种：不同模型，不同的参数，不同的数据等...

借助统计中的一个bootstrap可以实现对data的重新采样，得到了一下的方法：

林老师讲了一个利用PLA作为算法，然后借助bootstrap-aggregation得到了如下的效果：

从图中的效果可以看出，其实效果还不错。

主要关注两个方向：一个是g的diversity，二是democracy。

查看全文

相关阅读:
阿里巴巴的云原生应用开源探索与实践
 Helm 3 发布 | 云原生生态周报 Vol. 27
带你上手一款下载超 10 万次的 IDEA 插件
 最强CP！阿里云联手支付宝小程序如何助力双11?
媲美5G的Wifi网速、“备战”资产一键领……揭秘双11小二背后的保障力量
 dubbo-go 的开发、设计与功能介绍
 饿了么交付中心语言栈转型总结
 数据一致性检测的应用场景与最佳实践
 2684亿！阿里CTO张建锋：不是任何一朵云都撑得住双11
《DNS稳定保障系列3--快如闪电，域名解析秒级生效》

原文地址：https://www.cnblogs.com/huty/p/8519340.html

最新文章
RemoteExt 远程验证
 I
组合数取模
 I
H
F
G
B
E
D

热门文章
hdu1087 dp
hdu1503 LCS
hdu1080 LCS变形
 hdu2041 dp
hdu2044 dp
hdu2018 dp
hdu3065 AC自动机
 hdu2896 AC自动机
 hdu2222 AC自动机
 AC自动机（转）