归纳偏置和选择性偏差

zoukankan html css js c++ java

归纳偏置和选择性偏差
一、归纳偏置

1、概念

inductive bias是关于目标函数的必要假设。

在机器学习中，很多学习算法经常会对学习的问题做一些假设，这些假设就称为归纳偏置(Inductive Bias)。

归纳(Induction)是自然科学中常用的两大方法之一(归纳与演绎, induction and deduction)，指的是从一些例子中寻找共性、泛化，形成一个比较通用的规则的过程；

偏置(Bias)是指我们对模型的偏好。

通俗理解：

归纳偏置可以理解为，从现实生活中观察到的现象中归纳出一定的规则(heuristics)，然后对模型做一定的约束，从而可以起到“模型选择”的作用，类似贝叶斯学习中的“先验”。

2、例子
老生常谈的“奥卡姆剃刀”原理，即希望学习到的模型复杂度更低，就是一种归纳偏置。

一些更强的假设：KNN中假设特征空间中相邻的样本倾向于属于同一类；

SVM中假设好的分类器应该最大化类别边界距离；

CNN的inductive bias应该是locality和spatial invariance，即空间相近的grid elements有联系而远的没有，和空间不变性（kernel权重共享）

RNN的inductive bias是sequentiality和time invariance，即序列顺序上的timesteps有联系，和时间变换的不变性（rnn权重共享）

注意力机制，也是基于从人的直觉、生活经验归纳得到的规则。
3、作用

归纳偏置的作用是使得学习器具有了泛化的功能。

对于图中的6个离散的点可以找到很多条不同的曲线去拟合它们，但是我们自己训练的模型必然存在一定的“偏好”才能学习出模型自己认为正确的拟合规则。

哪条是较为准确地拟合出通用规则的曲线？明显地，实线是加了一定正则的偏置才能使得曲线更为简单，更为通用。

二、选择性偏差

选择性偏差：在研究过程中因样本选择的非随机性而导致得到的结论存在偏差，不能代表整体，包括自选择偏差（self-selection bias）和样本选择偏差（sample-selection bias）。

例子：
- 例如调用全国大学生学习情况，如果样本空间只是清华、北大，那么肯定会对总体的调查结果产生很大的差别，这就是我们常说的选择性误差
- 找50个身体很好，但是抽烟的人。再找50个身体很差，但是不抽烟的人。对比两组人，得出结论：吸烟有益健康。样本存在选择性偏差。
参考文献：
查看全文

相关阅读:
移动前端webApp开发点滴积累20140524
做业务系统与公众产品的区别
 浅谈浏览器兼容性问题-（4）工具及调试
 浅谈浏览器兼容性问题-（3）他山之石整理
 浅谈浏览器兼容性问题-（2）本人解决方案理解与积累
 使用Using的注意事项
 [转]VMPlayer的Briged网络配置
 [转]移动互联网应用技术架构简介-Restful服务
 理解WCF中的Contracts
[翻译]在ASP.NET Web API中通过OData支持查询和分页

原文地址：https://www.cnblogs.com/Lee-yl/p/13272259.html

归纳偏置和选择性偏差

一、归纳偏置

1、概念

2、例子

3、作用

二、选择性偏差

参考文献：