转自:https://zhuanlan.zhihu.com/p/33173246
https://zhuanlan.zhihu.com/p/55102378
目录:
1. 为什么需要 Normalization
——深度学习中的 Internal Covariate Shift 问题及其影响
2. Normalization 的通用框架与基本思想
——从主流 Normalization 方法中提炼出的抽象框架
3. 主流 Normalization 方法梳理
——结合上述框架,将 BatchNorm / LayerNorm / WeightNorm / CosineNorm 对号入座,各种方法之间的异同水落石出。
4. Normalization 为什么会有效?
——从参数和数据的伸缩不变性探讨Normalization有效的深层原因。
扩展
独立同分布
独立同分布(IID)是指一组随机变量中每个变量的概率分布都相同,且这些随机变量互相独立。独立同分布并非所有机器学习模型的必然要求(比如 Naive Bayes 模型就建立在特征彼此独立的基础之上,而Logistic Regression 、神经网络则在非独立的特征数据上依然可以训练出很好的模型,比如使用LR拟合用户收入,会使用很多相关联的特征,这里就不要求特征之间是独立同分布),但独立同分布的数据可以简化常规机器学习模型的训练、提升机器学习模型的预测能力,已经是一个共识。
在经典的机器学习问题中,一个经典假设是“源空间(source domain)和目标空间(target domain)的数据分布(distribution)是一致的”,即我们往往假设训练集和测试集分布一致,在训练集上训练模型,在测试集上测试,如果不一致,那么就出现了新的机器学习问题,如 transfer learning / domain adaptation 等。
以人脸识别为例,如果用东方人人脸数据训练,用于识别西方人,相比东方人识别性能会明显下降。当训练集和测试集分布不一致的情况下,通过在训练数据上按经验误差最小准则训练的模型在测试上性能不好,因此出现了迁移学习等技术。
源空间(source domain)表示与测试样本不同的领域,但是有丰富的监督信息;
目标空间(target domain)表示测试样本所在的领域,无标签或者只有少量标签。源域和目标域往往属于同一类任务,但是分布不同。
参考:https://blog.csdn.net/u013841196/article/details/80956828