relu函数为分段线性函数，为什么会增加非线性元素

zoukankan html css js c++ java

relu函数为分段线性函数，为什么会增加非线性元素

relu函数为分段线性函数，为什么会增加非线性元素

我们知道激活函数的作用就是为了为神经网络增加非线性因素，使其可以拟合任意的函数。那么relu在大于的时候就是线性函数，如果我们的输出值一直是在大于0的状态下，怎么可以拟合非线性函数呢？

relu是非线性激活函数
题主的疑问在于，为什么relu这种“看似线性”（分段线性）的激活函数所形成的网络，居然能够增加非线性的表达能力。
1、首先什么是线性的网络，如果把线性网络看成一个大的矩阵M。那么输入样本A和B，则会经过同样的线性变换MA，MB（这里A和B经历的线性变换矩阵M是一样的）。
2、的确对于单一的样本A，经过由relu激活函数所构成神经网络，其过程确实可以等价是经过了一个线性变换M1，但是对于样本B，在经过同样的网络时，由于每个神经元是否激活（0或者Wx+b）与样本A经过时情形不同了（不同样本），因此B所经历的线性变换M2并不等于M1。因此，relu构成的神经网络虽然对每个样本都是线性变换，但是不同样本之间经历的线性变换M并不一样，所以整个样本空间在经过relu构成的网络时其实是经历了非线性变换的。
3、还有一种解释就是，不同样本的同一个feature，在通过relu构成的神经网络时，流经的路径不一样（relu激活值为0，则堵塞；激活值为本身，则通过），因此最终的输出空间其实是输入空间的非线性变换得来的。
4、更极端的，不管是tanh还是sigmoid，你都可以把它们近似看成是分段线性的函数（很多段），但依然能够有非线性表达能力；relu虽然只有两段，但同样也是非线性激活函数，道理与之是一样的。
5、relu的优势在于运算简单，网络学习速度快

解释的比较好

查看全文

相关阅读:
水晶苍蝇拍：从“航空母舰”看企业竞争优势分析 (2010-05-11 11:48:38)
水晶苍蝇拍：为何设定了安全边际后还吃大跌？
水晶苍蝇拍：“低风险，高不确定性”的启示 (2010-04-24 22:02:13)
水晶苍蝇拍：我这样看投资的安全性 (2009-08-27 20:08:53)
水晶苍蝇拍：不同企业的估值差告诉我们什么？ (2010-04-21 20:56:19)
水晶苍蝇拍：估值，像雾像雨又像风 (2010-03-15 10:44:16)
水晶苍蝇拍：长持的简单逻辑 (2009-05-25 18:08:43)
Android中RelativeLayout各个属性的含义
 有道词典 Andriod 版本数据格式分析
 电驴提示“该内容尚未提供权利证明，无法提供下载”之解决办法详解

原文地址：https://www.cnblogs.com/lzida9223/p/10972783.html