防止或减轻过拟合的方式（一）——正则化

zoukankan html css js c++ java

防止或减轻过拟合的方式（一）——正则化
在进行模型搭建时常用的解决过拟合的方法有以下几种：

　　· 采用更多的数据

　　· 迫使模型的复杂度降低（减少层数、正则化）

　　· dropout（提高鲁棒性）

　　· 提早结束训练过程

　　· 数据增强

这里重点讲正则化(regularization)

假定对于一个二分类问题，它的交叉熵损失函数为

J(ω) = - 1/m Σ [ y_ilny_i^'+ (1-y_i)ln(1-y_i') ]

所谓正则化，即在损失函数的基础上加上一个范数，当加上L₁范数时，被称为L₁正则化，当加上L₂范数时，被称为L₂正则化

其思想就是在损失函数中加入被称为正则化项（Regularizer）的惩罚

L₁(θ) = ||θ||₁= Σ|θ_i|

L₂(θ) = ||θ||₂²= Σ|θ_i|²

待优化的函数就从J(ω)变为了J(ω)+λL₁(θ)或J(ω)+λL₂(θ)

那么如何给网络结构添加这样的结构？代码如下：
l2_model = keras.Sequential([ keras.layers.Dense(16,kernal_regularizer=keras.regularizers.l2(0.001)), keras.layers.Dense(16,kernel_regularizer=keras.regularizers.l2(0.001)), keras.layers.Dense(1,activation=tf.nn.sigmoid) ])
更加灵活的添加方式如下：
for step,(x,y) in enumerate(db): with tf.GradientTape() as tape: # …… loss = tf.reduce_mean(tf.losses.categorical_crossentropy(y_onehot,out,from_logits=True)) loss_regularization = [] for p in network.trainable_variables: loss_regularization.append(tf.nn.l2_loss(p)) loss_regularization = tf.reduce_sum(tf.stack(loss_regularization)) loss = loss +0.0001 * loss_regularization grad = tape.gradient(loss,network.trainable_variables) optimizer.apply_gradients(zip(grad,network.trainable_variables))
最小化J(ω)+λL(θ)意味着需要在偏好小范数权重和拟合训练数据之间找到一个平衡，其根本思想是通过限制权重的大小，降低模型拟合训练集中存在噪音的概率，从而减轻过拟合。需要注意的是，这两种正则化在使用时存在两个主要的区别，首先L1正则化会让参数变得更稀疏（会有更多的参数变为0），而L2正则化不会；其次，计算L1正则化的公式不可导，而计算L2正则化的公式可导，这就导致了在优化时计算L2正则化损失函数的偏导数要更加简洁，而计算L1正则化损失函数的偏导数要更加复杂。
查看全文

相关阅读:
[Debug] A strange error encountered today in ROS
实操 | 安装一台3D打印机
 实操 | Getting started with Baxter Research Robot ...
学习笔记 | What is Monocular Vision?
路线图 | Roadmap of SLAM Research
路线图 | Road-map of Cracking the Coding Interview as a C++ Developer
实操 | Implementing Cartographer ROS on TurtleBots
实操 | Implementing Google's Open Source Slam "Cartographer" demos in ROS / rviz
科技新闻 | Google's Open Source SLAM Library ---- Cartographer
实操 | Implementing "slam_karto" package on a Freight robot

原文地址：https://www.cnblogs.com/zdm-code/p/12248766.html