噪音样本

zoukankan html css js c++ java

噪音样本

◆版权声明：本文出自胖喵~的博客，转载必须注明出处。

转载请注明出处：https://www.cnblogs.com/by-dream/p/12895967.html　

一个分类模型的训练的基本过程：

收集正、负样本——>训练——>模型收敛

现象：

当训练数据比较干净、纯净的情况下，模型的训练在很少轮的情况下就可以达到收敛，而当训练数据不干净，有大量噪声样本混入，训练的次数可能会成倍的增加，甚至都无法得到比较好的收敛。

因此需要寻找噪音样本。

依据：

通常噪音样本属于难以学习或其他样本差异较大的样本。这些噪音的样本在学习过程中，loss下降的比较慢，比较难的收敛，通俗解释就是由于神经网络是一个记忆的过程，这些离群点很有可能在一次学习之后就会被忘记，所以loss下降缓慢，最终导致它的loss值就会被干净的样本值更大，因此找到loss值大，难以训练的样本就是噪音样本。

过程：

训练的过程可以认为是在解一个多元复杂方程的过程，通常我们使用梯度下降来寻找最优解，也就是在凸函数上的极小值。假设定义我们的学习为0.001，在训练收敛后，我们便得到了我们想要的模型。

由于我们要找loss比较大的样本，因此我们进行多轮训练，尝试让噪音样本表现和正常样本更加的区分。

此时我们调整学习率到0.01并且按照每一轮下降0.001的规则，一共进行10轮，从0.01->0.009->0.008 ... ->0.001

由于复杂深度网络模型中，存在很多局部最小值点，因此不同的学习率最终都可以找到一个局部最小值点。在每一轮的训练收敛后，每个样本都会得到一个loss值，根据前面我们定义的10轮，在10轮训练结束后，每个样本都会有十个loss值，我们针对每个样本的loss值计算其方差，然后得到一个值，最终方差比较大的就是噪音样本数据。

用处：

我们以一个内容生产的链路来看看优质内容的保障方案：

通过算法挖掘出优质内容在进行人工审核后，进入公域池。一方面通过对公域底池内容进行巡检，确保线上不能透出劣质内容，另一方面需要对不通过样本进行噪音样本识别，挽回优质内容的同时，净化训练数据，从而提升模型效果，让模型挖掘出更加优质的内容，形成良性闭环。

查看全文

相关阅读:
Ubuntu18.04下cuda和cudnn安装
 NVIDIA显卡驱动安装
 ultraiso（软碟通）制作u盘启动盘
 [转载]如何根据相机的参数知道摄像机的内参数矩阵
 C++ Primer : 第十三章 : 拷贝控制之拷贝、赋值与销毁
 用栈操作实现队列的操作
 C++ Primer : 第十二章 : 文本查询程序
 C++ Primer : 第十二章 : 动态内存之allocator类
 C++ Primer : 第十二章 : 动态内存之动态数组
 C++ Primer : 第十二章 : 动态内存之unique_ptr和weak_ptr

原文地址：https://www.cnblogs.com/by-dream/p/12895967.html

一个分类模型的训练的基本过程：

现象：

依据：

过程：

用处：