ubuntu之路——day10.3 train/dev/test的划分、大小和指标更新

zoukankan html css js c++ java

ubuntu之路——day10.3 train/dev/test的划分、大小和指标更新

train/dev/test的划分

我们在前面的博文中已经提到了train/dev/test的相关做法。比如不能将dev和test混为一谈。同时要保证数据集的同分布等。

现在在train/dev/test的划分中，我们依然要旧事重提关于same distribution即同分布的概念。

假设我们现在有一种商品来自8个国家，如果我们将四个国家作为train和dev，将另外四个国家作为test，这种做法显然是错的。

因为我们建立的模型的靶点是为了逼近前四个国家的结果，但是在真正测试的时候我们移动了靶点，所以结果肯定是不好的。(当然这其实引入了火热的transfer learning的目标，但显然的我们不能直接这么做)

更好的方法是将这8个国家的样本全部进行组合，然后随机抽取一部分作为开发集，另一部分作为测试集，这就保证了同分布，也保证了目标的一致性。

开发集和测试集的大小

在ML的早期：train set 70% + test set 30% 或者 train set 60% + dev set 20% + test set 20%

这种划分方式在早期的机器学习中是合理的，因为早期的数据是小规模的比如100、1000、10000条数据的时候

在DL的时代：train set 98% + dev set 1% + test set 1%

因为在深度网络的大数据时代，当我们有了几十万条、一百万条甚至更多的数据的时候，利用其中1%作为测试已经是很大的数据了。

开发集的更新和评价指标的更新：

在上面的猫图片分类例子中，如果一个error小的算法看起来比较好，但是它会提供比如porn图等不可接受的服务时，我们就要更改评价指标，比如图中的加权公式，让其在将特定的porn图分类为猫时扩大错误权重，这样最终的error就会变大。

其次有关于train set的更新，比如图片分类如果我们在开发阶段引入了高质量、专业精美的图片，但是在测试时用户上传了手机的低分辨率，表情怪异，光线过度等图片时，其模型的准确率并不高，此时就要更新开发阶段使用的集合。这仍旧是一种同分布的问题。

查看全文

相关阅读:
#最小生成树,Trie#CF888G Xor-MST
#Tarjan#洛谷 5676 [GZOI2017]小z玩游戏
 #区间dp#CF1114D Flood Fill
#构造，二分#[AGC006B] [AGC006D] Median Pyramid
#0/1分数规划#AT1807 食塩水
 #笛卡尔树#洛谷 3793 由乃救爷爷
 #同余最短路#洛谷 2371 [国家集训队]墨墨的等式
 awk命令使用
 k8s快速删除所有退出的pod
ratticdb密码管理工具安装使用

原文地址：https://www.cnblogs.com/NWNU-LHY/p/11207150.html