zoukankan      html  css  js  c++  java
  • 对交叉验证的认识

    在我们比赛的算法中,我们使用了交叉验证方法来筛选比较重要的特征,现在我们来了解一下什么是交叉验证(Cross-Validation):有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。

    交叉验证对于人工智能,机器学习,模式识别,分类器等研究都具有很强的指导与验证意义。
    基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标.

    数据集分割原则

    交叉验证在,原始数据集分割为训练集与测试集,必须遵守两个要点:

    1. 训练集中样本数量必须够多,一般至少大于总样本数的 50%。
    2. 两组子集必须从完整集合中均匀取样。

    其中第 2 点特别重要,均匀取样的目的是希望减少 训练集/测试集 与完整集合之间的偏差(bias),但却也不易做到。一般的作法是随机取样,当样本数量足够时,便可达到均匀取样的效果。然而随机也正是此作法的盲点,也是经常是可以在数据上做手脚的地方。举例来说,当辨识率不理想时,便重新取样一组训练集 与测试集,直到测试集的辨识率满意为止,但严格来说便算是作弊。

  • 相关阅读:
    转MySQL详解--索引
    [转]关于MYSQL Innodb 锁行还是锁表
    根据STATUS信息对MySQL进行优化
    源码编译安装 MySQL 5.5.x 实践
    thrift服务端到客户端开发简单示例
    thrift安装
    thrift 调取 python php go 客户端代码
    Linux系统启动级别及顺序
    Linux手动释放内存
    /etc/passwd&/etc/shadow文件分析
  • 原文地址:https://www.cnblogs.com/jjuiipg2017/p/7074229.html
Copyright © 2011-2022 走看看