zoukankan      html  css  js  c++  java
  • R语言数据集分割

    好在R和Python中有现成的数据集分割函数,避免手动写函数导致划分比例不合理、训练集与测试集的样本的结构与总体不均衡的问题。

    R语言中caTools包中的sample.split函数可以用来自动将原始数据集分割成训练集和测试集。

    方法一  caTools中的sample.split函数

    install.packages("caTools")
    library("caTools")
    set.seed(123)
    data(iris)
    table(iris$Species)
    split = sample.split(iris$Species,SplitRatio = .8)
    train_data = subset(iris,split == TRUE)
    test_data  = subset(iris,split == FALSE)
    table(train_data$Species)
    table(test_data$Species)
    

     

    划分方法二——createDataPartition函数

     

    library("caret")
    split1  <- createDataPartition(y=iris$Species,p=0.8,list = FALSE)
    
    train_data <- iris[split1,]
    table(train_data$Species)
    test_data  <- iris[-split1,]
    table(test_data$Species)
    

      

  • 相关阅读:
    水壶-[Kruskal重构树] [解题报告]
    线性求逆元推导
    边界线与两端对齐
    左边竖条的实现方法
    $.ajax()知识
    area热点区域
    AJAX与XMLHttpRequest
    js运行机制
    优先级
    各种图形
  • 原文地址:https://www.cnblogs.com/cxy-0902/p/12703660.html
Copyright © 2011-2022 走看看