zoukankan      html  css  js  c++  java
  • Sklearn提供的常用数据集

    一、自带的小数据集(packageddataset):sklearn.datasets.load_<name>

    1)        鸢尾花数据集:load_iris():用于分类任务的数据集

    2)        手写数字数据集:load_digits():用于分类任务或者降维任务的数据集

    3)        乳腺癌数据集load-barest-cancer():简单经典的用于二分类任务的数据集

    4)        糖尿病数据集:load-diabetes():经典的用于回归认为的数据集,值得注意的是,这10个特征中的每个特征都已经被处理成0均值,方差归一化的特征值。

    5)        波士顿房价数据集:load-boston():经典的用于回归任务的数据集

    6)        体能训练数据集:load-linnerud():经典的用于多变量回归任务的数据集。

    二、可在线下载的数据集:sklearn.datasets.fetch_<name>,一般规模较大(DownloadedDataset)。

    fetch_olivetti_faces(data_home=None, shuffle=False, random_state=0,download_if_missing=True):Olivetti 脸部图片数据集。

    三、计算机生成的数据集(GeneratedDataset):sklearn.datasets.make_<name>

    1)        make_blobs:多类单标签数据集,为每个类分配一个或多个正太分布的点集

    2)        make_classification:多类单标签数据集,为每个类分配一个或多个正太分布的点集,提供了为数据添加噪声的方式,包括维度相关性,无效特征以及冗余特征等

    3)        make_gaussian-quantiles:将一个单高斯分布的点集划分为两个数量均等的点集,作为两类

    4)        make_hastie-10-2:产生一个相似的二元分类数据集,有10个维度

    5)        make_circle和make_moom产生二维二元分类数据集来测试某些算法的性能,可以为数据集添加噪声,可以为二元分类器产生一些球形判决界面的数据。

    四、svmlight/libsvm格式的数据集:sklearn.datasets.load_svmlight_file(...)

    from sklearn.datasets importload_svmlight_file

    x_train,y_train=load_svmlight_file("/path/to/train_dataset.txt","")#如果要加在多个数据的时候,可以用逗号隔开

    svmlight/libsvm的每一行样本的存放格式:

     <label><feature-id>:<feature-value> <feature-id>:<feature-value>....

    五、data.org在线下载获取的数据集:sklearn.datasets.fetch_mldata(...)

    from sklearn.datasets.mldata import fetch_mldata
    import tempfile
    test_data_home = tempfile.mkdtemp()
    iris = fetch_mldata('iris', data_home=test_data_home)
    print(iris);print(iris.target.shape);print(iris.data.shape)

    原文链接:https://blog.csdn.net/weixin_42039090/java/article/details/80614918

    目前正在学习Python中,如果有什么不对的地方 希望广大朋友,指出错误指出,深表感谢
  • 相关阅读:
    BZOJ4889: [TJOI2017]不勤劳的图书管理员
    BZOJ3932: [CQOI2015]任务查询系统
    BZOJ1926: [Sdoi2010]粟粟的书架
    POJ 3281 Dining(网络流-拆点)
    POJ 1273 Drainage Ditches(网络流-最大流)
    POJ 1325 Machine schedine (二分图-最小点覆盖数=最大匹配边数)
    HDU 1281 棋盘游戏
    HDU2255 奔小康赚小钱钱(二分图-最大带权匹配)
    HDU 2444 The Accomodation of Students (二分图存在的判定以及最大匹配数)
    POJ 3660 cow contest (Folyed 求传递闭包)
  • 原文地址:https://www.cnblogs.com/shiguanggege/p/12649701.html
Copyright © 2011-2022 走看看