zoukankan      html  css  js  c++  java
  • 机器学习 KNN分类算法简单介绍+数据集拆分

     

     

     

     

    鸢尾花数据集的分类操作

    from sklearn.datasets import load_iris
    iris_dataset=load_iris()
    print(iris_dataset.keys())
    print(iris_dataset['data'].shape)#查看数据的结构
    print(iris_dataset['data'][:5])#查看前五条数据
    #查看分类信息
    print(iris_dataset['target_names'])#标记名
    print(type(iris_dataset['target']))#标记类型
    print(iris_dataset['target'].shape)#标记维度
    print(iris_dataset['target'])#标记值
    print(iris_dataset['DESCR'][:20]+"
    ......")#查看数据集的简介的前20个字符

     

     训练集可以认为是测试题       带答案

    测试集可以认为是考试卷

    train_data 是要划分的样本特征数据

    train_target 要划分的样本结果

    test_size 测试集占总的百分比

    random_state 随机种子编号  若缺省则每次不同

    鸢尾花数据集拆分

    from sklearn.datasets import load_iris
    from sklearn.model_selection import train_test_split
    iris_dataset=load_iris()
    X_train,X_test,y_train,y_test=train_test_split(iris_dataset['data'],iris_dataset['target'],random_state=2)
    print("X_train",X_train)
    print("y_train",y_train)
    print("X_test",X_test)
    print("y_test",y_test)
    print("X_train shape: {}".format(X_train.shape))
    print("X_test shape: {}".format(X_test.shape))

    部分结果

     可以看到数据集被拆分成训练集和测试集两部分

  • 相关阅读:
    hdu1159 LCS模板题
    RabbitMQ入门
    Dubbo
    SpringMVC
    MySQL的再理解
    ElasticSearch
    redis入门学习
    Swagger
    SSM整合
    MybatisPlus
  • 原文地址:https://www.cnblogs.com/fengzhiyuan/p/14728614.html
Copyright © 2011-2022 走看看