zoukankan      html  css  js  c++  java
  • 基于Breast Cancer dataset的决策树分类及可视化

    Task description:

    Use the decision tree for classification based on Breast cancer dataset available at https://www.kaggle.com/uciml/breast-cancer-wisconsin-data. 

    基于Python的可视化参考:DT可视化工具graphviz,python接口工具为pydotplus,需要提前安装graphviz并添加PATH到环境变量中,之后利用pydotplus可视化sklearn中的DT结果。http://sklearn.apachecn.org/cn/0.19.0/modules/tree.html#tree-algorithms

    Graphviz 不能通过 pip 直接安装,需要手动在官网下载并安装:https://graphviz.gitlab.io/about/并添加到环境变量。pydotplus可以通过pip安装。

    1:首先需要获得Breast Cancer dataset数据集,在kaggle上获取该数据集需要翻墙,该数据解压后为csv格式

    2:使用pandas.read_csv()来读入数据,并查看数据的前五项条目

    3:查看数据的具体信息,一共有32列(其中第二列diagnosis为标签,其他列为特征),569行,发现有一列为空列你并将其删除

    4:将数据调整成sklearn能够传入的格式,即将特征值和标签分离,然后将训练和测试数据按照7:3的比例划分

    5:sklearn模型运算分为三步:调用模型,训练模型,评价模型

         先使用默认参数对模型进行初步的训练,并使用cross_score对模型进行评估

    6:使用网格搜索调整参数

    7:将训练得到的最佳参数导入模型

    8:利用graphviz对决策树进行可视化

  • 相关阅读:
    JAVA EE 第一阶段项目问题
    车辆管理系统之开始自己的任务(三)
    车辆管理系统之搭建框架 添加必要的数据 安装svn(二)
    车辆管理系统之分析信息建表(一)
    牛客问题
    记录---base64
    JAVA EE 第一阶段考试
    简单ssh框架整合
    Struts2拦截器
    Struts2文件上传
  • 原文地址:https://www.cnblogs.com/chance-zou/p/11625960.html
Copyright © 2011-2022 走看看