zoukankan      html  css  js  c++  java
  • 基于Breast Cancer dataset的决策树分类及可视化

    Task description:

    Use the decision tree for classification based on Breast cancer dataset available at https://www.kaggle.com/uciml/breast-cancer-wisconsin-data. 

    基于Python的可视化参考:DT可视化工具graphviz,python接口工具为pydotplus,需要提前安装graphviz并添加PATH到环境变量中,之后利用pydotplus可视化sklearn中的DT结果。http://sklearn.apachecn.org/cn/0.19.0/modules/tree.html#tree-algorithms

    Graphviz 不能通过 pip 直接安装,需要手动在官网下载并安装:https://graphviz.gitlab.io/about/并添加到环境变量。pydotplus可以通过pip安装。

    1:首先需要获得Breast Cancer dataset数据集,在kaggle上获取该数据集需要翻墙,该数据解压后为csv格式

    2:使用pandas.read_csv()来读入数据,并查看数据的前五项条目

    3:查看数据的具体信息,一共有32列(其中第二列diagnosis为标签,其他列为特征),569行,发现有一列为空列你并将其删除

    4:将数据调整成sklearn能够传入的格式,即将特征值和标签分离,然后将训练和测试数据按照7:3的比例划分

    5:sklearn模型运算分为三步:调用模型,训练模型,评价模型

         先使用默认参数对模型进行初步的训练,并使用cross_score对模型进行评估

    6:使用网格搜索调整参数

    7:将训练得到的最佳参数导入模型

    8:利用graphviz对决策树进行可视化

  • 相关阅读:
    Tomcat && Servlet
    List,Set,Collections工具类
    多表查询
    常用的API--集合
    msmpeng.exe阻止移动硬盘弹出
    接口400错误解析
    JDBC/Mybatis连接数据库报错:The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents more than one time zone.
    tomcat启动报错:A child container failed during start
    PAT 1019 数字黑洞
    PAT 1017 A除以B
  • 原文地址:https://www.cnblogs.com/chance-zou/p/11625960.html
Copyright © 2011-2022 走看看