201119西瓜书系列博客---4、决策树

zoukankan html css js c++ java

201119西瓜书系列博客---4、决策树

201119西瓜书系列博客---4、决策树

一、总结

一句话总结：

决策树学习的【目的是为了产生一棵泛化能力强】，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的【分而治之（divide-and-conquer）】策略。

1、决策树的结构？

一般的，决策树包含一个【根结点，多个内部结点和多个叶结点】

【叶结点表示决策结果（好瓜，坏瓜）】：根据叶结点里面的的样本集合判定该叶结点的决策结果

【内部结点和根结点对应属性测试（attr=?）】：将结点内的样本集合根据属性测试的结果划分到各个子结点；根结点包含样本全集

从根结点到每个叶结点的【路径即对应着一个判定测试序列】

2、决策树学习的关键？

【决策树学习的关键】是如何【选择最优划分属性】

一般而言，随着划分过程的不断进行，我们希望决策树的分直接点所包含的样本尽可能属于同一类别，即【结点的纯度(purity)越来越高】。（也即信息熵越低）

数据集D的纯度可用【基尼值】来度量

3、剪枝处理（【决策树对付过拟合的主要手段】）？

【剪枝(pruning)】是决策树学习算法对付【“过拟合”】的主要手段。

【决策树分支过多】，可能【把训练集中的一些特性当作所有数据都具有的一般性质而导致过拟合】。

4、一些决策树学习算法可进行【“增量学习”(incremental learning)】？

主要机制是【通过调整分支路径上的划分属性次序来对树进行部分重构】，代表性算法有【ID4,ID5R,ITI】。增量学习可以【有效降低每次接收到新样本后的训练时间开销】，但多步增量学习后的模型会与基于全部数据训练而得的模型有较大差别

二、201119西瓜书系列博客---4、决策树

转自或参考：西瓜书学习笔记——第四章：决策树
https://blog.csdn.net/shichensuyu/article/details/90441795

我的旨在学过的东西不再忘记（主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法）的偏公益性质的完全免费的编程视频学习网站： fanrenyi.com；有各种前端、后端、算法、大数据、人工智能等课程。

版权申明：欢迎转载，但请注明出处
一些博文中有一些参考内容因时间久远找不到来源了没有注明，如果侵权请联系我删除。

博主25岁，前端后端算法大数据人工智能都有兴趣。

大家有啥都可以加博主联系方式（qq404006308，微信fan404006308）互相交流。工作、生活、心境，可以互相启迪。

聊技术，交朋友，修心境，qq404006308，微信fan404006308

26岁，真心找女朋友，非诚勿扰，微信fan404006308，qq404006308

人工智能群：939687837

作者相关推荐

感悟总结

其它重要感悟总结

感悟总结200813 最近心境200830 最近心境201019 201218-210205

查看全文

相关阅读:
（一）主动学习概念与技术
 mybatis 分页插件PageHelper 使用方法
 单例模式-Singleton
解决tomcat启动报 java.lang.IllegalArgumentException: Invalid <url-pattern> login in servlet mapping
如何在MSDN上获取Win7镜像
 解决 Could not find resource com/baidou/dao/UserMapper.xml
4、XML 配置
 3、使用Map传参 & 模糊查询
 图解python环境搭建
 2、CRUD

原文地址：https://www.cnblogs.com/Renyi-Fan/p/14013447.html

201119西瓜书系列博客---4、决策树

201119西瓜书系列博客---4、决策树

一、总结

一句话总结：

决策树学习的【目的是为了产生一棵泛化能力强】，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的【分而治之（divide-and-conquer）】策略。

1、决策树的结构？

一般的，决策树包含一个【根结点，多个内部结点和多个叶结点】

【叶结点表示决策结果（好瓜，坏瓜）】：根据叶结点里面的的样本集合判定该叶结点的决策结果

【内部结点和根结点对应属性测试（attr=?）】：将结点内的样本集合根据属性测试的结果划分到各个子结点；根结点包含样本全集

从根结点到每个叶结点的【路径即对应着一个判定测试序列】

2、决策树学习的关键？

【决策树学习的关键】是如何【选择最优划分属性】

一般而言，随着划分过程的不断进行，我们希望决策树的分直接点所包含的样本尽可能属于同一类别，即【结点的纯度(purity)越来越高】。（也即信息熵越低）

数据集D的纯度可用【基尼值】来度量

3、剪枝处理（【决策树对付过拟合的主要手段】）？

【剪枝(pruning)】是决策树学习算法对付【“过拟合”】的主要手段。

【决策树分支过多】，可能【把训练集中的一些特性当作所有数据都具有的一般性质而导致过拟合】。

4、一些决策树学习算法可进行【“增量学习”(incremental learning)】？

二、201119西瓜书系列博客---4、决策树

作者相关推荐