课时四、决策树和随机森林

zoukankan html css js c++ java

课时四、决策树和随机森林
决策树
- 通常决策树主要有三种实现，分别是ID3算法，CART算法和C4.5算法。
- 随机森林的重点在于单个决策树是如何建造的
CART
- Classification And Regression Tree，即分类回归树算法，简称CART算法，它是决策树的一种实现.
- CART算法是一种二分递归分割技术，把当前样本划分为两个子样本，使得生成的每个非叶子结点都有两个分支，因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树，它在每一步的决策时只能是“是”或者“否”，即使一个feature有多个取值，也是把数据分为两部分。在CART算法中主要分为两个步骤:
  
  将样本递归划分进行建树过程
  
  用验证数据进行剪枝
- 原理
熵
- 信息论中，熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量，熵越大，信源的分布越随机
- 熵是描述一个系统的无序程度的变量；同样的表述还有，熵是系统混乱度的度量，一切自发的不可逆过程都是从有序到无序的变化过程，向熵增的方向进行
信息熵

交叉熵和相对熵
- 交叉熵的由来
- 相对熵的由来
- 条件熵
决策树算法

三种决策树算法：ID3、C4.5、CART

决策树的评价

过拟合的解决方法：剪枝、随机森林

剪枝
- 剪枝系数的确定
Bootstraping
- 策略
- OOB数据
样本不均衡的常用处理方法

使用RF建立计算样本间相似度
- 使用随机森林计算特征重要度
孤立森林（Isolation Forest）：常用于异常值检测
查看全文

相关阅读:
【软件测试部署基础】maven的认识
 测试管理那些事[组建测试团队的思考]
Django 框架基本操作(二)
测试人员的工作开展方式
 产品管理基础知识
 项目经理与职能经理的区别
 python 面向对象（二）
Python 常用方法和模块的使用(time & datetime & os &random &sys &shutil)-（六）
python基本案例实现
 JAVA基础——集合浅析

原文地址：https://www.cnblogs.com/linyk/p/13276898.html

课时四、决策树和随机森林

决策树

CART

熵

信息熵

交叉熵和相对熵

决策树算法

三种决策树算法：ID3、C4.5、CART

决策树的评价

过拟合的解决方法：剪枝、随机森林

剪枝

Bootstraping

样本不均衡的常用处理方法

使用RF建立计算样本间相似度

孤立森林（Isolation Forest）：常用于异常值检测