zoukankan html css js c++ java

《机器学习》西瓜书第四章决策树

本章主要对决策树算法进行了讲解，主要有决策树的生成过程、决策树的划分选择、决策树的剪枝处理、连续与缺失值的处理以及多变量决策树。

4.1 基本流程

决策树是基于树的结构来进行决策的。包含一个根节点、若干内部节点和若干叶节点。叶节点对应于决策结果，其他每个结点对应于一个属性测试。

决策树学习的目的是产生一颗泛化能力强的决策树，其基本流程遵循简单的“分而治之”策略。

决策树学习的基本算法

输入：训练集D = {(x₁,y₁),(x₂,y₂),...,(x_n,y_n)};

属性集 A = {a₁,a₂,...,a_d}

过程：函数TreeGenerate（D,A）

1.生成结点node;

if D中样本全属于同一类别C then

将node标记为C类叶节点；return；

end if;

if A = 空集 OR D中样本在A上取值相同 then

将node标记为叶节点，其类别标记为D中样本数最多的类；return

end if

从A中选择最有划分属性a_*;

for a* 的每一个值 a^v do

为node生成一个分支；令Dv表示D中在a*上取值为a^v的样本子集；

if Dv为空 then

将分支结点标记为叶节点，其类别标记为D中样本最多的类；return

else

以TreeGenerate（D_v,A{a*}）为分支结点

end if

end for

输出：以node为根节点的一棵决策树。

4.2划分选择

我们希望决策树分支结点所包含的样本尽可能属于同一类别。

4.2.1 信息增益

“信息熵”-----度量样本纯度的指标，信息熵值越小，纯度越高。

查看全文

相关阅读:
关于闹钟的题
 【历史】- UNIX发展史(BSD,GNU,linux)
使用EF操作Mysql数据库中文变问号的解决方案
 javascript方法的方法名慎用close
使用VS2013 + EF6 + .NET4.5 连接Mysql数据库
 ADO.NET生成的数据库连接字符串解析
 在WebBrowser控件使用js调用C#方法
 Mysql数据库之auto_increment
Visual Studio插件Resharper 2016.1 及以上版本激活方法【亲测有效】
Windows下Mysql5.7开启binlog步骤及注意事项