《机器学习实战》笔记---3.1、决策树 构建
一、总结
一句话总结:
3.1.1、信息增益
3.1.2、划分数据集
3.1.3、递归构建决策树
1、决策树的主要优势?
第2章介绍的【k-近邻算法】可以很好地完成分类任务,但是它最大的【缺点】就是【无法给出数据的内在含义】,决策树的主要优势就在于【数据形式非常容易理解】。
2、决策树中应用?
【专家系统】中经常使用决策树,而且决策树给出结果往往可以匹敌在当前领域具有几十年工作经验的人类专家
3、决策树优缺点?
【优点】:计算复杂度不高,输出结果【易于理解】,对中间值的缺失不敏感,可以处理不相关特征数据。
【缺点】:可能会产生【过度匹配】问题
4、决策树 构建过程?
在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到【决定性的特征】,划分岀出最好的结果,我们必须【评估每个特征】。
完成测试之后,原始数据集就被【划分为几个数据子集】。这些数据子集会分布【在第一个决策点的所有分支上】。如果某个分支下的数据属于同一类型,则当前无需阅读的垃圾邮件已经正确地划分数据分类,无需进一步对数据集进行分割。
如果【数据子集内的数据不属于同一类型】,则需要重复划分数据子集的过程。如何划分数据子集的算法和划分原始数据集的方法相同,直到所有【具有相同类型的数据均在一个数据子集内】。
5、决策树 核心?
【寻找决定性特征】:在构造决策树时,我们需要解决的第—个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特征,划分出最好的结果,我们必须评估每个特征。完成测试之后,原始数据集就被划分为几个数据子集。
6、决策树划分数据集的大原则?
将无序的数据变得更加有序
7、基尼不纯度(Gini impurity)?
另一个【度量集合无序程度】的方法是基尼不纯度(Gini impurity),简单地说就是从一个数据集中【随机选取子项】,度量其被【错误分类到其他分组里的概率】。
二、内容在总结中
转自或参考: