信息增益=信息熵-条件熵 - 走看看

zoukankan html css js c++ java

信息增益=信息熵-条件熵

信息增益=信息熵-条件熵

条件熵越小，意味着在此条件下，数据越纯粹。

如果将记录id考虑到条件熵里的话，计算的信息增益是最大的。按规则应该选择记录id来分类。但是这样，对后来的新记录就预测不准确。这就是过拟合问题。此时就应选择信息增益率这个概念。

信息增益率=信息增益/信息熵 g_r(D,A)₌g(D,A)/H(A)

随机森林：决策树容易受到异常数据的影响。

随机森例：采用少数服从多数的原则。

随机森林：对异常数据由较强的抗干扰能力。

随机森林：放回式的抽取数据，列向抽取----->抽取列所有行的数据。sample抽行的所有列的数据，有放回也有不放回。

bagging：训练多个模型。逻辑回归，随机森林，决策树。每个模型的预测结果比较选择。

查看全文

相关阅读:
boostrapvalidator
bootstrap 整理
 emil 的使用
 sass笔记
 sql 语句的优化
 多线程笔记
 mysql笔记
 react
优雅的创建map/list集合
 spring中路径的注入

原文地址：https://www.cnblogs.com/huiandong/p/9177222.html

Copyright © 2011-2022 走看看