zoukankan      html  css  js  c++  java
  • 信息增益=信息熵-条件熵

    信息增益=信息熵-条件熵

    条件熵越小,意味着在此条件下,数据越纯粹。

    如果将记录id考虑到条件熵里的话,计算的信息增益是最大的。按规则应该选择记录id来分类。但是这样,对后来的新记录就预测不准确。这就是过拟合问题。此时就应选择信息增益率这个概念

    信息增益率=信息增益/信息熵    gr(D,A)=g(D,A)/H(A)

    随机森林:决策树容易受到异常数据的影响。

    随机森例:采用少数服从多数的原则。

    随机森林:对异常数据由较强的抗干扰能力。

    随机森林:放回式的抽取数据,列向抽取----->抽取列所有行的数据。sample抽行的所有列的数据,有放回也有不放回。

    bagging:训练多个模型。逻辑回归,随机森林,决策树。每个模型的预测结果比较选择。

  • 相关阅读:
    【转】 上海交大ACM队长建议
    好资源
    待做
    分治思想
    周末看的东西
    [UVa11988] Broken Keyboard (a.k.a. Beiju Text)
    UVa 题目分类
    [UVa11729] Commando War
    [LA3135] Arugus
    [UVa11995] I Can Guess the Data Structure!
  • 原文地址:https://www.cnblogs.com/huiandong/p/9177222.html
Copyright © 2011-2022 走看看