模型误差的来源
非线性模型
深度学习
模型集成
为什么能提高效果
- 增强模型的表达能力
- 降低误差
- 假设单个分类器误差p,分类器之间独立,T个分类器采用投票进行预测,得到集成模型H
- 集成分类器误差为
- T = 5,p = 0.1时,e(H) =< 0.01
决策树:把问题问到点子上
决策树:空间的方块划分
决策树的生成
节点特征和分割点的选择
节点不纯度的度量
Gini指数
Gini 指数(计算示例)
信息熵
误分率
随机森林:独立思考的重要性
- 最典型的Bagging算法:“随机”是其核心,“森林”意在说明它是通过组合多棵决策树来构建模型
- 主要特点
- 对样本进行有回放抽样
- 对特征进行随机抽样
- 应用场景广泛:例如市场营销、股票市场分析、金融欺诈检测、基因组数据分析和疾病风险预测
随机森林的算法流程
算法分析:
AdaBoost:站在前人的肩膀上前进
误差分析: