zoukankan      html  css  js  c++  java
  • 机器学习十讲——第四讲

    第四讲——模型提升:

      课程先分析了误差来源:

       f*是通过训练集得到的一个函数,f^是这个空间H中理论最好的函数,而这个训练集背后是由f产生的,也就是说f是最好的函数,f^次之,f*是由训练集D得到的函数,他和空间H中理论最好的f^之间的误差叫做估计误差,f^与f之间的误差,叫做逼近误差。

     

      感知机看左边,只是一个简单的线性回归和一个简单的非线性映射;多层感知机看右图,由很多神经元组成(左边那个就可以看为一个神经元),也是多个简单非线性函数的复合;而当感知机很多的时候,神经元很多很多,就叫做深度学习。

      之后提到了一个重要思想:模型集成:

     随后分析了模型集成为什么能提高效率:

     补:其中K是正确的次数,t-k为犯错次数(前提:分类器之间相互独立)

      之后以一个小例子介绍了决策树的概念:

     

     接下来就是节点不纯度的度量:分为三种方法:(后两种了解即可)

      第一种Gini指数:

     生成结果后还可以将下面能分的节点继续分解,继续求值,取最大值。

      第二种信息熵:

     第三种误分率:

     之后介绍了随机森林(这是第一种算法模型):

     

     

     第二种模型:串型的训练

     AdaBoost的训练误差:

     最后就是老师带领着去做了三个实验,以及一些资源的获取方式的介绍。

  • 相关阅读:
    excel 2003系列
    DataTab转换XML XML转换DataTable 的类[转]
    全角转半角与半角转全角
    Day2
    Day6 && Day7图论
    Day1
    Android为何以及如何保存Fragment实例
    Android应用的本地化及知识拓展之配置修饰符
    Leetcode NO.136 Single Number 只出现一次的数字
    经典排序算法(四) —— Quick Sort 快速排序
  • 原文地址:https://www.cnblogs.com/zhangxinyue/p/14354900.html
Copyright © 2011-2022 走看看