zoukankan      html  css  js  c++  java
  • 统计学习方法概论

    一 统计学习	
    统计学习是关于计算机基于数据构建概论统计模型并运用模型对数据进行预测和分析的一门学科。其中“学习”的定义是:如果一个系统能够通过某个过程改进它的性能,这就是学习。
    1.1 统计学习对象
    统计学习的对象是数据,提取数据特征,抽象出数据模型,再应用到对数据的预测和分析中。
    1.2 统计学习目的
    统计学习的目的是对未知新数据进行预测和分析。主要是通过构建概论统计模型来实现。因此统计学习研究构建什么样的概率统计模型和如何构建概论统计模型。
    1.3 统计学习方法
    统计学习方法大致分为:监督学习、无监督学习、半监督学习、强化学习。
    以下主要讨论监督学习,其步骤为:得到有限的训练数据集合;确定模型的集合;确定模型选择的准则(学习的策略);实现求解最优模型的算法(学习的算法);通过算法选择最优模型;使用模型预测未知新数据;
    二 监督学习
    监督学习的任务是学习一个模型,使其能够对任意给定的输入,对相应的输出给予一个很好地预测。
    基本概念:
    输入空间、输出空间:输入输出可能取值的集合,输入空间和输出空间可以是同一个空间,也可以是不同的空间,通常输出空间远远小于输入空间。
    特征空间:每个具体的输入是一个实例,通常由特征向量表示,这时,所有特征向量存在的空间称为特征空间,特征空间的每一个维对应一个特征。有时假设输入空间和特征空间是相同的空间,有时假设两者不同,但本质上模型都是定义在特征空间上的,有一个输入空间到特征空间的映射。
    输入实例x的特征向量: x = (x1,x2,...,xn)
    训练集:T = {(x1,y1),(x2,y2),...,(xn,yn)}
    回归问题:输入变量与输出变量均为连续变量的预测问题
    分类问题:输出变量为有限个离散变量的预测问题
    三 统计学习三要素
    统计学习方法是由模型、策略和算法三部分组成的,即可以简单表达成:方法 = 模型 + 策略 + 算法 。
    3.1 模型
    统计学习首要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或者决策函数。模型的假设空间包含所有可能的条件概率分布或者决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。
    假设空间用F表示。假设空间可以定义为决策函数的集合 F={f|Y=fθ(X),θ€R},或者可以定义为条件概率的集合F={P|Pθ(Y|X)。,θ€Rn}。其中,X和Y是定义在输入空间和输出空间的变量,参数向量θ取值n维欧式空间,也称参数空间。
    由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。当论及模型时,一般只使用其中一种。
    3.2 策略
    有了模型的假设空间,接着需要考虑按照什么样的准则学习或者选择最优的模型。统计学习的目的是在于从假设空间中选择最优模型。
    监督学习问题是在假设空间F中选取模型f作为决策函数,对于给定的输入X,由f(x)给出相应的输出Y,这个输出的预测值f(x)与真实值Y可能一致也可能不一致,用一个损失函数来度量预测错误的程度,损失函数是f(x)和Y的非负实值函数,记作L(Y,f(x))
    损失函数通常有0-1损失、平方损失、绝对损失、对数损失。损失函数值越小,模型就越好。由于模型的输入输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是Rexp(f)=Ep[L(Y,f(x))]=∫x*yL(Y,f(x))P(x,y)dxdy.这是风险损失或者期望损失。
    学习的目标就是选择期望风险最小的模型。由于联合分布P(x,y)未知,期望损失不能直接计算。
    模型f(x)关于训练数据集的平均损失称为经验风险,记作Remp=1/N * ΣL(Y,f(x))RempRempRemp
    根据大数定律,当样本容量N趋于无穷时,经验风险趋于期望风险,所以可以考虑用经验风险估计期望风险。但当训练样本数目有限时,用经验风险常常不理想,要对经验风险进行一定的矫正。因此,这就是监督学习的两个基本策略:经验风险最小化和结构风险最小化。













  • 相关阅读:
    eclipse git如何切换分支,拉取代码,合并代码,解决冲突等
    eclipse git提交项目以及down项目大致步骤
    彻底卸载Oracle
    收藏的技术点
    SpringBoot+MyBatis整合报错Property 'sqlSessionFactory' or 'sqlSessionTemplate' are required
    nginx基本配置
    window下命令启动/停止nginx
    springboot 新建的时候 pom 第一行出现红叉,项目可以正常运行
    oracle replace的用法
    启动tomcat出现闪退的原因
  • 原文地址:https://www.cnblogs.com/tosouth/p/4732067.html
Copyright © 2011-2022 走看看