zoukankan      html  css  js  c++  java
  • (原创)机器学习之概率与统计(三)- 极大似然估计

         目录

    一、参数估计... 2

    二、极大释然估计... 2

    1.似然函数... 2

    2.极大似然估计(MLE... 2

    3.log似然函数... 2

    4.损失函数... 2

    5.求极大似然估计的一般步骤... 2

    三、常见分布的参数估计... 3

    1.高斯分布... 3

    2Bernoulli分布... 3

    3二项分布(Binomia... 4

    4多项分布(Multinoull... 4

    四、机器学习模型的参数估计... 5

    1.回归... 5

    2.线性回归... 5

    2.1线性回归的极大似然估计... 5

    3.Logistic回归... 7

    3.1 Logistic回归的极大似然估计... 7

    4. 朴素贝叶斯(Naive Bayes Classifier, NBC). 9

    4.1定义... 9

    4.2朴素贝叶斯的极大似然估计... 9

    五、估计的评价... 10

    1.    估计量的评价标准... 10

    2.    偏差-方差分解... 10

    3.    监督学习模型的偏差-方差分解... 11

    4.    估计的抽样分布... 11

    4.1参数Bootstrap. 12

    4.2非参数Bootstrap. 12

     

     

    一、参数估计

      参数估计,即估计模型的参数:给定模型p(x|Ɵ)和数据D,选择与数据最匹配的参数Ɵ

      常用估计模型参数的方法:

      (1)矩方法,比如一阶矩,二阶矩,K阶矩;

      (2)极大释然估计:频率学派

      (3)贝叶斯估计:贝叶斯学派

     

    二、极大释然估计

    1.似然函数

        似然(likelihood,可能性的意思),描述的是事件发生可能性的大小。

        似然函数的定义:

        设数据D=X1,…,XN为独立同分布(IID),其概率密度函数(pdf)为p(x|Ɵ),则似然函数定义为:

           clip_image001

        即为在给定数据D的情况下,参数为Ɵ的函数。

     

    2.极大似然估计(MLE

        定义:使得似然函数L(Ɵ)最大的Ɵ的估计:

            clip_image002

    3log似然函数

        定义:

           clip_image003

        即:

           clip_image004

        性质:

    (1)  它和似然函数在相同的位置取极大值

    (2)  在不引起混淆的情况下,有时记log似然函数为似然函数

    (3)  相差常数倍也不影响似然函数取极大值的位置,因此似然函数中的常数项也可以抛弃

    (4)  在分类中log似然有时亦称为交叉熵(cross-entropy)

     

    4.损失函数

        损失函数 = log似然函数,即:

        损失函数 = - log p( Ɵ|D)

     

    5.求极大似然估计的一般步骤

    1)选择模型

    2)得到密度函数p(x)

    3)求似然函数L = Ʃ log.p(x)

    4)对似然函数求极值(求导),得到参数估计

     

    三、常见分布的参数估计

    1.高斯分布

    假设X1,…,XN ~ N (μ, δ2 ),参数为μ, δ2,则高斯分布:

       clip_image005

    的似然函数为:

       clip_image006

    其中,

    样本均值:

       clip_image007 

    样本方差:   

    clip_image008

         因为有:

                   clip_image009

          高斯分布的似然函数化简为:

        clip_image010

        求最大值(求梯度,解方程):

           clip_image011

      得到极值点(一阶导数为0):

          clip_image012[4]

         说明,使用样本的均值和方差作为高斯分布的参数估计,是极大似然的。

     

    2.Bernoulli分布

    Bernoulli分布的密度函数为:

    clip_image013

    其似然函数为:

         clip_image014

    其中,N1为试验结果为1的次数,N2为试验结果为0的次数,

         clip_image015

    求极大似然有:

         clip_image016

    即样本实验结果为1的比率,是Bernoulli分布的参数Ɵ的极大释然估计。

     

    3.二项分布(Binomia

    Binomia分布的密度函数为:

    clip_image017

        其似然函数为:

           clip_image018

        其极大释然估计和Bernoulli分布一样:

        求极大似然有:

         clip_image016[1]

    即样本实验结果为1的比率,是 Binomia分布的参数Ɵ的极大释然估计。

     

    4.多项分布(Multinoull

    Multinoull分布的密度函数为:

    clip_image019

    其似然函数为(其中NK表示N次试验中出现k的次数):

       clip_image020

    约束条件为:

       clip_image021

    采用拉格朗日乘子法求极值:

      clip_image022

    分别对λ和θk求偏导并令其等于0

    clip_image023

    即为θ的最大释然参数估计。

     

    四、机器学习模型的参数估计

    1. 回归

    (1)  正态分布可用于回归系统噪声建模

    (2)  回归是监督学习问题,是输入到输出的映射的学习。

    (3)  回归问题的模型:

    clip_image024

    假设残差服从正态分布:

         clip_image025

        因此,回归问题的模型可以记为:

         clip_image026

        回归即预测其输出:

         clip_image027

    2.线性回归

        线性回归:输入与输出呈线性关系。

        相信回归的模型:

           clip_image028

        即:

           clip_image029

        其中W0是截距,W为权重向量,ε为预测值和真值之间的残差。模型的参数为Ɵ =W, δ2

     

    2.1 线性回归的极大似然估计

    2.1.1 线性回归的似然函数

        线性回归的似然函数为:

           clip_image030

        其中,RSS表示残差平方和(residual sum of squares),即残差向量的L2模:

           clip_image031

        注:平均平方误差(MSE)  = RSS/N

     

    2.1.2 log似然函数求参数估计

    极大似然等价为极小负log似然损失(negative log likelihoodNLL)

    clip_image032

        只取与w有关的项,得到:

           clip_image033

        因为有矩阵求导:

           clip_image034

    所以NLL求导有:

            clip_image035

    求解得到:

            clip_image036[4]

    即为W的极大似然估计,把其代入NLL,则有:

            clip_image037

    求导有:

    clip_image038

    求解得:

        clip_image039

    以上便是线性回归参数Ɵ =W, δ2)的极大似然估计。

     

    2.1.3 计算机求解线性回归的解极大似然估计

    1)当样本数目N较小时,可采用OLS结论,用矩阵QR分解分解得到优化解。

    2)当样本数目N较大时,可采用随机梯度下降方法优化求解:

    <1> 目标函数:

         clip_image040

    <2> 梯度下降法步骤:

    i)给定初值w0

    ii) 更新w,使得J(W)越来越小

       clip_image041

    iii) w的各维同时更新:

       clip_image042

    iv) 直到收敛到某个w值,使得J(W)最小

    其中,α称为学习率,控制下降速度的大小。

     

    3Logistic回归

    1Logistic回归是线性回归的扩展,用于分类任务(0, 1

    2)分类目标为二值变量,因此服从Bernoulli分布:

            P(y|θ)  = clip_image044

        其中y为类别输入(0,1)。

        假设输入为x的线性组合,即输入为x的函数μ(x),则Bernoulli分布的密度函数可以写为:

           P(y|μ(x) )  = clip_image046

        其中:0≤μ(x)1

    (3)  Logistic回归中,输入的x的函数(概率密度函数)为:

    μ(x) = sigm(wTx)

    其中sigm()sigmoid函数,或logistic函数:

    clip_image047

    (4)  logistic回归的概率密度函数为:

    clip_image048

     

     

    3.1 Logistic回归的极大似然估计

    (1)log似然函数求参数估计

    Logistic回归的似然函数为:

         clip_image049

    其中,

    μi = μ(xi) = sigm(wTx)

        yi = 分类标签(0,1

    (1)  梯度下降法求解

    1)对似然函数进行求导

    clip_image050

    其中,

    clip_image051

    以上用到的矩阵求导:

    clip_image052

    2)得到梯度函数

    clip_image053

    3)使用梯度进行迭代

    clip_image054

    即:

    clip_image055

    其中,

    clip_image056

    (2)  牛顿法求解

    1)牛顿法也叫牛顿-拉夫逊(Newton-Raphson)方法,也叫二阶梯度下降法。

    2)原理:使用函数f(x)的泰勒级数的前面几项来寻找方程f(x)=0的根

    3)步骤:

    i)       将导数g(w)wt处进行Taylor展开:

    clip_image057

    ii)     由上式得到:

    clip_image058

    iii)   迭代式为:

    clip_image059

     

     

    4. 朴素贝叶斯(Naive Bayes Classifier, NBC)

    4.1定义

           假设共有C个类别y(1,2,…,C),每个类别有特征X=(x1,x2,…xD), 则朴素贝叶斯为假设各维特征在给定类别标签的情况下条件独立:

    clip_image060

    概率密度函数:

           clip_image061

    其中,π、θ分别为y的先验分布和类条件分布的参数。

    4.2朴素贝叶斯的极大似然估计

    1)似然函数为:

        clip_image062

        其中Ncy=c的样本数。

    (2)  如果服从Bernoulli分布

    clip_image063

    则参数估计:

    clip_image064

    其中:

    clip_image065

    (3)  如果服从多值分布

    clip_image066

    则参数估计:

    clip_image067

    其中:

    clip_image068

    (4)  如果服从正泰分布

    clip_image069

    则参数估计:

    clip_image070

    (5)  使用朴素贝叶斯进行预测

    将给定数据条件D换成参数的MLE插入,得到:

    clip_image071

    例如Bernoulli分布的预测:

    clip_image072

     

    五、估计的评价

    1.   估计量的评价标准

    一个好的估计具有的性质:

    (1)   无偏性:估计量的期望等于真值的期望:

    即估计的偏差(bias)

    clip_image073

    等于0。

    (2)   相容性

    若:

    clip_image074

    则该估计是相容(consistent)的。

    (3)   有效性

    无偏估计中,方差较小的一个更有效(收敛速度更快)

     

    2.  偏差-方差分解

    点估计的性能通过均方误差(MSE, mean squared error)来评价:

    clip_image075

    可分解为:

    clip_image076

    其中,

    估计的偏差为:

     clip_image077

    估计的变化程度(精度)为:

      clip_image078

    (1)   如果bias = 0 称其为无偏估计

    (2)   为了使估计的MSE小,估计的偏差和方差到要小。

     

    3.   监督学习模型的偏差-方差分解

    在回归任务中,学习算法f的平方预测误差期望为:

    clip_image079

    (1)   偏差:学习算法的预测的期望与真实结果的偏离程度, 即刻画了学习算法本身的拟合能力。

    (2)   方差:同样大小的训练集的变动所导致的学习性能的变化, 即刻画了数据扰动所造成的影响。

    (3)   噪声:在当前任务上任何学习算法所能达到的期望泛化误差的下界, 即刻画了学习问题本身的     难度。

     

    4.  估计的抽样分布

    解决的问题:分布的参数真值未知,无法产生真实的模拟数据。

    如何解决?:估计的抽样分布

     

    估计的抽样分布:

    假设从真实分布:

           clip_image080

    中进行S次抽样,每次的样本集的大小均为N, 得到数据集合

            clip_image081

    根据每次抽样得到的数据D(s),都会得到一个估计:

            clip_image082

    S -> ∞ 时,使用估计的参数代替真实的参数,称为估计的抽样分布。

     

    4.1 参数Bootstrap

    Bootstrap(一种重采样技术),用clip_image084代替clip_image086[4],从分布clip_image088[4]中产生样本。

     

    4.2 非参数Bootstrap

    从原始数据中进行N次有放回地采样N个数据,用经验分布近似真正的分布

     

                   - tany 2017年10月9日于杭州

    人工智能从入门到专家教程资料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765

  • 相关阅读:
    第1章 1.4计算机网络概述--数据包和数据帧
    第1章 1.3计算机网络概述--规划IP地址介绍MAC地址
    sql生成随机字符串
    bootstrap手风琴效果
    C#-java RSA加密解密
    正则表达式验证手机号 身份证号 银行卡号 姓名输入
    微服务在微信后台的架构实践
    react学习
    datatables .fnDraw is not a function
    给当前页或者跳转后页面的导航栏添加选中样式
  • 原文地址:https://www.cnblogs.com/tan-v/p/7643166.html
Copyright © 2011-2022 走看看