zoukankan      html  css  js  c++  java
  • 逻辑回归1-逻辑回归原理详解

    1.1    逻辑回归原理详解

    1.1.1  LR原理讲解+公式推导

    从公式推导中详细讲解逻辑回归算法的原理。

    线性回归模型: 

    逻辑回归是用来估计一个实例属于某个特定类别的概率,是一个二分类算法,如果预估概率大于等于50%,则模型预测该实例为正类,反之,则预测为负类。

    则需要把y从负无穷大到正无穷大映射为概率p从0到1,可以设置为:

    则:

     

    两边取e,整理后,得到逻辑函数

     

    一旦逻辑回归模型估算出实例x属于正类的概率为p,那么就可以轻松推断出y值。

    假设:

     

    则:

    我们需要对系数θ估计,可以采用极大似然估计(MLE),通过最大化对数似然值来估计参数。

    注:极大似然估计定义见下文详细讲解。

     

     

    两边取对数,连乘会改为连加。

      

    单个训练实例的成本函数:

     

    当p接近于0时,-log(p)就会变得非常大,如果模型估计一个正类的概率接近于0,成本将会变得很高。同理,估计一个负类实例的概率接近于1,成本也会变得非常高。

    整个训练集的成本函数即为训练实例的平均成本。逻辑回归成本函数表示如下。

    逻辑回归成本函数(log损失函数)

     

    这是一个凸函数,通过梯度上升能够找出全局最大值。(只要学习率不是太高,又可以长时间等待)

    对logL求某个系数θ的偏导:

     

     

    手写过程如下所示:

    即:逻辑回归成本函数的偏导数为每个实例真实值与预测值的误差,将其乘以第j个特征值,并求和。

    那么怎么获得系数呢?通过这个函数开口向下,使用梯度上升算法,获得全局最大值。

     

    :学习率,自己给定,为固定值,可调整,不宜过高。

    :对求偏导

    θ:初始化一个任意值

     

    θ初始化一个值后,可以计算得到预测的y值,计算预测误差,得到偏导,通过梯度上升算法更新θ值。

     

    我们反过来回顾下:

    通过梯度上升算法获得拟合效果最好的系数θ,根据sigmoid函数,输入特征X代入,得到概率p值,通过P值是否大于0.5,最终得到预测结果y。

     

    1.1.2  逻辑回归的应用场景和优缺点

    1.1.2.1 应用场景

    • Logistic回归是一种用于解决二分类问题的机器学习方法,是一种判别模型:表现为直接对条件概率P(y|x)建模,而不关心背后的数据分布P(x,y)
    • 用于估计某种事物的可能性。比如某用户购买某商品的可能性、某病人患有某种疾病的可能性、以及某广告被用户点击的可能性等。

    1.1.3  优缺点

    1.1.3.1 优点

    • 系数表示该特征的权重大小,可解释性强,原理基于线性回归,易于理解。
    • 计算代价不高

     

    1.1.3.2 缺点

    • 容易欠拟合,分类精度可能不高

     

    1.1.4  专业名词介绍

    1.1.4.1 极大似然估计

    极大似然估计,又称最大似然估计。

    极大似然估计的原理,用一张图片来说明,如下图所示:

     

    试验是取出一个球是黑球,第一印象就是这个黑球最像是从乙箱取出来的,这个推断符合人们的经验事实。“最像”就是“最大似然”之意,就是概率性是最大的。

     

    总而言之,极大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。

    原理:极大似然估计是建立在极大似然原理的基础上的一个统计方法,是概率论在统计学中的应用。极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。以下仅介绍总体X为离散型的情况。

    若总体X(即输入特征)属离散型,其分布律已知(即输出结果y已知), θ为待估参数,设为来自X的样本,则的联合分布律为

     

    又设是相应于样本的一个样本值,即事件发生的概率为:

     

    如果是参数空间中能使似然函数最大的θ值,则应该是“最可能”的参数值,那么就是θ的极大似然估计量。它是样本集的函数,记作:

     

    称作极大似然函数估计值。

    1.1.4.2 凸函数、凹函数

    1.1.4.2.1       函数凹凸性定义

    以下为国内的凹凸性定义,与国外凹凸性定义相反。

    在区间I上有定义

    (1)       若对任意的,有

     

    则称在 内为凸函数,如图1-3-3所示。

     

    (2)       若对任意的 ,有

     

    则称在 内为凹函数,如图1-3-4所示。

     

     

    1.1.4.2.2       函数凹凸判别法

    定理:

    (1)       若在内有,则在 内为凸函数

    (2)       若在内有 ,则在 内为凹函数

     

    1.1.4.2.3       逻辑回归目标函数是凸函数证明

    目标函数

     

    一阶偏导:

     

    证明过程见LR公式推导部分。

    二阶偏导:

    由于,即,则恒成立,所以目标函数是凸函数。

  • 相关阅读:
    PAT (Advanced Level) Practice 1100 Mars Numbers (20分)
    PAT (Advanced Level) Practice 1107 Social Clusters (30分) (并查集)
    PAT (Advanced Level) Practice 1105 Spiral Matrix (25分)
    PAT (Advanced Level) Practice 1104 Sum of Number Segments (20分)
    PAT (Advanced Level) Practice 1111 Online Map (30分) (两次迪杰斯特拉混合)
    PAT (Advanced Level) Practice 1110 Complete Binary Tree (25分) (完全二叉树的判断+分享致命婴幼儿错误)
    PAT (Advanced Level) Practice 1109 Group Photo (25分)
    PAT (Advanced Level) Practice 1108 Finding Average (20分)
    P6225 [eJOI2019]异或橙子 树状数组 异或 位运算
    P4124 [CQOI2016]手机号码 数位DP
  • 原文地址:https://www.cnblogs.com/cymx66688/p/11326825.html
Copyright © 2011-2022 走看看