zoukankan      html  css  js  c++  java
  • LR模型常见问题

    信息速览

    • 基础知识介绍-广义线性回归
    • 逻辑斯蒂回归模型推导
    • 逻辑斯蒂回归常见问题
    • 补充知识信息点

    基础知识:

    机器学习对结果的形式分类:

    • 分类算法
    • 回归算法
      LR:logistic regression 逻辑斯谛回归 (对数几率回归 logit regression)
      LR是一个分类模型 是一个基于线性回归(linear regression)的模型

    1.预备知识

    线形回归

    [f(x_{i})=omega cdot x_{i}+b ]

    采用均方误差最小的策略来进行优化

    [(w^{*},b^{*})=argmin_{(w,b)}sum_{i=1}^{m}(f(x_{i}-y_{i}))^{2} ]

    最小二乘法(least square method):
    基于均方误差最小化来进行模型求解的方法

    在真实的数据应用中,会将b参数融入参数(omega)(omega=(omega;b))
    最小二乘法也可以使用向量的形式来表示

    [omega=argmin_{omega}(y-X omega)^{T}(y-Xomega) ]

    (omega)求导,解得最优解。在(det(X^{T}X) eq 0)时候

    [omega=(X^{T} X)^{-1} X^{T} y ]

    补充知识点-广义模型

    2.逻辑斯蒂回归

    定义推导

    基于线性回归的广义模型

    [y=g^{-1}(omega ^{T} x+b) ]

    找到一个单调可微函数将分类任务的真实标记y和线性模型的预测值联系起来。

    应用与分类,分类函数- heaviside函数 ,但是其不是一个连续函数
    利用 对数几率函数(sigmod函数)来进行代替

    [y=frac{1}{1+e^{-z}} ]

    结合线性回归广义模型

    [y=frac{1}{1+e^{-(w^{T}x+b)}} ]

    [lnfrac{y}{1-y}=omega ^{T} x+b ]

    • y-正例的可能性
    • 1-y 反例的可能性

    (frac{y}{1-y}) 称为几率 odds $ln frac{y}{1-y} $对数几率 log odds=logit

    性质

    [lnfrac{p(y=1 | x)}{p(y=0 | x)}= omega ^{T} x+b ]

    [p(y=1 |x)=frac{e^{(w^{T}x+b)}}{1+e^{(w^{T}x+b)}} ]

    [p(y=0 |x)=frac{1}{1+e^{(w^{T}x+b)}} ]

    通过[极大似然法](#maximum likelihood method)来估计(omega,b)的值

    • 似然函数:

    [prod_{i=1}^{m} p(y=1 |x)^{y_{i}} p(y=0|x)^{1-y_{i}}= prod_{i=1}^{m} p(y=1 |x)^{y_{i}} (1-p(y=1|x))^{1-y_{i}} ]

    • 对数似然函数

    [L(omega,b)=sum_{i=1}^{m}[y_{i} ln(p(y=1|x))+ (1-y_{i})ln(1-p(y=1 |x))] ]

    [L(omega,b)=sum_{i=1}^{m} ln(p_{i} | x_{i};omega,b) ]

    每个样本属于其真实标记的概率越大越好

    [L(omega,b)=sum_{i=1}^{m}[y_{i} ln(p(y=1|x))+ (1-y_{i})ln(1-p(y=1 |x))] ]

    [=sum_{i=1}^{m}[y_{i=1} lnfrac{p(y=1|x)}{1-p(y=1 |x)} +ln(1-p(y=1 |x) ] ]

    [=sum_{i=1}^{m}[y_{i=1}(w^{T}+b) - ln (1+e^{(w^{T}x+b)})] ]

    利用梯度下降法、拟牛顿法来得到最优解
    (hat{omega}=argMAX_{omega} L( heta))
    在计算中通常会将 w,b进行合并这样只有一个矩阵要求。
    求极值,找到 w,b的最大值 (hat{omega})

    最终的逻辑斯蒂模型:

    [P(y=1 |x)=frac{e^{(hat{w}^{T}x)}}{1+e^{(hat{w}^{T}x)}} ]

    [P(y=0 |x)=frac{1}{1+e^{(hat{w}^{T}x)}} ]

    3.常见逻辑斯蒂回归问题

    • LR模型的损失函数的推导
    • 为什么要使用似然函数来实现

    实现为正的概率最大,同时为负的概率也最大,每个样本都实现最大概率。

    • LR模型的预测结果为什么很差

    LR模型是线性模型,不能得到非线性模型,大部分实际问题不能用线性就能拟合。

    • L1,L2正则化,降低模型复杂度

    模型越复杂,越容易过拟合,这大家都知道,加上L1正则化给了模型的拉普拉斯先验,加上L2正则化给了模型的高斯先验。从参数的角度来看,L1得到稀疏解,去掉一部分特征降低模型复杂度。L2得到较小的参数,如果参数很大,样本稍微变动一点,值就有很大偏差,这当然不是我们想看到的,相当于降低每个特征的权重。

    4.补充知识点

    基于线性模型的其他“广义模型”

    • LWLR 局部加权回归 locally weighted linear regression
      对于预测值附近的赋予一定的权重W
      参数k是用户赋值参数,决定权重赋值的比例

    [omega=(X^{T}W X)^{-1} X^{T}W y ]

    [W(i,j)=exp(frac{|| x_{i}-x_{j} ||}{-2 k^{2}}) ]

    • 岭回归 ridge regression
      当数据中特征比数据样本点还多的时候,就不能使用简单的线性回归函数
      在计算((X^{T}X)^{-1})会出现错误,(n>m ,X)不是满秩矩阵。
      通过缩减系数来实现算法
      加入一个矩阵,使((X^{T} X+lambda I_{mxm}))可逆,非奇异

    [omega=(X^{T} X+lambda I_{m imes m})^{-1} X^{T} y ]

    • lasso,前向逐步回归,PCA回归

    极大似然估计

    总体 X 属离散型 (p{X=x}=p(x; heta)) 其中( heta)为待估参数,(X_{1},X_{2},...,X_{N})为X的样本
    样本的联合分布概率:$$prod_{i=1}^{n}p(x_{i} | heta)$$
    (x_{1},x_{2},...,x_{n})是相应于样本(X_{1},X_{2},...,X_{N})的一个样本值
    事件({ X_{1}=x_{1},X_{2}=x{2},...,X_{n}=x_{n} })发生的概率:
    样本的似然函数(L( heta)),是( heta)的函数,会因取值而改变

    [L( heta)=L(x_{1},x_{2},...,x_{n}; heta)=prod_{i=1}^{n} p(x_{i}; heta) ]

    挑选能够让似然函数达到最大的参数值(hat{ heta})

    [L( heta)=L(x_{1},x_{2},...,x_{n};hat{ heta})=MAX _{ heta} L(x_{1},x_{2},...,x_{n}; heta) ]

    在计算时候一般使用对数似然方程方法。

    不要用狭隘的眼光看待不了解的事物,自己没有涉及到的领域不要急于否定. 每天学习一点,努力过好平凡的生活.
  • 相关阅读:
    centos8 安装vmware需要的内核头文件 kernel-headers.
    centos7开启ssh服务
    systemctl命令的使用及服务状态的查看
    centos WPS 字体安装
    CentOS8 使用 aliyun 阿里云 镜像站点的方法
    CentOS提示::unknown filesystem type 'ntfs'自动挂载NTFS分区的U盘或者移动硬盘
    Aria2 Centos8 安装配置
    centos7 更新Firefox版本
    线程内容详解
    进程池、进程池和多进程的性能测试、进程池的其他机制、进程池的回调函数
  • 原文地址:https://www.cnblogs.com/GeekDanny/p/10067356.html
Copyright © 2011-2022 走看看