zoukankan      html  css  js  c++  java
  • [机器学习]逻辑回归Logistic Regression

    逻辑回归Logistic Regression

    模型

    [P(Y=1|x)=frac{1}{1+e^{-(wcdot{x}+b)}} ]

    参数估计

    使用极大似然估计

    [egin{equation} egin{aligned} L(w) &= Pi_{i=1}^Nsigma(z)^{y_i}(1-sigma(z))^{1-y_i} \ &Rightarrow^{取对数} Sigma^{N}_{i=1} y_ilogsigma(z)+(1-y_i)log(1-sigma(z)) \ &=Sigma_{i=1}^Ny_ilogfrac{sigma(z)}{1-sigma(z)}+log(1-sigma(z)) \ &= Sigma_{i=1}^Ny_iz+log(1-sigma(z)) \ &其中,z=wcdot x,w=(x^{(1)},x^{(2)},...,x^{(k)},b) end{aligned} end{equation}]

    (L(w))求极大值,得到(w)的估计值。

    问题

    1. 逻辑回归是分类模型,为什么叫逻辑“回归”?
      某事件的几率指该事件发生的概率与不发生的概率之间的比值,则该事件的对数几率logit表示为(logit(p)=logfrac{p}{1-p})。针对逻辑回归而言,(logit(p) = wcdot{x}+b),所以输出(Y=1)的对数几率是由输入(x)的线性函数表示的模型,即逻辑回归模型。另一方面,逻辑回归模型将对数几率转换为概率。【感知机是使用阈值作为分类间隔;逻辑回归是转换为概率】
    2. 逻辑回归与线性回归的区别与联系?
      区别:在逻辑回归中,(y)因变量为离散值;在线性回归中,(y)为连续值。即,逻辑回归为分类模型,而线性回归为回归模型。
      联系:
      • 两者同属于广义线性模型。逻辑回归的假设条件为(P(y|x; heta) sim Bernoulli(phi));线性回归在使用最小二乘法求解时,假设条件为(P(y|x; heta) sim N(mu,sigma^2))
      • 两者都可以使用梯度下降法求解最佳参数。

    广义线性模型(Generalized Linear Models)
    成立条件

    1. (p(y|x; heta) sim 指数族分布)
    2. (h_ heta(x) = E[y|x; heta])
    3. 参数(eta)与输入(x)是线性相关的

    指数分布
    (p(y;eta) = b(y)exp(eta^TT(y)-a(eta)),其中eta是自然参数,T(y)是充分统计量)

    1. 逻辑回归为什么使用交叉熵而不是用平方误差作为损失函数(MSE)?
      (frac{partialsigma(x)}{partial x} = sigma(x)(1-sigma(x)),当x=0时,取最大值0.25。) 当使用平方误差作为损失函数时,求得的梯度值会很小(梯度含有(frac{partialsigma(x)}{partial x})),误差反向传播不易快速收敛;使用交叉熵作为损失函数时,梯度不含(frac{partialsigma(x)}{partial x}),可以快速求的最优值。
    2. 逻辑回归为什么使用Sigmoid函数?
      由于最大熵原理的性质,指数族分布是给定某些统计量下熵最大的分布。例如,伯努利分布就是只有两个取值且给定期望为(phi)的最大熵分布。所以根据广义线性模型的定义,逻辑回归模型

    [egin{equation} egin{aligned} h_{ heta}(x) &= E[y|x; heta] \ &=phi \ &=frac{1}{1+e^{-eta}} \ & = frac{1}{1+e^{-w cdot x}} end{aligned} end{equation} ]

    最大熵原理:学习概率模型时,在所有可能的概率模型分布中,熵最大的模型是最好的模型。通俗来讲,最大熵模型在满足已有事实的情况下(约束条件)下,在没有更多信息的情况下,认为不确定的部分是等可能的。

    1. 为什么逻辑回归的目标函数是凸函数?
      如果证明某单变量函数(f(x))为凸函数,只需证明(frac{partial^2{f(x)}}{partial(x)partial(x)} geq 0)。所以对于逻辑回归的目标函数,其自变量为向量形式,则需要证明所有二阶偏导数组成的矩阵Hessian黑塞矩阵为半正定矩阵即可。

    凸函数定义 (f(frac{x_1+x_2}{2}) leq frac{f(x_1)+f(x_2)}{2},即求得的局部最优极为全局最优。)

  • 相关阅读:
    HDU1879 kruscal 继续畅通工程
    poj1094 拓扑 Sorting It All Out
    (转)搞ACM的你伤不起
    (转)女生应该找一个玩ACM的男生
    poj3259 bellman——ford Wormholes解绝负权问题
    poj2253 最短路 floyd Frogger
    Leetcode 42. Trapping Rain Water
    Leetcode 41. First Missing Positive
    Leetcode 4. Median of Two Sorted Arrays(二分)
    Codeforces:Good Bye 2018(题解)
  • 原文地址:https://www.cnblogs.com/mrdragonma/p/12570268.html
Copyright © 2011-2022 走看看