Logistic Regression 是一种 Generalized Linear Model(GLM),也即广义线性模型。
1. LR 的基本假设
LR 模型假设观测值 y 成立的对数几率(log-odds)能够表示为 K 重输入变量的线性组合:
logP(x)1−P(x)=∑j=0Kbjxj
其中 x0=1(特征向量进行增广),待求的模型共 K+1 个参数。等式左边被称为 logit of P(这也是 logistic regression 得名的原因)。
等式两边同时取对数:
P(x)1−P(x)=exp⎛⎝∑j=0Kbjxj⎞⎠=∏j=0Kexp(bjxj)
这样的等式形式清晰地说明了,logistic 模型与输入之间是乘性关系,而不是线性模型的加性关系,这种加性关系也给了我们一种解释系数的方式。比如 exp(bj) 就表明了,随着 xj 增加一个单位(xj⇒xj+1),模型的输出为真的几率增加的大小(也即 exp(bj))。考虑 bj=0.693,则 exp(bj)=2,如果此时 xj 表达的是数值变量,比如年龄,xj 变量没增加 1 岁,模型输出为真的几率就变为之前的 2 倍。
如果记 z=∑j=0Kbjxj,上述等式又可转化为:
P(x)=11+exp(−z)
等式右端被称为 sigmoid 函数(关于 z),