逻辑回归 - 走看看

zoukankan html css js c++ java

逻辑回归

逻辑回归

1）逻辑回归模型：（其中g是sigmoid函数）

2）逻辑回归的损失函数是交叉熵损失函数，也叫Log损失，互熵损失：

逻辑回归的损失函数为何不使用最小二乘法损失：

由上述最小二乘法损失函数可以知道，它是一个非凸函数，使用梯度下降算法无法求解到极小值。

3）逻辑回归的应用经验

（1）LR以概率的形式输出，可解释性强，可控度高，模型稳定，收敛性高，易于引入新特征，例如引入组合特征（FM，FFM）。

（2）训练速度比其他分类算法如GBDT，SVM快很多。

（3）常应用在CTR预估，推荐系统的learning to rank或者其他分类场景。

（4）LR模型对样本不均衡敏感，可以使用上采样或者下采样。采样后进行的预测结果，用作排序没有问题，但是如果用于判定，则应该需要还原，因为我们的模型的训练数据并非原始的，而是经过采样后的数据。

（5）模型训练前，应对数据做预处理，如去均值，正态化。

（6）数据离散化处理：如对于一个连续值的特征，可以将数据排序后等分成k份，即k个区间，然后使用one-hot编码的方式分解为稀疏的向量。

这种0，1向量内积运算速度快，计算结果方便存储，易扩展。同时离散化后，给线性模型带来了一点的非线性。

理解方式：如原来的θx，经过离散化处理后变为θ₁x + θ₂x + θ₃x + …,因此带来了一定的非线性。

4）LR模型算法调优经验

（1）选择合适的正则化（L1，L2，L1+L2）

L2正则化更加准确一点，L1正则化在一定程度上可以减少特征的个数，因为训练得到的一些权重值为0，模型稍微不准确。

（2）正则化系数C

（3）收敛的阈值，迭代次数

（4）模型不均衡时，调整loss fanction给定不同的权重。

（4）Bagging或者其他的模型融合

查看全文

相关阅读:
命令用法示例
 Elastic：用Docker部署Elastic栈
 Elastic：使用Heartbeat进行Uptime监控
 Elastic：如何在一个机器上同时模拟多个node
Elastic 使用索引生命周期管理实现热温冷架构
 Logstash：运用jdbc_streaming来丰富我们的数据
 Logstash：多个配置文件（conf）
Logstash：处理多个input
使用 Logstash 和 JDBC 确保 Elasticsearch 与关系型数据库保持同步
 Logstash：把MySQL数据导入到Elasticsearch中

原文地址：https://www.cnblogs.com/yongfuxue/p/10038977.html