zoukankan      html  css  js  c++  java
  • 逻辑回归--模型训练

    逻辑回归的损失函数


    线性回归的损失函数是平方损失。逻辑回归的损失函数是对数损失函数,定义如下:

    $$Log Loss = sum_{(x,y)in D} -ylog(y') - (1 - y)log(1 - y')$$

    其中:

    • (x,y)ϵD 是包含很多有标签样本 (x,y) 的数据集。
    • “y”是有标签样本中的标签。由于这是逻辑回归,因此“y”的每个值必须是 0 或 1。
    • “y'”是对于特征集“x”的预测值(介于 0 和 1 之间)。

    对数损失函数的方程式与 Shannon 信息论中的熵测量密切相关。假设“y”属于伯努利分布,它也是似然函数的负对数。实际上,最大限度地降低损失函数的值会生成最大的似然估计值。


    逻辑回归中的正则化

    正则化在逻辑回归建模中极其重要。如果没有正则化,逻辑回归的渐近性会不断促使损失在高维度空间内达到 0。因此,大多数逻辑回归模型会使用以下两个策略之一来降低模型复杂性:

    • L2 正则化。
    • 早停法,即,限制训练步数或学习速率。
    我们会在之后的单元中讨论第三个策略 - L1 正则化。
    

    假设您向每个样本分配一个唯一 ID,且将每个 ID 映射到其自己的特征。如果您未指定正则化函数,模型会变得完全过拟合。这是因为模型会尝试促使所有样本的损失达到 0 但始终达不到,从而使每个指示器特征的权重接近正无穷或负无穷。当有大量罕见的特征组合且每个样本中仅一个时,包含特征组合的高维度数据会出现这种情况。

    幸运的是, 使用 L2 或早停法可以防止出现此类问题。

    总结:

    1. 逻辑回归模型会生成概率。
    2. 对数损失函数是逻辑回归的损失函数。
    3. 逻辑回归被很多从业者广泛使用。

    引用

    逻辑回归 (Logistic Regression):计算概率

  • 相关阅读:
    30天养成一个好习惯
    ym——安卓巴士总结了近百个Android优秀开源项
    内存泄漏以及常见的解决方法
    Android学习笔记(四十):Preference的使用
    Android中View绘制流程以及invalidate()等相关方法分析
    NumberFormat 类
    开发人员福利!ChromeSnifferPlus 插件正式登陆 Chrome Web Store
    memset函数具体说明
    分分钟教会你使用HTML写Web页面
    UVA 465 (13.08.02)
  • 原文地址:https://www.cnblogs.com/taro/p/8643249.html
Copyright © 2011-2022 走看看