zoukankan      html  css  js  c++  java
  • week 4 ridge regression

    coursera 上的 华盛顿大学 machine learning: regression 第四周笔记

    通常, 过拟合的一个表现是拟合模型的参数很大

    为了防止过拟合

    Total cost = measure of fit + measure of magnitude of coefficients

    前者描述训练集拟合程度,后者评估回归模型系数大小,小则不会过拟合。

    评估训练集拟合程度( measure of fit ):

        

      RSS(w) 越小,拟合程度越好。

    评估回归模型系数(measure of magnitude of coefficients):

    (1)系数绝对值之和 |w|, L1范数

    (2)系数平方和 ||w||2L2范数 

    岭回归计算回归系数时使( RSS(w)+λ||w||2 )最小

        其中λ为平衡训练集拟合程度 和 拟合系数大小 的调整参数。

    λ的选择上体现了 bias-variance tradeoff:

    对于大的λ:high bias, low variance

    对于小的λ:low bias, high variance

    如何确定 λ 大小

      理想条件下(数据集足够大):

            

      training set: 训练集用于拟合回归模型

      validation set: 检测系数大小,用于确定λ

      test set: 测试集,计算泛化误差(generalization error)

      

      实际情况下,数据集有限,常用方法有:

         K - fold cross validation

        步骤:

        对于每一个需要评估的 λ:

          将数据集分为training set test set

          将其中training set 打乱顺序(随机排序),分成 k 等分。

          k 次循环,每次将k等份中其中一份作为 validation set, 剩下部分作为 training set

          每次根据validation set 计算 error (λ), 结果为k次计算的平均值。

          average (error (λ))最小的为最合适的λ

    梯度下降法求回归系数:

    total cost = RSS(w)+λ||w||2

    Cost(w)= SUM[ (prediction - output)^2 ]+ l2_penalty*(w[0]^2 + w[1]^2 + ... + w[k]^2).

    导:

    derivative = 2*SUM[ error*[feature_i] ] + 2*l2_penalty*w[i].

    (其中没有2*l2_penalty*w[0]这一项)

    每次迭代:

     predictions = predict_output(feature_matrix, weights)
     errors = predictions - output
    for i in xrange(len(weights)): feature = feature_matrix[:, i] derivative = compute_derivative_ridge(errors, feature, weights[i], l2_penalty)
    weights[i]
    = weights[i] - step_size * derivative
  • 相关阅读:
    谈To B产品路径逻辑:To B产品的核心本质到底是什么?
    做产品应该遵循哪些宏观产品原则?
    做产品应该遵循哪些微观产品原则?
    B端产品的第一性原理思考
    美团点评王慧文:互联网有AB面,最惨烈战争发生在B2
    《罗振宇 知识就是力量》
    生活是一只龙虾
    CAD-美的热水器F50-32DQ
    CAD-椭圆和圆弧命令
    CAD-圆命令
  • 原文地址:https://www.cnblogs.com/smartweed/p/8486059.html
Copyright © 2011-2022 走看看