zoukankan      html  css  js  c++  java
  • 最直白的线性回归,多元线性回归,正则化项的理解

    版权声明:本文为博主原创文章,转载或者引用请务必注明作者和出处,谢谢!

    线性回归:训练数据中特征是单个,但特征值可以是多个
    y=wx+b (w: 是单个值)
    多元线性回归:训练数据中特征数量是多个
    y=W1X1+W2X2+W3X3+...+b
    或表示为:
    y=Wx+b(W:w1,w2,w3.....组成的向量的转置)

    模型训练为的就是确定参数W的取值:
    但是,当测试数据中,特征数量比样本数还多的多的时候,可能产生多组解(解线性方程组的时候,因变量过多,则有可能解出多组解),多组解如何选择呢?取决余算法的归纳偏好,所有就有了正则化。

    正则化项分:L1范数和L2范数

    在求损失函数:均分误差的最小值时+正则化项 =========》 进而可以降低过拟合的风险
    L1 L2都可以降低过拟合风险,但L1有个额外的优点:更容易获得稀疏解,就是求得的W向量中会有更少的非零值

    有了稀疏解有什么好处呢?
    它表示了你训练时的所有特征并没有都用到你得到的模型中,仅有W(表示:向量)对应的非零值的特征才出现在最终模型中=======》这就起到了特征选择的作用(也就降低了过拟合的风险)
  • 相关阅读:
    Django的路由层(URLconf)
    Django简介
    web应用和http协议
    浅谈css中浮动和清除浮动带来的影响
    Bootstrap组件介绍
    jquery的Ajax
    spark新能优化之广播共享数据
    spark新能优化之reduceBykey和groupBykey的使用
    spark新能优化之shuffle新能调优
    spark新能优化之数据本地化
  • 原文地址:https://www.cnblogs.com/soyo/p/7838496.html
Copyright © 2011-2022 走看看