zoukankan      html  css  js  c++  java
  • scikit-learn学习笔记(2)

    又查查了回归分析的基本概念,这里记录一下,年纪大了容易忘lol

    线性回归模型Linear Regression Models:

    例如数据有n个观察结果(yi,xi)i从1到n,yi是这个观察的响应标量值(a scalar response),xi是一组含p个预言子(predictor)的向量

    在线性回归分析中就可以表示为

    yi=xi的转至矩阵×β+εi,这里β也是一个含p个未知参数的向量,叫做系数(coefficient),εi为误差

    整个模型也可以表达为

    y=Xβ+ε,这里y,β与ε都是含n个元素的向量,而X是n×p的矩阵

    有了函数就可以研究究竟什么β可以使得the sum of squares residual(SSR)最小,也就是应用最小二乘法的地方,这里首先假设b是β一个候选值,那么S(b)=sum(square(yi-xi的转至×b))从i=1到n = (y-Xb)的转至×(y-Xb)(根据线性代数),通过对b求导来找到最小值,此处省略1万字,求出X的摩尔-彭若斯广义逆矩阵,再往下我的数学水平就有点捉急了,也许可以参照梯度下降法(gradient descent),我看斯坦佛那个教machine learning的教授在他将多元线性回归的时候有提到,反正这也是OLS算法时间复杂度的依据

     ××××××××××××××××××××××××

    coefficient和covariance的区别:并不是说这里他们有什么联系,只不过看到coefficient这个词的时候我总是能想到covariance这个字,完全出于我自己的好奇才将他们拿出来做比较,coefficient就是系数,其实就是一个多元函数里面矩阵X的系数,而协方差(covariance)是一个概率与统计里面的概念,代表两个任意变量之间的一起变化的关联度,如果一个变量的数值变大另一个也变大,一个变小也导致另一个变小,那么他们的covariance为正,独立变量间的covariance为0

    covariate协变量???

    collinear共线,几何里面点在一条线上,代数上的n维空间中点X,Y,Z组成的矩阵的行秩为一,也就是XYZ在一条直线上了

    x1,x2,x3,。。。,xn

    y1,y2,y3,。。。,yn

    z1,z2,z3,。。。,zn

    Error vs Residual(误差与残差)

    误差是被观察值和真实值之间的离散程度(deviation)然而真实值无法通过观测得到,残差为被观察值与估计值的不同

    以正态分布为例,一组满足正态分布N(μ,σ^2)的随机数X1……Xn的统计误差ei=Xi-μi,而残差为ri=Xi-Xbar,Xbar=(X1+……+Xn)/n

  • 相关阅读:
    tmux commands
    智能指针类HasPtr
    关于Vector中存放指针的问题
    面向对象的理解
    关系模型 超键 候选键 主键
    数据库的三个范式
    static struct QMetaObject const QwtPlot::staticMetaObjec
    static作用(修饰函数、局部变量、全局变量)
    C++全局变量之extern和static
    QTabWidget 使用小记
  • 原文地址:https://www.cnblogs.com/16264412xm/p/6397016.html
Copyright © 2011-2022 走看看