机器学习之回归

zoukankan html css js c++ java

机器学习之回归
- 1..一般回归：特征数小于样本数
  
  1.1局部回归:利用高斯核，提高预测精度
  
  高斯核中自定义k值取值，在对新数据预测时，值越高一般比低值预测效果好
  
  缺点：增加计算量，局部加权回归每次必须在整个数据集上运行，为了做出预测，必须保存所有的训练数据
- 2.缩减系数来“理解”数据，特点是特征数大于样本数，矩阵XtX求逆时会遇到问题
  
  2.1 岭回归：通过给XtX加上(lamda*I)，使得矩阵变为非奇异矩阵（行列式不为0），lamda为用户自定义数值。该方法不仅用于特征多余样本数，还有在估计中加入偏差，从而得到更好的估计
  
  　　引入的lambda限制了所有w之和，通过引入该惩罚项，能够减少不重要的参数，这个技术在统计学中也叫做缩减shrinkage
  
  　　需要训练，预测误差，最小化lambda值
  
  　　使用岭回归和缩减技术，需要对特征做标准化处理，具体做法是所有特征都减去各自的均值并除以方差
  
  　　lambda应以指数级变化，以看出其在非常小和非常大的值的时对结果造成的影响
  
  2.2 lasso回归
  
  约束公式：所有系数绝对值的平方和不能大于lambda（岭回归限制条件为系数平方和小于lamba）；
  
  前向逐步回归
  
  伪代码
  
  数据标准化，使其分布满足0均值和单位方差
  
  在每轮迭代过程中：
  
  设置当前最小误差lowestError为正无穷
  
  对每个特征：
  
  增大或缩小
  
  改变一个系数得到一个新的W
  
  计算新W下的误差
  
  如果误差ERROR小于当前最小误差lowerError：设置Wbest等于当前的W
  
  将W设置为新的Wbest
  
  前向逐步回归优点：
  
  　　可以帮助人们理解现有的模型并作出改进。当构建了一个模型后，可以运行该算法找出重要的特征，这样就有可能及时停止对那些不重要特征的收集。
  
  应用缩减方法后，模型会增加偏差，与此同时却减少了模型方差，下一节对此专门讨论。（偏差：偏差又称为表观误差，是指个别测定值与测定的平均值之差，它可以用来衡量测定结果的精密度高低）
- 3.权衡偏差与方差
  
  　　
Higher you climb, more view you will see.
查看全文

相关阅读:
Hibernate 基本写法
 JavaWeb中的中文乱码问题
 AJAXJson
Hibernate 的几个概念
 sql 中的备份集、备份设备、媒体、媒体集
 收缩数据库日志文件
 AJAXjs
rand一定要加srand随机数种子
 CheckBit，SetBit设置二进制位的方法使用
 memset(buf,0,100)和memset(buf,'\0',100)有什么区别？

原文地址：https://www.cnblogs.com/yyfighting/p/10843482.html