机器学习笔记—局部权重线性回归

zoukankan html css js c++ java

机器学习笔记—局部权重线性回归

看下面三幅图，x 轴是房间面积，y 轴是房价。

左图是 y = θ₀ + θ₁x 拟合数据集的结果。可以看到数据并不贴靠在直线上，所以拟合并不好。

中图是 y = θ₀ + θ₁x + θ₂x² 拟合数据集的结果，拟合得还不错。

右图是 y = θ₀ + θ₁x + θ₂x² + θ₃x³ + θ₄x⁴ + θ₅x⁵拟合数据集的结果，虽然曲线跟数据拟合得极好，但我们这是一个好的预测。

左图被称为欠拟合，数据并没有被模型捕获。右图被称为过拟合。

由以上例子可见，特征的选择对于保证学习算法好的性能是很重要的。当我们讲到模型选择时，会看到自动选择特征集合的算法。

这次我们先讲局部权重线性回归算法，使得特征的选择没那么重要，怎么做到的呢？请往下看。

在原始的线性回归算法中，要在 x 点做一个预测，我们会执行：

1、变动 θ 以最小化 ∑_i(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²

2、输出 θ^TX

在局部权重线性回归算法中，做法稍有不同：

1、变动 θ 以最小化 ∑_iw⁽ⁱ⁾(y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²

2、输出 θ^TX

多了个 w⁽ⁱ⁾，是做什么用的呢？

w⁽ⁱ⁾是非负值的权重，直观上看，当 w⁽ⁱ⁾ 很大时，那么在选择 θ 时，我们会尽量使 x⁽ⁱ⁾点的值 (y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²小，也就是更加重视 x⁽ⁱ⁾点的预测准确度，当 w⁽ⁱ⁾ 很小时，那么 x⁽ⁱ⁾点的准确度我们就不那么在乎， (y⁽ⁱ⁾-θ^Tx⁽ⁱ⁾)²的误差大也无所谓，也可以说不在乎 x⁽ⁱ⁾点。

权重通常定义为：

可以看到权重大小决定于我们要评估的 x 点的位置，当 x⁽ⁱ⁾ 离 x 点很近，即 |x⁽ⁱ⁾-x| 很小接近于 0 时，那么 w⁽ⁱ⁾ 就接近 1；当 x⁽ⁱ⁾ 离 x 点很远，即 |x⁽ⁱ⁾-x| 很大时，那么 w⁽ⁱ⁾ 就变得很小。所以在 θ 的选择上给予查询点 x 附近的训练集更高的权重。τ 是控制 x⁽ⁱ⁾ 的权重随着离 x 距离变远而变小的速度。

局部权重线性回归算法是我们介绍的第一个非参数算法。之前我们介绍的线性回归算法是参数学习算法，因为它有固定、有限个数的参数 θ，一旦我们找到合适的 θ，在预测新数据是，就不再需要训练数据集。而局部权重线性回归算法，做预测时，就需要用到整个训练集。术语 ”非参数“ 实际上就是为了表示假设 h，我们需要保持的负担量随训练集大小呈线性增长。

参考资料：

1、http://cs229.stanford.edu/notes/cs229-notes1.pdf

查看全文

相关阅读:
LRU算法简介
 linux下安装nginx+php+mysql环境详细教程
 CentOS 6.6编译安装Nginx1.6.2+MySQL5.6.21+PHP5.6.3
unicode 格式转汉字
 js 操作cookie
哈希函数
 php商城秒杀活动
 php 栈、出栈、入栈
 php单例模式
 封装PHP增删改查方法

原文地址：https://www.cnblogs.com/NaughtyBaby/p/5289552.html