曲线拟合与插值
在大量的应用领域中,人们经常面临用一个解析函数描述数据(通常是测量值)的任务。对这个问题有两种方法。在插值法里,数据假定是正确的,要求以某种方法描述数据点之间所发生的情况。这种方法在下一节讨论。这里讨论的方法是曲线拟合或回归。人们设法找出某条光滑曲线,它最佳地拟合数据,但不必要经过任何数据点。图11.1说明了这两种方法。标有'o'的是数据点;连接数据点的实线描绘了线性内插,虚线是数据的最佳拟合。
11.1 曲线拟合
曲线拟合涉及回答两个基本问题:最佳拟合意味着什么?应该用什么样的曲线?可用许多不同的方法定义最佳拟合,并存在无穷数目的曲线。所以,从这里开始,我们走向何方?正如它证实的那样,当最佳拟合被解释为在数据点的最小误差平方和,且所用的曲线限定为多项式时,那么曲线拟合是相当简捷的。数学上,称为多项式的最小二乘曲线拟合。如果这种描述使你混淆,再研究图11.1。虚线和标志的数据点之间的垂直距离是在该点的误差。对各数据点距离求平方,并把平方距离全加起来,就是误差平方和。这条虚线是使误差平方和尽可能小的曲线,即是最佳拟合。最小二乘这个术语仅仅是使误差平方和最小的省略说法。
在MATLAB中,函数polyfit求解最小二乘曲线拟合问题。为了阐述这个函数的用法,让我们以上面图11.1中的数据开始。
x=[0.1.2.3.4.5.6.7.8.91];
y=[-.4471.9783.286.167.087.347.669.569.489.3011.2];
为了用polyfit,我们必须给函数赋予上面的数据和我们希望最佳拟合数据的多项式的阶次或度。如果我们选择n=1作为阶次,得到最简单的线性近似。通常称为线性回归。相反,如果我们选择n=2作为阶次,得到一个2阶多项式。现在,我们选择一个2阶多项式。
n=2;%polynomial order
p=polyfit(x, y, n)
p =
-9.810820.1293-0.0317
polyfit 的输出是一个多项式系数的行向量。其解是y = -9.8108x2 +20.1293x-0.0317。为了将曲线拟合解与数据点比较,让我们把二者都绘成图。
xi=linspace(0, 1, 100);%x-axis data for plotting
z=polyval(p, xi);
为了计算在xi数据点的多项式值,调用MATLAB的函数polyval。
plot(x, y, ' o ' , x, y, xi, z, ' : ' )
画出了原始数据x和y,用'o'标出该数据点,在数据点之间,再用直线重画原始数据,并用点' : '线,画出多项式数据xi和z。
xlabel(' x '), ylabel(' y=f(x) '), title(' Second Order Curve Fitting ')
将图作标志。这些步骤的结果表示于前面的图11.1中。
多项式阶次的选择是有点任意的。两点决定一直线或一阶多项式。三点决定一个平方或2阶多项式。按此进行,n+1数据点唯一地确定n阶多项式。于是,在上面的情况下,有11个数据点,我们可选一个高达10阶的多项式。然而,高阶多项式给出很差的数值特性,人们不应选择比所需的阶次高的多项式。此外,随着多项式阶次的提高,近似变得不够光滑,因为较高阶次多项式在变零前,可多次求导。例如,选一个10阶多项式
pp=polyfit(x, y, 10) ;
format short e%change display format
pp.'%display polynomial coefficients as a column
ans =
-4.6436e+005
2.2965e+006
-4.8773e+006
5.8233e+006
-4.2948e+006
2.0211e+006
-6.0322e+005
1.0896e+005
-1.0626e+004
4.3599e+002
-4.4700e-001
要注意在现在情况下,多项式系数的规模与前面的2阶拟合的比较。还要注意在最小(-4.4700e-001)和最大(5.8233e+006)系数之间有7个数量级的幅度差。将这个解作图,并把此图与原始数据及2阶曲线拟合相比较,结果如何呢?
zz=polyval(pp, xi);%evaluate 10th order polynomial
plot(x, y, ' o ' , xi, z, ' : ' , xi, zz)%plot data
xlabel(' x '),ylabel(' y=f(x) '),title(' 2nd and 10th Order curve Fitting ')
在下面的图11.2中,原始数据标以'o',2阶曲线拟合是虚线,10阶拟合是实线。注意,在10阶拟合中,在左边和右边的极值处,数据点之间出现大的纹波。当企图进行高阶曲线拟合时,这种纹波现象经常发生。根据图11.2,显然,‘ 越多就越好 ’的观念在这里不适用。
11.2 一维插值
正如在前一节对曲线拟合所描述的那样,插值定义为对数据点之间函数的估值方法,这些数据点是由某些集合给定。当人们不能很快地求出所需中间点的函数值时,插值是一个有价值的工具。例如,当数据点是某些实验测量的结果或是过长的计算过程时,就有这种情况。
或许最简单插值的例子是MATLAB的作图。按缺省,MATLAB用直线连接所用的数据点以作图。这个线性插值猜测中间值落在数据点之间的直线上。当然,当数据点个数的增加和它们之间距离的减小时,线性插值就更精确。例如,
x1=linspace(0, 2*pi, 60);
x2=linspace(0, 2*pi, 6);
plot(x1, sin(x1), x2, sin(x2), ' - ')
xlabel(' x '),ylabel(' sin(x) '),title(' Linear Interpolation ')
如曲线拟合一样,插值要作决策。根据所作的假设,有多种插值。而且,可以在一维以上空间中进行插值。即如果有反映两个变量函数的插值,z=f(x, y),那么就可在x之间和在y之间,找出z的中间值进行插值。MATLAB在一维函数interp1和在二维函数interp2中,提供了许多的插值选择。其中的每个函数将在下面阐述。
为了说明一维插值,考虑下列问题,12小时内,一小时测量一次室外温度。数据存储在两个MATLAB变量中。
hours=1:12;%index for hour data was recorded
temps=[5 89152529313022252724]; %recorded temperatures
plot(hours, temps, hours, temps,' + ')%view temperatures
title(' Temperature ')
xlabel(' Hour '),ylabel(' Degrees Celsius ')
MATLAB画出了数据点线性插值的直线。为了计算在任意给定时间的温度,人们可试着对可视的图作解释。另外一种方法,可用函数interp1。
t=interp1(hours, temps, 9.3)%estimate temperature at hour=9.3
t =
22.9000
t=interp1(hours, temps, 4.7)%estimate temperature at hour=4.7
t =
22
t=interp1(hours, temps, [3.26.57.111.7])%find temp at many points!
t =
10.2000
30.0000
30.9000
24.9000
interp1的缺省用法是由interp1(x, y, xo)来描述,这里x是独立变量(横坐标),y是应变量(纵坐标),xo是进行插值的一个数值数组。另外,该缺省的使用假定为线性插值。
若不采用直线连接数据点,我们可采用某些更光滑的曲线来拟合数据点。最常用的方法是用一个3阶多项式,即3次多项式,来对相继数据点之间的各段建模,每个3次多项式的头两个导数与该数据点相一致。这种类型的插值被称为3次样条或简称为样条。函数interp1也能执行3次样条插值。
t=interp1(hours, temps, 9.3, ' spline ')%estimate temperature at hour=9.3
t =
21.8577
t=interp1(hours, temps, 4.7, ' spline ')%estimate temperature at hour=4.7
t =
22.3143
t=interp1(hours, temps, [3.26.57.111.7], ' spline ')
t =
9.6734
30.0427
31.1755
25.3820
注意,样条插值得到的结果,与上面所示的线性插值的结果不同。因为插值是一个估计或猜测的过程,其意义在于,应用不同的估计规则导致不同的结果。
一个最常用的样条插值是对数据平滑。也就是,给定一组数据,使用样条插值在更细的间隔求值。例如,
h=1:0.1:12;%estimate temperature every 1/10 hour
t=interp1(hours, temps, h, ' spline ') ;
plot(hours, temps, ' - ' , hours, temps, ' + ' , h, t)%plot comparative results
title(' Springfield Temperature ')
xlabel(' Hour '),ylabel(' Degrees Celsius ')
在图11.5中,虚线是线性插值,实线是平滑的样条插值,标有' + '的是原始数据。如要求在时间轴上有更细的分辨率,并使用样条插值,我们有一个更平滑、但不一定更精确地对温度的估计。尤其应注意,在数据点,样条解的斜率不突然改变。作为这个平滑插值的回报,3次样条插值要求更大量的计算,因为必须找到3次多项式以描述给定数据之间的特征。