牛顿法、拟牛顿法、共轭梯度法

一: 最速下降法
下降法的迭代格式为

这里要注意的是, 最速下降方向只是算法的局部性质. 对于许多问题, 最速下降法并非”最速下降”, 而是下降非常缓慢. 数值试验表明, 当目标函数的等值线接近于一个圆(球)时, 最速下降法下降较快, 而当目标函数的等值线是一个扁长的椭圆时, 最速下降法开始几步下降较快, 后来就出现锯齿现象, 下降就十分缓慢. 其原因是这样的, 由于一维搜索满足

. 表明在相邻两个迭代点上函数的两个梯度方向是互相直交的, 这就产生了锯齿形状, 当接近极小点时, 步长越小, 前进越慢.
当目标函数是二次函数时, 最速下降法的收敛速度由对应于某个等值线的椭球的最长轴与最短轴之比决定. 这个比值越大, 最速下降法下降越慢.

二: 牛顿法
牛顿法的基本思想是利用目标函数的二次Taylor展开, 并将其极小化. 也可以想成是一个一点二次插值法进行局部拟合.

带步长因子的牛顿法, 算法如下:
Step1: 选取初始数据, 取初始化点

不定时, 二次模型函数是无界的. 为了克服这些困难, 人们提出了很多修正措施.

拟牛顿法

牛顿法成功的关键是利用了Hesse矩阵提供的曲率信息, 而计算Hesse矩阵工作量大, 并且有的目标函数的Hesse矩阵很难计算, 甚至不好求出来, 这就导致仅用目标函数的一阶导数的方法, 拟牛顿法就是利用目标函数值和一阶导数信息, 构造出目标函数的曲率近似, 而不需要明显形成Hesse矩阵, 同时具有收敛速度快的优点.

一: 拟牛顿法条件
目标函数

DFP方法是一个实际上广为采用的方法, 它在理论分析和实际应用中都起了很大作用. 但是, 进一步的研究发现, DFP方法具有数值不稳定性, 有时产生数值上奇异的Hesse近似. 而BFGS校正克服了DFP校正的缺陷.

三: BFGS校正(Broyden-Fletcher-Goldfarb-Shanno)
利用Hesse近似方法构造

BFGS校正是迄今最好的拟牛顿公式. 它具有DFP校正所具有的各种性质. 此外, 当采用不精确线性搜索时, BFGS公式还具有总体收敛性质, 这个性质对于DFP公式还没有证明. 在数值执行中, BFGS公式也优于DFP公式, 尤其是它常常能与低精度线性搜索方法一起连用.

[参考] 1. <最优化理论与方法>.袁亚湘院士著.
2.<统计学习方法>.李航著

共轭梯度法

一: 共轭方向法
共轭方向法是介于最速下降法与牛顿法之间的一个方法, 它仅需利用一阶导数信息, 但克服了最速下降法收敛慢的缺点, 又避免了存储和计算牛顿法所需要的二阶导数信息. 共轭方向法是从研究二次函数的极小化产生的, 但是它可以推广到处理非二次函数的极小化问题. 最典型的共轭方向法是共轭梯度法. 而拟牛顿法也是共轭方向法的一种.

共轭方向的概念是这么定义的: 设

, 即是正交向量组. 因而共轭概念是正交概念的推广. 但要注意, 正交的向量不一定共轭, 共轭的向量不一定正交, 有时, 可能既共轭又正交.

为什么要引入共轭向量组呢, 因为它有如下重要的性质:
1). 若

通常, 我们把从任意点出发, 依次沿某组共轭方向进行一维搜索求解的方法, 叫做共轭方向法. 由于共轭方向组的取法有很大的随意性, 用不同方式产生一组共轭方向就得到不同的共轭方向法. 如果利用迭代点处的负梯度向量为基础产生一组共轭方向, 这样的方法叫做共轭梯度法.

二: 共轭梯度法
为了满足共轭方向组的定义, 我们可以推出这样一组迭代公式:

, 即算法有自动再开始的趋势, 这样有利于克服进展缓慢的缺点. 一些实验结果表明, 对一些大型问题, P-R-P公式效果较好. 然而1984年Powell M J D提出了反例来说明在存在某些问题, P-R-P法不收敛, 而F-R法具有全局收敛性.

在实践中证明十分有效的无约束最优化方法, 除了共轭梯度法以外, 还有变尺度算法. 它们的结构原理都是基于二次函数模型产生下降方向, 然后由线性搜索选择在该方向上的步长. 变尺度算法也是一类方法的总称, 使用比较普遍的有DFP方法和BFGS方法, 这些方法是相当于迭代的每一轮的度量是变化的最速下降法, 因而得此名. 数值实验指出, BFGS算法是最好的变尺度算法, 当变量个数不超过100时, 通常BFGS法比共轭梯度法效果好. 但对于变量个数超过100的大规模无约束游湖问题, 共轭梯度法因其不要太大的存储量而更具优势.

信赖域法是目前正在发展中的一种无约束最优化方法. 它是针对共轭梯度法和变尺度法的缺点设计的.

[参考] 1. <最优化理论与方法>.袁亚湘院士著.
2.<运筹学>.习在筠等著