用ADMM求解大型机器学习问题

zoukankan html css js c++ java

用ADMM求解大型机器学习问题

用ADMM求解大型机器学习问题

[本文链接：http://www.cnblogs.com/breezedeus/p/3496819.html，转载请注明出处]

从等式约束的最小化问题说起：

上面问题的拉格朗日表达式为：

也就是前面的最小化问题可以写为：


为了弱化对偶上升方法的强假设性，一些研究者在上世纪60年代提出使用扩展拉格朗日表达式（augmented Lagrangian）代替原来的拉格朗日表达式：

其中

注意，乘子法里把第二个式子里的

乘子法弱化了对偶上升法的收敛条件，但由于在x-minimization步引入了二次项而导致无法把x分开进行求解（详见[1])。而接下来要讲的Alternating Direction Method of Multipliers (ADMM)就是期望结合乘子法的弱条件的收敛性以及对偶上升法的可分解求解性。ADMM求解以下形式的最小化问题：

其对应的扩展拉格朗日表达式为：

ADMM包括以下迭代步骤：

ADMM其实和乘子法很像，只是乘子法里把

定义新变量

下面让我们看看ADMM怎么被用来求解大型的机器学习模型。所谓的大型，要不就是样本数太多，或者样本的维数太高。下面我们只考虑第一种情况，关于第二种情况感兴趣的读者可以参见最后的参考文献[1, 2]。样本数太多无法一次全部导入内存，常见的处理方式是使用分布式系统，把样本分块，使得每块样本能导入到一台机器的内存中。当然，我们要的是一个最终模型，它的训练过程利用了所有的样本数据。常见的机器学习模型如下：


假设把

在分布式情况下，为了计算方便通常会把

ADMM的框架确实很牛逼，把一个大问题分成可分布式同时求解的多个小问题。理论上，ADMM的框架可以解决大部分实际中的大尺度问题。我自己全部实现了一遍这个框架，主要用于求解LR问题，下面说说我碰到的一些问题：
1. 收敛不够快，往往需要迭代几十步。整体速度主要依赖于

[References]
[1] S. Boyd. Alternating Direction Method of Multipliers (Slides).
[2] S. Boyd et al. Distributed Optimization and Statistical Learning via the Alternating Direction Method of Multipliers, 2010.

https://www.cnblogs.com/breezedeus/p/3496819.html

查看全文

相关阅读:
【数据结构】线性表&&顺序表详解和代码实例
 【智能算法】超详细的遗传算法(Genetic Algorithm)解析和TSP求解代码详解
 【智能算法】用模拟退火(SA, Simulated Annealing)算法解决旅行商问题 (TSP, Traveling Salesman Problem)
【智能算法】迭代局部搜索（Iterated Local Search, ILS）详解
 10. js时间格式转换
 2. 解决svn working copy locked问题
 1. easyui tree 初始化的两种方式
 10. js截取最后一个斜杠后面的字符串
 2. apache整合tomcat部署集群
 1. apache如何启动

原文地址：https://www.cnblogs.com/think90/p/11492351.html