Machine Learning --- Sparse Model & ARD & BIC/AIC & Sparse Coding

zoukankan html css js c++ java

Machine Learning --- Sparse Model & ARD & BIC/AIC & Sparse Coding

一、稀疏模型

所谓稀疏，即w中不相关特征的权重置0，因此也称“特征选择”。实际应用中只选择总特征的1/3，其他权重赋0。特征选择简化了模型，避免维度灾难，提高了推广性。

二、贝叶斯特征选择

(1)spike & slab模型，L0正则(非零项个数)

选择还是不选择服从Bernoulli分布，先验为：

似然为：

若似然不能解析求解，可用BIC（贝叶斯信息准则，见3）近似：

后验为：

，其中

整理得目标函数：

式子是不是很熟悉，与岭回归一样，就是L2正则变为L0正则，估计参数w的同时完成了特征选择！但L0很难优化。对于给定的，可以得到解析解：。可以贪心搜索（最佳单特征替换SBR、正交最小二乘OLS、正交投影寻踪OMP）以降低计算量。

(2)Lasso回归，L1正则（绝对值和）

特征选择也可以用L1正则，因为L1模是L0模的最小凸近似。目标函数变为：

Lasso相关知识点在线性回归模型中已总结。

三、信息准则（用于模型选择，每次增加或减少一个特征，选择风险最小的模型）

(1) AIC赤池信息准则

AIC(M)=-2L(M)+2p，其中L(M)为模型M的对数似然函数，p为模型M的特征个数（表示模型复杂度）。

(2) BIC贝叶斯信息准则

BIC(M)=-2L(M)+(logN)p

四、稀疏贝叶斯学习（SBL/ARD自动相关确定）

w的先验分布：

数据D的似然：

，其中

边缘似然：

w的后验分布：

其中，，其中A为a的对角阵。不知道a和b可以将之积分掉，但计算困难，因此一般用最佳a和b的值替代。估计a和b又称为超参数估计，估计方法：梯度下降法、迭代算法。优化使得a的很多成分值很大，导致相应w元素的后验方差/均值为0，因此可去掉这些元素使模型稀疏。

五、 Sparse Coding稀疏编码（非监督学习：数据重构）

若W为超完备正交阵，用W的基向量线性表示观测数据x（组合系数z稀疏）称之为稀疏编码，即重构x为z。其中W称为字典，每列成为词项（原子），通常采用DCT（余弦相似度）基。稀疏编码就是加上L1正则的超完备基重构。例如一个信号可近似重构为超完备基的线性组合，其中非零元较少。

似然可近似为：

若p(z)为Laplace分布，则-log似然为：

固定z优化W为二次规划问题；固定W优化z为Lasso问题。因此采用EM算法迭代优化直至收敛使NLL最小。

六、Compressed Sensing压缩感知

假设观测不到数据x，只观测到其低维表示y(y=Rx+e，e为白噪声，R为感知矩阵)，可重构y求出x。与稀疏编码类似，目标是重构x，即求p(x|y,R)，图例如下：

自然信号可由少量基函数线性组合表示x=Wz，已知x的低维表示y求z的过程称为压缩感知（y=Rx=RWz=R'z）。合适的字典W一般为小波基或通过稀疏编码学习到自适应的基，图例如下：

查看全文

相关阅读:
OpenStack 多节点纳管 vCenter 5.5
OpenStack 多节点纳管 vCenter 5.5
java.utils.UUID类介绍
 BeanUtils工具类
 Request笔记
 JavaEE_XMind总结
 JavaSE_XMind总结
 完成页面的定时跳转
 使用jsp完成商品列表的动态显示
 Respone笔记

原文地址：https://www.cnblogs.com/jizhiyuan/p/3421454.html