Factor_Analysis - 走看看

zoukankan html css js c++ java

Factor_Analysis

Factor_Analysis（因子分析）
Factor Analysis 简书：较好理解的解释，其中公式有一定的推导（仅展现关键步骤，细节大多需要自行补充），基本为结论式。

感性层面理解：首先，明确FA和PCA的区别。PCA做的是对某个样本，试图寻找到一组方差尽量大的线性表示（基向量），以便降维；FA做的是，假想存在一些隐变量，它们影响着我们的观测结果（即我们得到的数据样本），我们试图找到两者的联系：$x = Lambda z + mu + epsilon$，在简书中有说明其MLE函数形式，不难看出它的MLE形式难以求解，故采用EM（机器学习之最大期望(EM)算法，讲得不错）迭代以求最优解。此外，FA通常用于$m<<n$的庆幸

心路历程：首先，我去推了一下EM，发现自己之前学的时候，由于是在GMM求解的时候需要的，所以并没有很仔细地推导，所以就再去推导了一次~~推了我一页草稿纸~~。其次，没有找到：$mu_{x_1|x_2} = mu_1 + Sigma_{12} Sigma_{22}^{-1} (x_2 - mu_2)$ 以及 $Sigma_{1|2} = Sigma_{11} - Sigma_{12} Sigma_{22}^{-1} Sigma_{21}$ 的公式名称，如果看官知晓其名称，望告知不才，感激不尽。最后，还是忘记了矩阵求导，又去查了一下，而我也尚未进行公式回带和化简整合。~~自闭了，一大堆~~

疑问：简书作者在开头提到：由于存在隐变量，同时不能由MLE得到close form。（close form：即闭式解，通俗解释就是$ abla f(x) = 0$的$x$表达式），这里不理解为何没有闭式解，目前推的结果（MLE式子），大概猜测是因为$m<<n$的缘故，这样带来的结果就是$left| Sigma ight| = 0$（其实本身$left| Sigma ight|$是不等于0的，但是由于$m<<n$，所以它等于0，其实就是由于样本数量不足，或者说难以得到如此高维并且充足的样本）。显然，$left| Sigma ight| = 0$会在后续中遇到诸多麻烦，最容易想的就是$Sigma$是不可逆的，这显然很难进行接下来的计算，虽然我算的不多，但是$Sigma^{-1}$几乎都是需要的。然而，可以引入伪逆，所以肯定还有我没有想到的原因，或者说伪逆会带来较差的表现等等。

备注：由于博客园写推导公式较为麻烦，所以没有在博客上进行推导，不过建议看官如果并未学习过上述知识，还是手推几次以便加强理解和记忆（当然也有一些少年仅仅看就能得到很好理解，并且运用巧妙）。比如在EM算法中，求解lower_bound之前，分子分母同乘一个量以便之后用Jensen不等式化简（orz）等等（~~好像其他的操作就比较平凡了~~）。最近闲来无事的时候，发现很多学习过的算法，特别是需要一定数学式子或者思维来求解的（~~我竟然想去求LCM解烤鸡？？~~），似乎都忘了需要求解的表达式（嘴上讲讲天花乱坠，手里推推苦思冥想），虽然求解过程都不难，但是对于我来说，其中一些技巧还是需要理解的~~有些计算量也是大啊~~。

查看全文

相关阅读:
可持久化+Trie || BZOJ 3261最大异或和 || Luogu P4735 最大异或和
 费用流+SPFA ||Luogu P3381【模板】最小费用最大流
 费用流+SPFA ||【模板】最小费用最大流
 Dinic二分图匹配 || Luogu P3386
Dinic最大流 || Luogu P3376 【模板】网络最大流
 fhq_treap || BZOJ1861: [Zjoi2006]Book 书架 || Luogu P2596 [ZJOI2006]书架
 fhq_treap || BZOJ 3223: Tyvj 1729 文艺平衡树 || Luogu P3391 【模板】文艺平衡树（Splay）
fhq_treap || BZOJ 3224: Tyvj 1728 普通平衡树 || Luogu P3369 【模板】普通平衡树
 Manacher || BZOJ 2342: [Shoi2011]双倍回文 || Luogu P4287 [SHOI2011]双倍回文
 Manacher || P4555 [国家集训队]最长双回文串 || BZOJ 2565: 最长双回文串

原文地址：https://www.cnblogs.com/FormerAutumn/p/11516015.html