本科做的题目就是模式识别。正好重温一下。
首先对文本向量化,得到向量I, 例如是1*n的向量
然后求协方差矩阵 = I*IT, 得到n*n的矩阵, 那么如果有M个文本,就可以得到 Sum(I*IT)(1~M)= AAT。
然后降维处理,得到ATA。这2个矩阵的特征值是相同的,特征向量关系:f= A*v ,f是前者的特征向量,v是后者的特征向量。
由于我只有1个文本,所以变换后的矩阵是个数,本质就是这个矩阵的模的平方。
。。。。搞了半天。。。。似乎没有什么用。不过由于不用求特征值和特征向量,那么算法就很简单了。