思路
看了不少网上关于TPU的分析,大都是TPU如何简化计算矩阵乘法,即全连接矩阵的计算,weight和input矩阵只需按顺序读入一次,即可实现矩阵乘法的快速计算。
而CNN需要大量卷积计算,对于一个卷积核,例如3*3卷积核,该如何计算,一直没找到相关分析,或者是太过简略我也没看明白。
后来关联卷积和矩阵乘法搜索到了一篇文章:CNN中卷积的计算规则和利用矩阵乘法的实现
读了这篇文章,才意识到自己走进了一个误区,以为计算卷积一定和计算矩阵乘法一样,所有数据只能按顺序读入一次,让PE阵列自动计算。而对于二维矩阵的卷积计算,如果input二维矩阵按照顺序输入一次,并没有合适的算法,来计算出卷积。
于是我换了一个思路,weight矩阵load进入MXU后,可以重新编排input矩阵,再输入。