下图中的每个node可以是任意维度的,而不仅仅是图中的示例。
而,如下图示,如果要同时算e对a和e对b的偏微分的话,需要一个reverse mode
所以,上图用的computational graph算所有edge上的偏微分,如果edge两遍都是vector的话,我们得到的就是同一个matrix,如上图底部;
如下图,如果算C对y的偏微分,因为C是一个scalar,所以结果一般是一个长条状的,例如,如果算在MNist的数字识别时,C对y的偏微分结果就是高为1,
宽为10的长条,也即一行十列的向量。
如果时分类问题的话,一般你的label用one hot encode来表示,只有其中一维时1,其他的都是0;假设1的那一维时第r维,