可以把cost function 想象做一个系统浪费的energy, 找最优解,minimize cost function就是在找一个stable状态,让energy浪费最小。比如classification问题,就是让不确定性最小,就是entropy最小