在上一篇博文中,我們討論了利用損失函數來判斷一個權重矩陣的好壞,在這節中我們將討論如何去找到最優的權重矩陣
想象我們要下到一個峽谷的底部,我們自然會選擇下降最快的斜坡,換成我們這個問題就是要求權重矩陣相對於損失函數的梯度函數,最簡單的方法就是使用定義法:
我們也可以使用解析梯度,這裡需要用到矩陣對向量,矩陣對標量求導的一些知識,在後面我們也會採用反向傳播的方法,因為自己手算微積分畢竟比較容易出錯,尤其是涉及到很多層神經網路的時候。
在作業assignment2 的第一個線性分類器的實現中,我們會使用兩張種損失函數,分別是svm與softmax函數,需要我們使用解析梯度來計算,這裡推薦兩篇博文的推導過程,因為我這邊基礎也不是很好,需要再深入學習一下