李同學(xué)
2024-05-11 15:54The size of the step in the gradient descent algorithm is known as the learning rate這個(gè)講義里面沒看到有啊,只提到the direction of steepest descent,感覺ML這塊講的太粗糙了,考的又很細(xì)
所屬:FRM Part I > Foundations of Risk Management 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-05-14 09:56
該回答已被題主采納
同學(xué)你好。我這邊去反饋一下,造成的不便還請諒解。這個(gè)內(nèi)容確實(shí)比較細(xì),原版書上也基本沒怎么講??偠灾?,在ANN中,我們會(huì)計(jì)算模型輸出值與實(shí)際值之間的誤差,并將該誤差從輸出層向隱藏層反向傳播,直至傳播到輸入層。在反向傳播的過程中,模型會(huì)結(jié)合優(yōu)化方法、根據(jù)誤差調(diào)整各參數(shù)的值。該過程將會(huì)不斷迭代、直至收斂。常用的方法是gradient descent algorithm,在該算法下,通常會(huì)先設(shè)置一個(gè)目標(biāo)函數(shù),比如mean squared error(見圖1),然后將其對(duì)biases和weights求一階導(dǎo),然后利用圖2中的公式去獲得新的參數(shù)。圖2中的gamma就是learning rate,它影響的是gradient descent algorithm調(diào)整的大小(倒三角L就是前面求的導(dǎo)數(shù))。
