??智慧
2024-08-07 17:28看了一些文檔和視頻,還是有些模糊。想問老師,梯度,步長,斜率,學(xué)習(xí)率之間的關(guān)系是什么樣的,怎么被使用的?
所屬:FRM Part I > Foundations of Risk Management 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-08-08 10:22
該回答已被題主采納
同學(xué)你好。首先明確loss function的概念。絕大多數(shù)機(jī)器學(xué)習(xí)模型都會(huì)有一個(gè)損失函數(shù),比方說均方誤差損失函數(shù)(見圖1)。這種函數(shù)其實(shí)就是用來衡量模型的精確度的。一般來說,損失函數(shù)越小,模型就越精確(如均方誤差越小、模型就越精確)。想要提高機(jī)器學(xué)習(xí)模型的精確度就要盡可能降低損失函數(shù)的值。Gradient descent algorithm就是一個(gè)常用的降低損失函數(shù)的算法,我們用這個(gè)算法不斷地調(diào)整weight和bias,以使損失函數(shù)越來越小。這一算法要用到loss function對于weight和bias的一階導(dǎo),通過一階導(dǎo)乘以learning rate來對參數(shù)進(jìn)行不斷的調(diào)整、使得loss function越來越小(見圖2)。learning rate減小能解決loss function converges to different values的問題,這主要是因?yàn)閘oss function通常比較復(fù)雜,可能是非常彎彎繞繞的曲線,這種情況下就會(huì)有很多所謂的local minima(局部最?。┑那樾?。如果我們learning rate太大,每次對于parameter的調(diào)整太多,很有可能導(dǎo)致loss function在最小化的過程中發(fā)生偏離。同學(xué)可以看一下https://blog.csdn.net/iqdutao/article/details/107174240這篇文章中下山的例子,可以很好地幫助理解。
