13****85
2024-07-30 04:24不明白為什么gamma減小就能解決題干中遇到的“ the loss function converges to different values”。這里的 loss function 是什么?
所屬:FRM Part I > Foundations of Risk Management 視頻位置 相關(guān)試題
來(lái)源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-07-30 11:45
該回答已被題主采納
同學(xué)你好。首先明確loss function的概念。絕大多數(shù)機(jī)器學(xué)習(xí)模型都會(huì)有一個(gè)損失函數(shù),比方說(shuō)均方誤差損失函數(shù)(見(jiàn)圖1)。這種函數(shù)其實(shí)就是用來(lái)衡量模型的精確度的。一般來(lái)說(shuō),損失函數(shù)越小,模型就越精確(如均方誤差越小、模型就越精確)。想要提高機(jī)器學(xué)習(xí)模型的精確度就要盡可能降低損失函數(shù)的值。Gradient descent algorithm就是一個(gè)常用的降低損失函數(shù)的算法,我們用這個(gè)算法不斷地調(diào)整weight和bias,以使損失函數(shù)越來(lái)越小。這一算法要用到loss function對(duì)于weight和bias的一階導(dǎo),通過(guò)一階導(dǎo)乘以學(xué)習(xí)率來(lái)對(duì)參數(shù)進(jìn)行不斷的調(diào)整、使得loss function越來(lái)越小(見(jiàn)圖2)。至于為什么learning rate減小能解決loss function converges to different values的問(wèn)題,這主要是因?yàn)閘oss function通常比較復(fù)雜,可能是非常彎彎繞繞的曲線,這種情況下就會(huì)有很多所謂的local minima(局部最?。┑那樾?。如果我們learning rate太大,每次對(duì)于parameter的調(diào)整太多,很有可能導(dǎo)致loss function在最小化的過(guò)程中發(fā)生偏離。同學(xué)可以看一下https://blog.csdn.net/iqdutao/article/details/107174240這篇文章中下山的例子,可以很好地幫助理解。
