龔?fù)瑢W(xué)
2024-04-12 04:37請(qǐng)問(wèn)老師可以再講一下這個(gè)公式嗎?里面的S ,A ,Alpha , R 分別對(duì)應(yīng)什么呢?然后old又是幾期的Q呢?
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來(lái)源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-04-12 16:35
該回答已被題主采納
同學(xué)你好。S是state,A是action,alpha是一個(gè)參數(shù),叫做learning rate,R是reward,Q_old就是當(dāng)前的Q,Q_new是新的Q(當(dāng)機(jī)器采取了一個(gè)action,進(jìn)入了一個(gè)state后)。這部分內(nèi)容我比較建議你通過(guò)一個(gè)切實(shí)的例子去理解,比如https://www.freecodecamp.org/news/an-introduction-to-q-learning-reinforcement-learning-14ac0b4493cc/,這個(gè)例子挺形象的。
