152****6172
2024-10-05 12:19這個(gè)reinforcement learning 公式表達(dá)的是啥意思?
所屬:FRM Part I > Valuation and Risk Models 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-10-09 11:15
該回答已被題主采納
同學(xué)你好。該公式稍作了解即可,reinforcement learning的內(nèi)容繁多,原版書上只是進(jìn)行了簡要介紹。V(S)指的是狀態(tài)S下的“價(jià)值”,這個(gè)價(jià)值等于max_A[Q(S, A)]。其中,Q(S, A)可被理解成是在狀態(tài)S下采取動(dòng)作A所能帶來的預(yù)期未來獎(jiǎng)勵(lì),而V(S)則是從一系列不同的動(dòng)作A帶來的Q(S, A)中挑選一個(gè)最大值作為該狀態(tài)下的價(jià)值。
