圓同學
2024-08-04 14:36可以詳細解釋一下這道題嗎?謝謝老師Thanks?(?ω?)?
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關試題
來源: 視頻位置 相關試題
1個回答
黃石助教
2024-08-05 15:17
該回答已被題主采納
同學你好。這道題考察的是reinforcement learning中的Q-learning的具體應用。其實從題目本身來說只要會套這兩個公式即可,其中S是state,A是action,alpha是一個參數(shù),叫做learning rate,R是reward,Q_old就是當前的Q值,Q_new是新的Q值(當machine采取了一個action,進入了一個state后的Q值)。對于Q-learning的話通過一個例子來看會更好理解一些,見下圖?;贛onte-Carlo method,代入數(shù)據(jù),有Q_new(S,A) <= Q_old(S,A) + α[R_Total - Q_old(S,A)] = 0.9 + 0.05*(1.2 - 0.9) = 0.915?;赥emporal Difference method,代入數(shù)據(jù),有Q_new(S,A) <= Q_old(S,A) + α[R_t+1 + γMax(Q(St + 1,A)) - Q_old(S,A)] = 0.9 + 0.05*(0.3 + 0.7 - 0.9) = 0.905(此處假設不考慮折現(xiàn)問題)。
