瑜同學(xué)
2025-07-31 14:56老師,為什么這里的G=1,G是代表未來的期望獎勵,還是未來的期望獎勵之和,贏了的獎勵是1,輸了的獎勵是-1,這個G是怎么得出來的呢
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
黃石助教
2025-08-01 10:47
該回答已被題主采納
同學(xué)你好。G為未來期望獎勵之和,說人話就是算法做了這一次試驗(yàn)(例子里就是玩了一次游戲)所能得到的所有獎勵之和。在這個例子里,只有最后游戲結(jié)束時有獎勵,所以G就等于游戲結(jié)束時的獎勵。一般來說我們還要考慮折現(xiàn)的問題,就是游戲結(jié)束時的1并不等于當(dāng)前的1,所以一般會在1前面乘上一個小于1的折現(xiàn)因子。但考試的話目前來看基本都不考慮折現(xiàn)的問題。
