??智慧
2024-08-08 10:17老師,temporal difference的這里面并沒有提及是在哪一個(gè)ACTION. 而且認(rèn)為S1 是開始點(diǎn),需要轉(zhuǎn)移到S2去。那么old is s1 and new is s2. and 0.7是怎么被選擇到的,畢竟我們知道這里并沒有受是哪一個(gè)action. 公式的下標(biāo),t and t+1 都是什么意思啊。里面還有一個(gè)gamma,是什么意思?麻煩老師了。感謝。
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-08-09 09:53
該回答已被題主采納
同學(xué)你好。當(dāng)前我們要update Q(2,2),根據(jù)題目信息,對(duì)于temporal difference method,已知the next decision on the trial is when the learning agent is on S1 —— 我們需要從S1的兩個(gè)action中選擇一個(gè)能夠最大化Q-value的,所以我們選擇Action 1,對(duì)應(yīng)Q-value = 0.7。公式的下標(biāo)t就是當(dāng)前,t + 1就是做出下一次決策的時(shí)點(diǎn)。gamma是一個(gè)折現(xiàn)率的概念,因?yàn)镼(St + 1,A)發(fā)生在未來。
