Lord Voldemort
2024-06-24 21:11B哪里錯了呢
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
黃石助教
2024-06-25 09:16
該回答已被題主采納
同學(xué)你好。Reinforcement learning使用unlabeled也就是無標(biāo)簽的數(shù)據(jù)集(故B選項錯誤,沒有correct output values)。它是根據(jù)周圍的環(huán)境采取行動,而模型會根據(jù)行動的結(jié)果給予獎勵或懲罰,從而不斷優(yōu)化行動策略。本質(zhì)上reinforcement learning考慮的是智能體與環(huán)境的交互問題,目標(biāo)是找到一個最優(yōu)策略,使智能體獲得盡可能多的獎勵??梢灶惐瘸少愜囉螒?,賽車就是智能體,需要通過執(zhí)行很多動作來獲得盡可能高的比賽得分,這里比賽得分就是獎勵。
