枻同學(xué)
2023-02-17 13:20reinforcement learning可以舉個(gè)具體點(diǎn)例子嗎,沒有太明白
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
ES助教
2023-02-17 16:54
該回答已被題主采納
同學(xué)你好~
1. 強(qiáng)化學(xué)習(xí)(Reinforcement learning)比較典型的例子就是“AI與人類下棋”。Reinforcement learning這種算法在一開始會犯很多錯(cuò)誤,性能很差,但隨著試錯(cuò)的次數(shù)越來越多,Reinforcement learning會不斷改進(jìn)自己的方法、行動(dòng),最終戰(zhàn)勝人類,贏得比賽。
2. 強(qiáng)化學(xué)習(xí)的過程可以用以下的循環(huán)來加強(qiáng)理解:
2.1 機(jī)器在環(huán)境 (environment) 里獲得一個(gè)初始狀態(tài)S0
2.2 在S0的基礎(chǔ)上,機(jī)器會做出第一個(gè)行動(dòng)A0
2.3 環(huán)境變化(environment changing) ,獲得新的狀態(tài)S1 (A0發(fā)生后)
2.4 環(huán)境給出了第一個(gè)獎(jiǎng)勵(lì)R1
這個(gè)循環(huán)就是一個(gè)由狀態(tài)、獎(jiǎng)勵(lì)和行動(dòng)組成的序列。而算法的目標(biāo)就是讓預(yù)期累積獎(jiǎng)勵(lì)最大化。
3. 在算法決定采取行動(dòng)的過程中,它需要在探索和開發(fā)之間進(jìn)行選擇
3.1 exploration. 探索是找到關(guān)于環(huán)境的更多信息
3.2 exploitation. 開發(fā)是利用已知信息來得到最多的獎(jiǎng)勵(lì)
正因?yàn)樗惴ǖ哪繕?biāo)是將預(yù)期累積獎(jiǎng)勵(lì)最大化,它有時(shí)候會陷入一種困境。如果算法總是選擇迄今為止所能確定的最佳動(dòng)作而不去嘗試新動(dòng)作,獎(jiǎng)勵(lì)累積就會比較慢,可能會產(chǎn)生次優(yōu)結(jié)果。如果它一直嘗試新動(dòng)作,也許就會發(fā)現(xiàn)大獎(jiǎng)的存在,但也有可能發(fā)生危險(xiǎn)。所以,程序員需要在exploration & exploitation把握一個(gè)平衡。
4. Reinforcement learning的一個(gè)缺點(diǎn)是,與其他機(jī)器學(xué)習(xí)方法相比,它們往往需要更大量的訓(xùn)練數(shù)據(jù)。
