A级片三级毛片中文字幕|97人人干人人爱|aaaaa毛片亚洲av资源网|超碰97在线播放|日本一a级毛片欧美一区黄|日韩专区潮吹亚洲AV无码片|人人香蕉视频免费|中文字幕欧美激情极品|日本高清一级免费不卡|国模大胆在线国产啪视频

AQF
首頁(yè) 備考指南 精品課程 名師團(tuán)隊(duì) 職業(yè)前景
您現(xiàn)在的位置:首頁(yè)備考必備考試大綱 為什么強(qiáng)化學(xué)習(xí)量化交易挑戰(zhàn)?它所適用的市場(chǎng)環(huán)境是什么?

為什么強(qiáng)化學(xué)習(xí)量化交易挑戰(zhàn)?它所適用的市場(chǎng)環(huán)境是什么?

發(fā)表時(shí)間: 2018-04-12 14:34:14 編輯:

量化交易最終的學(xué)習(xí)目的就是為了實(shí)際應(yīng)用,那么我們對(duì)于量化交易為什么要做一些強(qiáng)化呢?以及它所適用的市場(chǎng)環(huán)境是什么?

量化交易終的學(xué)習(xí)目的就是為了實(shí)際應(yīng)用,那么我們對(duì)于量化交易為什么要做一些強(qiáng)化呢?以及它所適用的市場(chǎng)環(huán)境是什么?


交易策略的相關(guān)指標(biāo)

思考這樣一個(gè)問題:構(gòu)建交易算法的優(yōu)化目標(biāo)是什么?一個(gè)很顯然的答案是利潤(rùn),但是這還不是全部。你還需要將你的交易策略和一些基準(zhǔn)進(jìn)行對(duì)比,同時(shí)需要考慮風(fēng)險(xiǎn)、波動(dòng)等指標(biāo)。關(guān)于交易策略相關(guān)的評(píng)價(jià)指標(biāo)有很多,以下列舉了一些基本介紹。

Net PnL (Net Profit and Loss)

計(jì)算在一定時(shí)間內(nèi),交易策略所賺的或虧損的資金,同時(shí)考慮交易成本。

Alpha 和Beta

Alpha可以理解為相對(duì)于某個(gè)無風(fēng)險(xiǎn)資產(chǎn)(如政府債券投資)的超額收益,如果這個(gè)超額收益是正數(shù),表明你的投資相對(duì)于無風(fēng)險(xiǎn)資產(chǎn)更優(yōu)。Beta是描述和市場(chǎng)波動(dòng)相關(guān)程度大小的指標(biāo),舉個(gè)例子,beta=0.5表明市場(chǎng)在波動(dòng)$2的時(shí)候,你的投資組合波動(dòng)$1。

夏普比例(SharpeRatio)

風(fēng)險(xiǎn)調(diào)整收益指標(biāo),將波動(dòng)和無風(fēng)險(xiǎn)收益率考慮在內(nèi),表明所承受的單位風(fēng)險(xiǎn)所帶來的收益,該值越高越好。

回撤(MaximumDrawdown)

某個(gè)局部值到局部小值的減小比例,這是關(guān)于風(fēng)險(xiǎn)的另一種刻畫。例如50%的回撤表明你在某個(gè)時(shí)間點(diǎn)虧損了50%的本金,那么需要獲得100%的收益才能回本。顯然的,該值越小越好。

風(fēng)險(xiǎn)價(jià)值(VaR)

在一段時(shí)間和一定概率情況下,可能遭遇的損失。例如,1天5%的VaR=10%表明,在一天之內(nèi),有5%的可能性發(fā)生超過10%的損失。

監(jiān)督學(xué)習(xí)

在正式學(xué)習(xí)強(qiáng)化學(xué)習(xí)之前,我們先來介紹如果通過監(jiān)督學(xué)習(xí)的方式構(gòu)建交易策略,然后我們會(huì)發(fā)現(xiàn)這種方式存在的問題,以及為什么我們需要使用強(qiáng)化學(xué)習(xí)。

對(duì)于監(jiān)督學(xué)習(xí)建模,顯然的方式就是預(yù)測(cè)價(jià)格方向。假設(shè)我們可以預(yù)測(cè)價(jià)格上漲,就買入持有,直到價(jià)格發(fā)生上漲之后賣出;類似的,如果預(yù)測(cè)價(jià)格下跌,則可以選擇做空,當(dāng)價(jià)格下跌的時(shí)候買入平倉(cāng)。但是,這種方式存在一些問題。

首先,我們預(yù)測(cè)的是什么價(jià)格?從以上的介紹我們可以看到,我們可以買入的價(jià)格并不,終成交的價(jià)格基于不同價(jià)格檔位可供出售的數(shù)量、以及交易成本。一種簡(jiǎn)單的方式是預(yù)測(cè)中間價(jià)格,即買入和賣出價(jià)格的平均值,這也是大多數(shù)研究者采用的方式。但是,這只是一個(gè)理論價(jià)格,并不是終實(shí)際的成交價(jià),事實(shí)上有可能大幅偏離于實(shí)際成交價(jià)格。

另一個(gè)問題是預(yù)測(cè)周期。我們預(yù)測(cè)的是下一個(gè)交易?還是下一秒?或者下一分鐘或者下一天?從直觀上來看,預(yù)測(cè)的周期越長(zhǎng),不確定性越大,那么預(yù)測(cè)模型也越復(fù)雜。

舉個(gè)例子,假設(shè)當(dāng)前BTC的價(jià)格是$10000,我們準(zhǔn)確地預(yù)測(cè)了后一分鐘的價(jià)格是$10050,這是否意味著你可以獲得$50的收益呢?

我們以賣出價(jià)格$10000買入,大多數(shù)情況下這個(gè)價(jià)格可供出售的數(shù)量不足,假設(shè)只有0.5BTC,實(shí)際情況是以$10000買入0.5BTC,以$10010的價(jià)格買入另外0.5BTC,平均價(jià)格是$10005。同時(shí)需要付出0.3%的交易手續(xù)費(fèi),即$30。

正如我們所預(yù)測(cè),當(dāng)價(jià)格移動(dòng)到$10050時(shí)賣出。由于市場(chǎng)價(jià)格變化迅速,當(dāng)我們的交易指令到達(dá)交易所的時(shí)候,價(jià)格已經(jīng)發(fā)生了移動(dòng),假設(shè)此時(shí)的價(jià)格是$10045。和之前的情況類似,大多數(shù)情況下無法在這個(gè)價(jià)格賣出1.0BTC,或許需要在$10045賣出0.5BTC,在$10040賣出另外0.5BTC,平均價(jià)格是$10042.5。此外還需要付出0.3%手續(xù)費(fèi),大約是$30。

終,雖然準(zhǔn)確預(yù)測(cè)了下一分鐘的價(jià)格,但我們的收益是:-10005- 30 - 30 + 10042.5 = -$22.5,而不是$50,原因可總結(jié)為以下三點(diǎn):

價(jià)格檔位沒有足夠的流動(dòng)性

網(wǎng)絡(luò)延遲

交易成本

而監(jiān)督學(xué)習(xí)模型無法考慮以上三個(gè)因素。

從這個(gè)案例中我們能學(xué)到什么?如果想從簡(jiǎn)單的價(jià)格預(yù)測(cè)中獲取收益,我們需要預(yù)測(cè)更長(zhǎng)的時(shí)間周期以及更大范圍的價(jià)格變化,或者更加智能的成本和訂單管理,但這是一個(gè)非常困難的預(yù)測(cè)問題。當(dāng)然,我們可以使用限價(jià)單而不是市價(jià)單,但對(duì)于訂單的成交就無法保證了,并且需要搭建一個(gè)非常復(fù)雜的系統(tǒng)來執(zhí)行訂單管理。

監(jiān)督學(xué)習(xí)模型的另外一個(gè)問題是,它缺少行動(dòng)策略(policy)。在上述案例中,我們執(zhí)行買入訂單,因?yàn)轭A(yù)測(cè)價(jià)格上漲,我們所做的決策是基于計(jì)劃的。但假如價(jià)格下跌該怎辦?賣出或是持有倉(cāng)位并等待?假如價(jià)格是小幅上漲而后下跌呢?假如我們對(duì)于預(yù)測(cè)并不確定呢?比如65%的概率上漲,35%的概率下跌,你仍然會(huì)買入嗎?如何選擇一個(gè)合適的時(shí)機(jī)買入?

因此,你需要的不僅僅是一個(gè)簡(jiǎn)單的價(jià)格預(yù)測(cè)模型(除非你的模型非常準(zhǔn)確和穩(wěn)定)。我們同時(shí)也需要一個(gè)基于規(guī)則的行動(dòng)策略:輸入的是價(jià)格預(yù)測(cè)值,然后決定如何行動(dòng),比如執(zhí)行訂單、不操作或者取消訂單等。那么,這個(gè)行動(dòng)策略如何構(gòu)建?如何優(yōu)化參數(shù)和決策邊界?答案不是固定的,許多人采用啟發(fā)式算法或是簡(jiǎn)單的直覺。

典型交易策略開發(fā)流程

以上問題已有不少解決方案,但是這些方案往往不太有效,一個(gè)典型的交易策略開發(fā)流程如圖所示:

數(shù)據(jù)分析。通過描述性數(shù)據(jù)分析來尋找交易策略,包括各種圖表、計(jì)算數(shù)據(jù)統(tǒng)計(jì)指標(biāo)等等,這些分析結(jié)果可以為交易策略提供初的想法。

監(jiān)督學(xué)習(xí)模型。很多時(shí)候,可以訓(xùn)練多個(gè)監(jiān)督學(xué)習(xí)模型來預(yù)測(cè)交易策略所需要的核心指標(biāo),比如價(jià)格預(yù)測(cè)模型、成交量預(yù)測(cè)模型等。

行動(dòng)策略(Policy)開發(fā)?;诋?dāng)前市場(chǎng)狀態(tài)以及監(jiān)督學(xué)習(xí)模型的輸出,構(gòu)建一個(gè)基于規(guī)則的策略以用于決策。這個(gè)行動(dòng)策略也有相應(yīng)參數(shù),比如需要優(yōu)化的決策臨界值。

交易策略(strategy)回測(cè)。通過模擬器和歷史數(shù)據(jù)進(jìn)行交易策略的模擬,這個(gè)模擬器通??梢钥紤]訂單簿流動(dòng)性、網(wǎng)絡(luò)延遲、交易成本等因素。假設(shè)交易策略在回測(cè)中表現(xiàn)良好,則可進(jìn)入?yún)?shù)優(yōu)化的環(huán)節(jié)。

參數(shù)優(yōu)化。通過模擬器和歷史數(shù)據(jù),搜索行動(dòng)策略參數(shù)。在這里,過擬合的風(fēng)險(xiǎn)是很大的,你必須仔細(xì)地選擇合適的驗(yàn)證和測(cè)試數(shù)據(jù)。

模擬交易。在實(shí)盤交易之前,基于市場(chǎng)實(shí)時(shí)數(shù)據(jù)的模擬成為模擬交易(paper trading),這可以防止過擬合。只有當(dāng)交易策略在模擬盤上成功運(yùn)行,才可以進(jìn)入實(shí)盤交易階段。

實(shí)盤交易。交易策略在交易所的實(shí)盤交易。》》》點(diǎn)擊學(xué)習(xí)量化交易策略長(zhǎng)久更新班(AQF實(shí)訓(xùn)項(xiàng)目+策略大講堂策略集錦)

這是一個(gè)復(fù)雜的過程,并且不同的公司和研究員之間也有細(xì)微差別,但是這個(gè)流程大致相同。另一方面,這個(gè)過程很多時(shí)候并不有效,主要有以下幾個(gè)原因:

迭代周期太慢。1-3步很大程度基于直覺,在4-5步結(jié)束之前你都不知道交易策略是否可行,在這其間的每一步都有可能失效,那么就不得不重頭開始。

模擬測(cè)試的階段過于靠后。直到第4步之前,你都沒有考慮實(shí)際交易中的環(huán)境因素,比如系統(tǒng)延遲、手續(xù)費(fèi)、流動(dòng)性等。這些因素應(yīng)該融入模型開發(fā)和參數(shù)優(yōu)化的流程。

行動(dòng)策略的開發(fā)獨(dú)立于監(jiān)督學(xué)習(xí)模型,即使二者緊密相關(guān)。監(jiān)督學(xué)習(xí)模型的輸出是行動(dòng)策略的輸入,因此需要考慮二者同時(shí)優(yōu)化。

行動(dòng)策略過于簡(jiǎn)單,受限于人們所能想到的可能。

參數(shù)優(yōu)化不有效。例如,你的優(yōu)化目標(biāo)是化夏普比例,往往通過網(wǎng)格搜索的方式,而不是基于梯度的方法,效率低下,很難達(dá)到全局。

基于以上介紹,我們需要進(jìn)一步關(guān)注如何通過強(qiáng)化學(xué)習(xí)來解決這些問題。

深度強(qiáng)化學(xué)習(xí)用于交易

強(qiáng)化學(xué)習(xí)問題可以通過馬爾科夫決策過程(Markov Decision Process,MDP)來描述,工作原理可以簡(jiǎn)化如下:環(huán)境中有一個(gè)Agent,在每一個(gè)時(shí)間點(diǎn)t,Agent以當(dāng)前的狀態(tài)St為輸入,采取動(dòng)作為At,然后接受獎(jiǎng)勵(lì)Rt+1和下一時(shí)刻的狀態(tài)St+1。Agent基于行動(dòng)策略π做出動(dòng)作,At=π(St)。我們的目標(biāo)是尋找一個(gè)行動(dòng)策略以化一段有限時(shí)間內(nèi)的累計(jì)獎(jiǎng)勵(lì)∑Rt。


對(duì)上述涉及的一些名詞做一些解釋說明:

Agent

從簡(jiǎn)單的開始,Agent可以理解為一個(gè)人工交易員,在交易軟件面前,根據(jù)當(dāng)前市場(chǎng)狀態(tài)做出各種交易決策。

環(huán)境(Environment)

交易所可以理解為這里的環(huán)境,在這個(gè)環(huán)境中有許多其他的Agent,包括人工玩家以及算法交易玩家。假設(shè)基于分鐘級(jí)別的時(shí)間周期,我們采取行動(dòng),等待一分鐘,得到一個(gè)新的狀態(tài),然后采取下一次行動(dòng),周而復(fù)始……新的狀態(tài)是基于市場(chǎng)環(huán)境的反饋,而市場(chǎng)環(huán)境由其他許多Agent的行動(dòng)決定,因此站在自身的角度,其他的Agent也構(gòu)成了環(huán)境的一部分,這些因素往往是我們無法控制的。

如果把其他所有Agent放入一個(gè)大而復(fù)雜的環(huán)境中,那就無法顯式地對(duì)這些Agent進(jìn)行建模了。例如,我們可以根據(jù)其他交易員的行為來制定反向交易算法,以及從中挖掘出有用的信息。這就涉及到Mult-Agent強(qiáng)化學(xué)習(xí)問題(MARL),一個(gè)目前研究活躍的領(lǐng)域。在這一小節(jié)中,我們先考慮比較簡(jiǎn)單的情況,僅僅和一個(gè)綜合環(huán)境進(jìn)行交互,這個(gè)環(huán)境涵蓋了其他所有Agent的行為。

狀態(tài)(State)

交易過程中,我們無法觀測(cè)到交易所這個(gè)環(huán)境的完整狀態(tài),比如我們不知道其他Agent的交易情況、他們的數(shù)量有多少、賬戶余額、訂單狀況等,這意味著我們處理的是一個(gè)部分可見的馬爾科夫決策過程(Partially Observable Markov Decision Process, POMDP)。每個(gè)Agent觀測(cè)到的狀態(tài)并不是環(huán)境的真實(shí)狀態(tài)St,而是它的某種衍生Xt,二者符合某種函數(shù)關(guān)系Xt~O(St)。

在我們的案例中,每個(gè)時(shí)間t上的觀測(cè)為歷史時(shí)間序列上直到t時(shí)刻的所有事件,歷史發(fā)生的事件可以用來構(gòu)建交易所的當(dāng)前狀態(tài)。此外,對(duì)于Agent做出決策,觀測(cè)的內(nèi)容還需要包括當(dāng)前賬戶余額、還未取消的限價(jià)訂單等其他信息。

時(shí)間尺度(Time Scale)

在何種時(shí)間尺度上進(jìn)行決策是很重要的,每天?每小時(shí)?每分鐘?或是毫秒?微秒?納秒?或是某個(gè)變量?不同時(shí)間尺度的處理方式也不相同。有些人買入資產(chǎn)之后持有幾天、幾周甚至幾個(gè)月,這是一個(gè)相對(duì)長(zhǎng)期的決策,例如“比特幣是長(zhǎng)期有價(jià)值的嗎?”,這種決策由外部事件、新聞、或者基本面價(jià)值決定。由于這種分析通常需要了解世界如何運(yùn)行,因此很難通過機(jī)器學(xué)習(xí)模型自動(dòng)化運(yùn)行。另一方面,對(duì)于高頻交易(HighFrequency Trading, HFT)等技術(shù),決策幾乎完全基于市場(chǎng)微觀結(jié)構(gòu)給出的信號(hào),這種時(shí)間尺度可以短至納秒級(jí)別,交易通過專線連接至交易所,算法相對(duì)簡(jiǎn)單,運(yùn)行在FPGA硬件上確保極快的速度。關(guān)于這兩個(gè)極端,可以從“人性”的角度來理解。前者需要一個(gè)宏觀的視角,理解世界運(yùn)轉(zhuǎn)的規(guī)律,人類判斷的直覺,以及一些分析;而后者關(guān)注的是簡(jiǎn)單、極其快速的模式匹配問題。

神經(jīng)網(wǎng)絡(luò)是目前炙手可熱的算法,只要有足夠數(shù)據(jù),它學(xué)習(xí)復(fù)雜模型的效果比比線性回歸或者樸素貝葉斯更好,但它的速度相對(duì)較慢。它無法在納秒級(jí)別上做出決策,很難滿足HFT算法對(duì)于速度的要求。這就是為什么位置應(yīng)該處于兩個(gè)極端之間,在這個(gè)時(shí)間尺度下,可以以超越人類的速度分析數(shù)據(jù),同時(shí)可以擊敗那些快速而又簡(jiǎn)單的算法。這個(gè)時(shí)間尺度大概在幾毫秒到幾分鐘之間,人類交易員可以在這段時(shí)間內(nèi)做出決策,但速度肯定比不上程序;而對(duì)于一些相對(duì)復(fù)雜的模型,計(jì)算機(jī)也有足夠的時(shí)間處理,這是我們的優(yōu)勢(shì)。

在較短的時(shí)間尺度上做決策的另一個(gè)優(yōu)勢(shì)在于,數(shù)據(jù)之間的模式更加明顯。例如,很多人工交易員在交易軟件上關(guān)注完全一樣的技術(shù)指標(biāo)(如MACD),他們的決策依據(jù)僅限于這些指標(biāo)給出的信號(hào),因此只能產(chǎn)生少數(shù)特定的模式。通過深度強(qiáng)化學(xué)習(xí),我們希望從市場(chǎng)微觀結(jié)構(gòu)中挖掘更多的模式。

基于不同的信號(hào),我們還可以在變化的時(shí)間尺度上面進(jìn)行決策,例如我們可以根據(jù)市場(chǎng)的大額交易來采取行動(dòng)。這種基于條件觸發(fā)的Agent也大致對(duì)應(yīng)于某個(gè)時(shí)間尺度,這是由事件觸發(fā)的頻率決定的。

行動(dòng)空間

強(qiáng)化學(xué)習(xí)理論中,離散/有限行動(dòng)空間和連續(xù)/無限行動(dòng)空間是不一樣的,基于Agent的復(fù)雜性程度,行動(dòng)空間可以有不同的選擇,簡(jiǎn)單的方法就是三種行動(dòng):買入、賣出和持有。這是一種可行的方法,但僅限于市價(jià)交易,以及每次投入同等數(shù)量的資金。更復(fù)雜一些的方法是Agent可以學(xué)習(xí)每次應(yīng)該投入多少資金,比如基于模型的不確定性給出這一決策。這種方法已經(jīng)涉及到連續(xù)行動(dòng)空間了,因?yàn)槲覀冃枰獩Q定離散的買賣行為,以及連續(xù)的買賣數(shù)量。更復(fù)雜的方法中,我們可以執(zhí)行限價(jià)訂單,在這種情況下,價(jià)格和數(shù)量都屬于連續(xù)的行動(dòng)空間。同時(shí),還需要考慮到未成交訂單的取消操作。

獎(jiǎng)勵(lì)函數(shù)(Reward Function)

這是一個(gè)很有趣的部分,獎(jiǎng)勵(lì)函數(shù)可以有多種選擇,顯而易見的方式是Realized PnL。每次平倉(cāng)之后,Agent都會(huì)得到一個(gè)獎(jiǎng)勵(lì),數(shù)額由凈利潤(rùn)決定。在Agent化累計(jì)獎(jiǎng)勵(lì)的過程中,它逐漸學(xué)習(xí)到如何交易才能盈利。這個(gè)獎(jiǎng)勵(lì)函數(shù)在理論上是正確的,并且終可以達(dá)到一個(gè)的行動(dòng)策略,但它同時(shí)是稀疏的,因?yàn)樵谒械男袆?dòng)決策中,大多數(shù)時(shí)候是持有,而買入和賣出的次數(shù)是很少的。

另外一種頻率更高的反饋是Unrealized PnL,這是假設(shè)立刻平倉(cāng)的情況下,Agent所能得到的凈利潤(rùn)。例如,在買入之后價(jià)格下跌,那么將得到一個(gè)負(fù)獎(jiǎng)勵(lì),即使沒有賣出平倉(cāng)。由于Unrealized PnL在每個(gè)時(shí)間t都發(fā)生改變,Agent可以更頻繁地獲取到反饋信號(hào)。但是,當(dāng)和衰減因子共同作用時(shí),直接的反饋可能使Agent的短期行動(dòng)發(fā)生偏差。

以上兩種獎(jiǎng)勵(lì)函數(shù)都是簡(jiǎn)單地對(duì)凈利潤(rùn)進(jìn)行優(yōu)化,而實(shí)際情況中交易員還希望能小化風(fēng)險(xiǎn),優(yōu)化的目標(biāo)應(yīng)該綜合考慮收益和風(fēng)險(xiǎn)。夏普比例就是一種常用的風(fēng)險(xiǎn)調(diào)整收益指標(biāo),除此之外,我們還可以考慮使用回撤、收益風(fēng)險(xiǎn)比等許多指標(biāo),目的都是在收益和風(fēng)險(xiǎn)中取得一個(gè)平衡。
通過上面的這些是不是覺得aqf中的量化交易還是很不好學(xué)的?其實(shí)在學(xué)習(xí)還是要掌握一些基本的量化知識(shí),》》》點(diǎn)擊學(xué)習(xí)量化交易策略之策略大講堂課程集錦

吐槽

對(duì)不起!讓你吐槽了

/500

上傳圖片

    可上傳3張圖片

    2001-2025 上海金程教育科技有限公司 All Rights Reserved. 信息系統(tǒng)安全等級(jí):三級(jí)
    中央網(wǎng)信辦舉報(bào)中心 上海市互聯(lián)網(wǎng)舉報(bào)中心 不良信息舉報(bào)郵箱:law@gfedu.net
    滬ICP備14042082號(hào) 滬B2-20240743 通過ISO9001:2015 國(guó)際質(zhì)量管理體系認(rèn)證 滬公網(wǎng)安備31010902103762號(hào) 出版物經(jīng)營(yíng)許可證 電子營(yíng)業(yè)執(zhí)照

    掃描二維碼登錄金程網(wǎng)校

    請(qǐng)使用新版 金程網(wǎng)校APP 掃碼完成登錄

    登錄即同意金程網(wǎng)校協(xié)議及《隱私政策》