摘要
在回測中牢記并遵守這些準(zhǔn)則可以有效降低過擬合的風(fēng)險(xiǎn)、避開噪音、找到真正在樣本外可持續(xù)的因果關(guān)系,獲取更高的收益。
引言
讓我們從下圖這個(gè)令人欣喜的回測(backtesting)說起。
.jpg)
上圖是某針對美股的選股策略在長達(dá) 50 年的回測內(nèi)的凈值曲線。該策略采用多空對沖、市值中性的方法構(gòu)建。該策略表現(xiàn)出了五大優(yōu)秀量化策略的必要不充分(呵呵)特征:
1. 因子計(jì)算的方法在回測期內(nèi)完全一致,沒有任何變化;
2. 該策略的表現(xiàn)在近期并沒有變差的跡象,說明在該因子上并沒有發(fā)生“擁擠”;
3. 該因子穿越牛熊,在金融危機(jī)時(shí)代甚至出現(xiàn)了上漲(在可以做空的假設(shè)下);
4. 該因子和其他主流因子(包括市場、Size、Value、Momentum 等)的相關(guān)度極低;
5. 該因子的年換手率僅為 10%,交易成本可以忽略不計(jì)。
Too good to be true?
沒錯(cuò),它正是 data mining 的產(chǎn)物。該因子的構(gòu)建完全沒有使用任何基本面或者交易數(shù)據(jù),而僅僅依賴美股上市公司股票代碼上的字母。比如蘋果公司的股票代碼是 AAPL,該代碼上的第 1 至 4 位上的字母分別為 A、A、P 以及 L。該因子的構(gòu)建方法是做多股票代碼第三位字母為 S 的股票、做空股票代碼第三位字母為 U 的股票(記為 S(3) – U(3))。
在實(shí)驗(yàn)中,考慮股票代碼的前 3 位字母;考慮到全部可能的 26 個(gè)字母,以及每個(gè)字母可以出現(xiàn)在多、空兩頭,因此實(shí)驗(yàn)中有成千上萬種組合方式。而 S(3) – U(3) 這種組合正是從這些組合中脫穎而出的、具備了上述五大優(yōu)秀特征的、僅僅來自 data mining 的虛假策略。
上面這個(gè)策略是靠蠻力(brute force)找到的,并不能說是機(jī)器學(xué)習(xí)(Machine Learning)的產(chǎn)物。機(jī)器學(xué)習(xí)會(huì)進(jìn)行仔細(xì)的交叉驗(yàn)證(cross-validation)以確保我們在訓(xùn)練集和測試集上看到相似的結(jié)果。不幸的是,上述策略在整個(gè)回測期內(nèi)的穩(wěn)定表現(xiàn)大概率會(huì)讓它通過交叉驗(yàn)證。這背后的原因是股票市場的數(shù)據(jù)容易出現(xiàn)路徑依賴,造成訓(xùn)練集和測試集之間并不獨(dú)立。
這個(gè)例子說明,量化投資的小伙伴在回測基于機(jī)器學(xué)習(xí)的策略時(shí)將面臨很大的挑戰(zhàn)。回測的目的是去偽存真,排除噪音、發(fā)現(xiàn)預(yù)測指標(biāo)和資產(chǎn)收益率之間真正的因果關(guān)系,從而在樣本外的實(shí)盤交易中獲得收益。如果回測不靠譜、落入各種陷阱,那么實(shí)盤的結(jié)果則可想而知。這個(gè)問題在機(jī)器學(xué)習(xí)如此普及的今天顯得更加嚴(yán)重。
為了幫助量化交易者更好的杜絕樣本內(nèi)的過擬合,提高發(fā)現(xiàn)真正有效策略的概率,三位大咖站了出來:來自 Research Affiliates 的 Robert Arnott,杜克大學(xué)教授、前 AFA 主席 Campbell Harvey,以及諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者 Harry Markowitz 在 IPR Journals 的最新成員 Journal of Financial Data Science 的處女刊上發(fā)表了一篇題為 A Backtesting Protocol in the Era of Machine Learning 的文章(Arnott, Harvey, and Markowitz 2019)。
本文中我用“規(guī)程”來對應(yīng) Protocol 一詞,它也可以被譯作“協(xié)議”或者“清單”,其目的就是通過逐步遵循這些準(zhǔn)則來減少樣本內(nèi)過擬合的可能性。這個(gè) protocol 之于回測可靠性的作用就好比飛行員的 checklist 之于飛行安全的作用。Arnott, Harvey, and Markowitz (2019) 一文提出的 protocol 一共包括七部分,它們是:
1. 研究動(dòng)機(jī);
2. 多重檢驗(yàn);
3. 樣本選擇和數(shù)據(jù);
4. 交叉驗(yàn)證;
5. 模型動(dòng)力學(xué);
6. 模型復(fù)雜度;
7. 研究文化。
它們構(gòu)成了一個(gè)完整且可操作的體系,能夠幫助我們更好的規(guī)避樣本內(nèi)的虛假信號(hào)、找出能在樣本外更有效的交易策略。
以下行文并不會(huì)逐字逐句的轉(zhuǎn)述 Arnott, Harvey, and Markowitz (2019) 提出的每一個(gè) bullet point,而是會(huì)結(jié)合我有限的經(jīng)驗(yàn)和粗淺的認(rèn)識(shí)解讀我認(rèn)為最重要的一些內(nèi)容。瀏覽本文并不能 100% 代替閱讀原作,因此強(qiáng)烈建議感興趣的小伙伴找來 Arnott, Harvey, and Markowitz (2019) 看一看。
下文第 1 到第 7 節(jié)將分別論述這個(gè) protocol 的七個(gè)方面。第 8 節(jié)總結(jié)全文。
1、研究動(dòng)機(jī)
回測規(guī)程的第一個(gè)方面是研究動(dòng)機(jī)(Research Motivation)。
Harvey 教授直言,金融領(lǐng)域的數(shù)據(jù)樣本太少了(也許超高頻除外)。以美股為例,現(xiàn)代金融時(shí)代的股票月頻數(shù)據(jù)大概只有 700 期(相當(dāng)于 60 年),這對于機(jī)器學(xué)習(xí)應(yīng)用來說太少了(回想一下 A 股,通常單因子評測的回測期只有區(qū)區(qū) 10 年,真是太短了)。因此,這個(gè) protocol 中第一也是最重要的一點(diǎn)就是 a clear economic foundation for any model —— 任何策略都應(yīng)該有一個(gè)理論先驗(yàn)。注意,是先驗(yàn),而不是看到數(shù)之后再“真香”編故事。
.jpg)
Chordia, Goyal, and Saretto (2017) 使用基本面指標(biāo)的不同組合方法構(gòu)建了兩百萬個(gè)針對美股的因子策略。在實(shí)驗(yàn)設(shè)計(jì)中,他們對 data mining 進(jìn)行了必要的懲罰,并最終找到 17 個(gè)在統(tǒng)計(jì)上和經(jīng)濟(jì)上都顯著的因子。
其中一個(gè)因子的構(gòu)建方法為:分子是 long-term debt issuance 和 preferred stock redeemable 之差;分母是 minimum rental commitments four years into the future。這個(gè)因子使用了三個(gè)財(cái)務(wù)指標(biāo),但是該組合卻毫無業(yè)務(wù)含義。而上述其他 16 個(gè)“顯著”的因子都具有類似的結(jié)構(gòu),它們都是 data mining 的結(jié)果。
在現(xiàn)實(shí)中,人們往往站在“任何策略都應(yīng)該有一個(gè)理論先驗(yàn)”的對立面上,即先看數(shù)據(jù)再找理由。比如對于前面那個(gè) S(3) – U(3) 的例子。它的那些優(yōu)秀特征會(huì)讓人去尋找虛假的理論依據(jù)來說服自己。當(dāng)一個(gè)人能夠?yàn)?S(3) – U(3) 找到理由,那么如果回測的結(jié)果顯示相反的結(jié)果,即 U(3) – S(3),相信 TA 也能夠找到理由。
“Any suspicion that the hypothesis was developedafter looking at the data is an obvious red flag.”
2、多重檢驗(yàn)
Protocol 的第二方面是當(dāng)心多重檢驗(yàn)(Multiple Testing and Statistical Methods)。多重檢驗(yàn)指的是:當(dāng)我們測試一個(gè)策略的許多組參數(shù),或者很多選個(gè)因子時(shí),僅僅依靠運(yùn)氣,這些參數(shù)或者因子中效果較好的那個(gè)就能在樣本內(nèi)獲得很高的夏普率(這也被稱作 inflated Sharpe Ratio)。在回測時(shí)必須時(shí)刻考慮多重檢驗(yàn)的影響。
用白話的理解就是:如果我以某個(gè)金融學(xué)或經(jīng)濟(jì)學(xué)原理為先驗(yàn),構(gòu)建了一個(gè)因子并測試有效,那么它大概是真有效;然而,如果我兩眼一抹黑試了 100 個(gè)因子,然后只挑出了較好的那一個(gè),那么這個(gè)因子很可能只是個(gè) lucky factor。
Bailey and Lopez de Prado (2012, 2014) 專門就 inflated Sharpe Ratio 進(jìn)行了探討。他們假設(shè)不同參數(shù)的策略的夏普率滿足均值為 E[SR]、方差為 V(SR) 的正態(tài)分布。在上述假設(shè)下,N 組不同參數(shù)中樣本內(nèi)最大的夏普率的期望滿足(式中 γ 是歐拉-馬斯刻若尼常數(shù)):
.jpg)
該關(guān)系式表明,樣本內(nèi)的最大夏普率隨 N 增大和 V(SR) 增大。假設(shè) V(SR) = 1,則我們只需要測試 100 組設(shè)定,樣本內(nèi)的虛高夏普率就高達(dá) 2.5,盡管它對應(yīng)的 null hypothesis 是該策略真實(shí)夏普率為 0。這就是不考慮多重檢驗(yàn)的危害。
我們根據(jù) Novy-Marx (2015) 的方法、使用中證 500 的成分股做了隨機(jī)因子的實(shí)證。在實(shí)證中,純隨機(jī)的產(chǎn)生對收益率毫無預(yù)測性的 n 個(gè)因子,然后根據(jù)它們的表現(xiàn)選出其中較好的 k 個(gè),再把和 k 個(gè)因子配置在一起,考察它們在樣本內(nèi)上述 k 個(gè)因子構(gòu)成的投資組合收益率的 t-statistic 到底能有多高(由于這些隨機(jī)因子毫無預(yù)測性,因此 null hypothesis 是它們的預(yù)期收益率為零;評價(jià)標(biāo)準(zhǔn)為投資組合收益率 t-statistic 經(jīng)驗(yàn)分布的 95% 分位數(shù)閾值)。
下圖給出了實(shí)證結(jié)果。從中不難觀察到以下三點(diǎn):(1)隨著 n 和 k 的增加,對于按照隨機(jī)因子 t-statistic 絕對值賦權(quán)配置的策略,它們的 t-statistic 閾值遞增;(2)隨著 n 的增加,等權(quán)配置和按因子樣本內(nèi)表現(xiàn)配置的效果越來越接近;(3)對于等權(quán)配置因子的情況,能夠觀察到策略的效果并不隨 k 遞增;這是因?yàn)楫?dāng) k 逐漸增大時(shí),使用更多的因子可以降低組合的波動(dòng)率、提升 t-statistic 的閾值;一旦 k 超過較優(yōu)值,越來越多排名靠后的因子被選入,降低組合的收益率以及 t-statistic 閾值。
.jpg)
為了在實(shí)證研究中發(fā)現(xiàn)樣本內(nèi)更好的策略或者更顯著的因子 —— 無論是為了討好基金經(jīng)理還是為了在頂刊上發(fā)文 —— multiple testing 的不正之風(fēng)早已席卷了學(xué)術(shù)界和業(yè)界。
Harvey, Liu, and Zhu (2016) 研究了學(xué)術(shù)界發(fā)表的 316 個(gè)選股因子。他們通過考慮不同因子之間相關(guān)性提出了一個(gè)全新檢驗(yàn)框架。該方法可以排除 multiple testing 的影響。該研究表明,只有在 single testing 中 t-statistic 超過 3.0(而非人們傳統(tǒng)認(rèn)為的 5% 的顯著性水平對應(yīng)的 2.0)的因子才有可能在排除了 multiple testing 的影響之后,而非來自運(yùn)氣。不過,Harvey 同時(shí)也指出,3.0 其實(shí)都是非常保守的。
我們自己在回測時(shí)應(yīng)時(shí)刻謹(jǐn)記 multiple testing 的影響;此外,在學(xué)習(xí)別人的發(fā)現(xiàn)時(shí)也要保持著一顆懷疑之心,因?yàn)闆]有多少人告訴我們,在 TA 提出的這個(gè)樣本內(nèi)顯著因子之前有過多少次失敗的嘗試。
3、樣本選擇和數(shù)據(jù)
Protocol 的第三部分是樣本選擇和數(shù)據(jù)(Sample Choice and Data)。它的核心要素包括:(1)回測前就要確定回測區(qū)間,而非事后調(diào)整;(2)確保數(shù)據(jù)質(zhì)量;(3)小心處理異常值(outliers) —— 不要凡事都想當(dāng)然;(4)認(rèn)真記錄進(jìn)行的數(shù)據(jù)變形處理。
所有的這些努力其實(shí)都是為了避免 p-hacking。
Harvey 教授在介紹 Arnott, Harvey, and Markowitz (2019) 這篇文章的短片中講了一個(gè)故事。一個(gè)量化研究員給他展示了一個(gè)股票策略,該策略在回測期內(nèi)的表現(xiàn)非常好;只不過該回測有一個(gè)致命的問題:它的回測窗口不包含 2008 年的金融危機(jī)。當(dāng) Harvey 教授問他為什么排除這段時(shí)期,得到了令人無語的答復(fù):“因?yàn)椴呗栽谶@段時(shí)間內(nèi)失效了”。
Excuse Me???

這就是先看結(jié)果再調(diào)整回測區(qū)間,妥妥的 p-hacking 反例。法國哲學(xué)家孔德將科學(xué)分成不同的等級(jí)(Comte 1856)。像數(shù)學(xué)、物理這類“硬科學(xué)”位于等級(jí)的上方,而社會(huì)學(xué)、經(jīng)濟(jì)學(xué)這些“軟科學(xué)”位于等級(jí)的下方。“硬”和“軟”本身并無“好”與“壞”之分。
硬科學(xué)可以從數(shù)據(jù)可以直接得到結(jié)論、無需任何人工解釋,且結(jié)論是高度可歸納的。比如數(shù)學(xué)上的四色問題,一旦證明成立那就是成立;又如物理上的引力波,一旦發(fā)現(xiàn)那就是說明它的存在,這些都是確切的。反觀軟科學(xué),研究成果依賴于提出怎樣的假設(shè),如何處理數(shù)據(jù),以及如何分析、解釋結(jié)果,總之“事在人為”。金融學(xué)是軟科學(xué),很多實(shí)證分析結(jié)果都會(huì)因人而異。
比如在股票研究中“使用過去 50 年的數(shù)據(jù)還是過去 30 年的數(shù)據(jù)?”“使用美股還是其他國家的股票?”“使用日收益率還是周收益率?”“使用百分比收益率還是對數(shù)收益率?”“是否以及如何剔除異常值?”“使用 OLS 還是 GLS?”……這些看似自然的選擇背后其實(shí)都以追求樣本內(nèi)更顯著的 p-value 為動(dòng)機(jī),一切阻礙獲得超低 p-value 的數(shù)據(jù)都會(huì)被巧妙的避開。這種為了獲得超低 p-value 而在研究中刻意選取的數(shù)據(jù)處理方法就是 p-hacking。人們對于 p-hacking 的狂熱源于對 p-value 的錯(cuò)誤解讀。
在統(tǒng)計(jì)學(xué)中,如果 H0 和 H1 分別表示 null hypothesis 和 alternative hypothesis,則 p-value = prob(D|H0),即在 H0 成立下觀測到數(shù)據(jù) D 的概率。從該定義出發(fā),p-value 不代表原假設(shè)或者備擇假設(shè)是否為真實(shí)的,即 p-value ≠ prob(H0|D)以及 p-value ≠ prob(H1|D)。

在檢驗(yàn)一個(gè)策略或者因子是否有顯著收益時(shí),我們需要的是 prob(H0|D),即在觀察到 D 的條件下,原假設(shè)為真的概率是多少。這個(gè)問題僅依靠 p-value 自身無法回答的。為此,Harvey (2017) 提出了一個(gè)基于貝葉斯的框架,它可以正確求解我們關(guān)注的問題。
4、交叉驗(yàn)證
回測規(guī)程的第四部分是交叉驗(yàn)證(Cross-Validation),這部分包括以下兩個(gè)要素:
1. Out of Sample is Not Really Out of Sample;
2. Iterated Out of Sample is Not Out of Sample。
這一條想要強(qiáng)調(diào)的是:由于歷史數(shù)據(jù)都是已經(jīng)發(fā)生過的,它們都是樣本內(nèi)數(shù)據(jù),因此必須小心解讀交叉驗(yàn)證的結(jié)果,即便通過了交叉驗(yàn)證,也不能無腦的相信完全排除了過擬合的問題。
關(guān)于更合理的使用交叉驗(yàn)證,Bailey et al. (2017) 的研究成果值得借鑒。他們提出了一個(gè) Combinatorially-Symmetric Cross-Validation(組合對稱交叉驗(yàn)證,簡稱 CSCV)方法,它可以定量的計(jì)算樣本內(nèi)過擬合的概率。它的優(yōu)勢在于:
1. 保證了訓(xùn)練集和測試集同樣大小,使得樣本內(nèi)外的夏普率具有可比性;
2. 保證了訓(xùn)練集和測試集的數(shù)據(jù)是對稱的,因此夏普率在樣本外的降低只可能來自過擬合;
3. 保留了收益率序列的時(shí)序相關(guān)性;
4. 利用 Bootstrap 理念求解過擬合的概率,不需要對過擬合的隨機(jī)模型或者參數(shù)做任何假設(shè)。
舉個(gè)例子。按照 CSCV 方法,下圖描述了某趨勢追蹤策略在不同參數(shù)下,其樣本內(nèi)夏普率(SR_IS)和同參數(shù)在樣本外夏普率(SR_OOS)的負(fù)相關(guān)關(guān)系,意味著驗(yàn)本內(nèi)效果越好對應(yīng)著樣本外表現(xiàn)越差。該策略的樣本內(nèi)過擬合概率高達(dá) 0.572。一個(gè)真正有效的策略在樣本內(nèi)的過擬合概率不應(yīng)如此之高。

無論從獨(dú)立性還是可交易特征而言,交易數(shù)據(jù)其實(shí)都十分匱乏。它們對傳統(tǒng)的交叉驗(yàn)證造成了極大的挑戰(zhàn),在使用機(jī)器學(xué)習(xí)時(shí)應(yīng)牢記這一點(diǎn),理性看待交叉驗(yàn)證結(jié)果。
5、模型動(dòng)力學(xué)
模型動(dòng)力學(xué)(Model Dynamics)是回測規(guī)程的第五部分,它關(guān)注的是量化策略在樣本外的表現(xiàn)逐漸變差的問題。而這背后可能存在兩個(gè)原因:(1)市場結(jié)構(gòu)發(fā)生變化導(dǎo)致策略失效,比如越來越多的人開始使用某個(gè)策略或者因子,使得它變得擁擠。(2)策略使用者自身的行為偏差導(dǎo)致一個(gè)好模型最終淪為一個(gè)失效模型。
我在之前的文章中多次表達(dá)過一個(gè)觀點(diǎn):任何策略能賺錢都是利用了市場的某種非有效性;一旦使用該策略的人越來越多,市場在這方面就變得更加有效,從而削弱策略的盈利能力。
在技術(shù)分析領(lǐng)域,上述觀點(diǎn)的較好例證之一是布林帶(Bollinger bands)。毫無疑問,布林帶是幾十年前最盛行、最管用的技術(shù)分析策略之一。然而,人們越來越發(fā)現(xiàn)該方法掙錢的能力越來越差。對此,F(xiàn)ang, Jacobsen, and Qin (2017) 針對全球十幾個(gè)主要市場進(jìn)行了實(shí)證分析。
他們的研究發(fā)現(xiàn),1983 和 2001 這兩個(gè)重要時(shí)間節(jié)點(diǎn)對于布林帶的效果影響巨大。1983 年,John Bollinger首次在電視廣播中介紹了布林帶,使得這個(gè)之前神秘的方法開始走進(jìn)大眾視野。而 2001 年,John Bollinger 更是發(fā)表了Bollinger on Bollinger Bands 這本紅極一時(shí)的技術(shù)流圣經(jīng);在隨后的 4 年內(nèi),這本書被翻譯成其他 12 種語言在全世界范圍內(nèi)迅速傳播,這使得布林帶一下變得家喻戶曉。Fang, Jacobsen, and Qin (2017) 發(fā)現(xiàn),布林帶的流行和普及(特別是 2001 年之后)直接造成了該策略的失效。
這樣的例子在股票因子投資中也不勝枚舉。一個(gè)新因子被提出后,隨著越來越多人使用,它在 post-publication 樣本外的效果勢必會(huì)打折扣。McLean and Pontiff (2016) 研究了 97 個(gè)因子在被發(fā)表之后的表現(xiàn),發(fā)現(xiàn)因子的收益率比論文中的 in-sample 降低 50% 以上。有時(shí),策略并沒有變得擁擠,但它在樣本外還是持續(xù)變差。這背后的另一個(gè)原因是使用者的非理性行為偏差。
任何一個(gè)策略或者交易系統(tǒng),都是基于對市場的某個(gè)假設(shè)。然而市場充滿著不確定性,因此它必然會(huì)在一些時(shí)候背離這個(gè)假設(shè),這時(shí)該交易系統(tǒng)就會(huì)出現(xiàn)虧損。一個(gè)優(yōu)秀的交易系統(tǒng)是一個(gè)長期來看能夠盈利的系統(tǒng),而非一個(gè)能夠每筆交易都賺錢的系統(tǒng)。
隨著交易的進(jìn)行,由于小數(shù)定律造成的偏誤,很多人在幾次虧損后就開始“懷疑人生”了,認(rèn)為“this time is different”、開始要對策略動(dòng)刀子。這種想法非常危險(xiǎn)。如果你真的這么做的了,為了每一筆的虧損都對你的系統(tǒng)進(jìn)行了修補(bǔ),便走上了“處處精準(zhǔn)過擬合”的快車道,策略最終將會(huì)對市場未來的變化無能為力。
“Most traders take a good system and destroy it by trying to make it into a perfect system. –– Robert Prechter”
改造一個(gè)長期來看可以賺錢的優(yōu)秀系統(tǒng)必須要非常小心。對哪怕是一個(gè)參數(shù)的哪怕是一丁點(diǎn)的調(diào)節(jié)都會(huì)改變該系統(tǒng)的效果。這么做是以改動(dòng)后的系統(tǒng)對最新的交易數(shù)據(jù)表現(xiàn)更佳為前提;但是如果不能證明它在未來的樣本外更有效,那么如此“改進(jìn)”仍然是徒勞的。
量化投資背后的核心是單次優(yōu)勢 + 大數(shù)定律。這二者中大數(shù)定律又更加重要,它要求我們在交易中盡一切努力做到一致性。一般交易者的學(xué)習(xí)曲線如下面圖中的黑色曲線:無法做到嚴(yán)格遵循一個(gè)交易系統(tǒng),總是帶著個(gè)人情感進(jìn)行交易,將自己行為帶來的不確定性錯(cuò)誤地強(qiáng)加于系統(tǒng)的表現(xiàn)之上。這些交易者無法持之以恒,三天兩頭更換系統(tǒng),最終輸光本金。與之相反的,一個(gè)優(yōu)秀的交易者會(huì)專注于一致性,這會(huì)讓他在通往盈利的進(jìn)程中越走越遠(yuǎn),最終到達(dá)勝利的彼岸。

6、模型復(fù)雜度
回測規(guī)程的第六部分是模型復(fù)雜度(Model Complexity),主張我們應(yīng)該追求策略的而簡單性和可解釋性。
我們大概都有下面這樣的經(jīng)驗(yàn):一個(gè)策略的夏普率不夠亮眼,那么可以通過加入止盈、止損,中性化處理、甚至是對投資標(biāo)的進(jìn)行篩選來進(jìn)一步提高其在樣本內(nèi)的表現(xiàn)。此外,對上面的每一個(gè)處理方法,我們似乎都能找到合理的解釋和來自其他文獻(xiàn)的理論和實(shí)證支持。在確認(rèn)偏誤下,我們非常愿意相信這些處理都是合理的、并沒有引入過擬合。
任何通過增加參數(shù)維度來提高樣本內(nèi)的表現(xiàn) —— 無論這些理由聽上去多么合理 —— 都實(shí)打?qū)嵉奶岣吡四P偷膹?fù)雜度;更高的模型復(fù)雜度則更容易出現(xiàn)過擬合。該文提出了如下圖所示的流程來定量計(jì)算模型復(fù)雜度造成的過擬合程度。

考慮一個(gè)基于均線多頭排序的簡單多頭趨勢追蹤策略。模型復(fù)雜度的兩個(gè)維度是:(1)均線多頭排序中用到的不同周期均線的個(gè)數(shù);(2)這些均線秩相關(guān)系數(shù)的閾值(用來決定是否開倉、空倉)。使用純隨機(jī)游走產(chǎn)生的假想資產(chǎn)價(jià)格曲線,按不同復(fù)雜度構(gòu)建趨勢追蹤策略。模型的過擬合度和復(fù)雜度之間的關(guān)系如下圖所示,說明模型過擬合度隨模型復(fù)雜度遞增。

在第六方面,Arnott, Harvey, and Markowitz (2019) 倡導(dǎo)的第二點(diǎn)是追求可解釋的機(jī)器學(xué)習(xí)(seek interpretable machine learning)。量化策略,尤其是使用了機(jī)器學(xué)習(xí)算法的量化策略不應(yīng)該是黑箱。任何使用者都應(yīng)該了解這個(gè)算法到底干了什么。最近幾年,計(jì)算機(jī)領(lǐng)域的一個(gè)細(xì)分學(xué)科逐漸受到世人關(guān)注,它研究的對象是 interpretable classification 和 interpretable policy design(一個(gè)例子見 Wang et al. 2017)。相信在未來,可解釋的機(jī)器學(xué)習(xí)在金融領(lǐng)域能夠大有可為。
關(guān)于模型復(fù)雜度,我想補(bǔ)充一點(diǎn) Arnott, Harvey, and Markowitz (2019) 沒有的內(nèi)容,同樣來自《模型復(fù)雜度隨想》,那就是相較于簡單的模型,復(fù)雜度更高的模型可能會(huì)在虧損時(shí)給人更痛苦的主觀感受。在這方面,我做了一些探索性的研究,指出了模型復(fù)雜度和實(shí)盤痛苦程度之間的非線性關(guān)系:
1. 當(dāng)模型復(fù)雜度逐漸提升時(shí),由于它更好的捕捉了收益率和信號(hào)之間的(非線性)關(guān)系,這是能帶來樣本外效果的提升的,減少虧損的痛苦;
2. 當(dāng)模型過于復(fù)雜時(shí),由于樣本內(nèi)過擬合可能性上升;模型復(fù)雜度會(huì)非線性的放大同等程度虧損(比如最大回撤)給人們造成的痛苦。
根據(jù)以上描述,模型復(fù)雜度和實(shí)盤的痛苦程度大概如下圖所示

在當(dāng)下,我們越來越崇尚各種復(fù)雜的模型。以上探索僅僅希望提出一些思考:我們在樣本外是否 100% 做好了準(zhǔn)備接受復(fù)雜模型?交易中存在各種認(rèn)知偏差,如果我們連最簡單的按一根均線做趨勢追蹤都無法堅(jiān)決的執(zhí)行,那又有什么來保證我們在面對實(shí)盤虧損時(shí)能夠堅(jiān)守復(fù)雜模型呢?如果我們不能堅(jiān)守復(fù)雜模型,那么開發(fā)復(fù)雜模型所付出的心血和努力是否付之東流呢?
7、研究文化
回測規(guī)程的最后一部分是研究文化(Research Culture),它包括以下兩點(diǎn):
1. Establish a research culture that rewards quality;
2. Be careful with delegated research.
上面第一條說的是,在開發(fā)量化策略或者因子時(shí),比起追求樣本內(nèi)的驚艷效果,我們更應(yīng)該看中研究的質(zhì)量,例如研究是否避免了各種偏差、盡最大努力的排除了過擬合、是否存在先驗(yàn)理論、是否足夠獨(dú)立等。一個(gè)因子或指標(biāo),無論有用沒有,只要能夠被復(fù)現(xiàn),都是有益的發(fā)現(xiàn),都為幫助我們更好的理解市場起到了巨大貢獻(xiàn)。
在學(xué)術(shù)界,為了提升期刊的聲望,編輯們都更傾向于錄用低 p-value 的文章;為了在更高水平的期刊上發(fā)文,學(xué)者們更傾向于找到低 p-value 的因子。在美國絕大多數(shù)學(xué)校里,如果能在 Journal of Finance 發(fā)表一篇文章,一個(gè)教授就有可能得到終身教職。這一環(huán)扣一環(huán)的錯(cuò)誤關(guān)系導(dǎo)致了嚴(yán)重的 publication bias,我們被大量依靠樣本內(nèi) data mining 和 p-hacking 獲得的虛假因子蒙蔽了雙眼,而高研究質(zhì)量卻低顯著性的因子在頂級(jí)期刊上則難有容身之處。
這部分的第二條說的是,很多時(shí)候由于基金經(jīng)理的精力有限,無法親力親為研究每個(gè)策略。因此會(huì)把研究分發(fā)給不同的研究員。研究員應(yīng)該保持獨(dú)立性、進(jìn)行高質(zhì)量的研究,而不是通過尋找虛假的顯著性來取悅基金經(jīng)理。任何策略都最終會(huì)失效,而客觀、嚴(yán)謹(jǐn)?shù)难芯课幕攀悄軌蛟催h(yuǎn)流長的,才是我們應(yīng)該努力追尋的。
在美國,要論業(yè)界的“學(xué)術(shù)天團(tuán)”,一般人大概首先會(huì)想到 AQR。然而,還有個(gè)更老牌、更大牌的管理人,它就是 Dimensional Fund Advisors L.P.,它的 Directors 中不乏 Eugene Fama、Ken French、Myron Scholes 這些赫赫有名的學(xué)者。在 Dimensional 的官網(wǎng)上記錄著 Ken French 下面這句話,一語道破了研究文化的真諦 —— 任何時(shí)候我們都要努力探尋真諦、做對的事情。

8、結(jié)語
好了,上面七小節(jié)介紹了回測規(guī)程中的七方面內(nèi)容。接下來我們可以“召喚神龍”了。下圖給出了 Arnott, Harvey, and Markowitz (2019) 自己總結(jié)的七方面,每一個(gè) bullet point 都值得好好體會(huì)。

最后想強(qiáng)調(diào)的是,Arnott, Harvey, and Markowitz (2019) 并不是為了否定機(jī)器學(xué)習(xí)在投資中越來越重要的作用。恰恰相反的是,他們提出這個(gè)框架就是為了讓我們更好的享受機(jī)器學(xué)習(xí)的成果。
對投資來說,我們最關(guān)心的是 prediction 是否準(zhǔn)確,而非參數(shù)的 adjudication。它的意思是只要能提高樣本外的預(yù)測性,我們可以犧牲參數(shù)估計(jì)的準(zhǔn)確性。公允的說,從探尋市場真諦的角度來說,我們當(dāng)然關(guān)心 β 的估計(jì)是否準(zhǔn)確;然而,從投資實(shí)際效果的角度來看,我們更應(yīng)關(guān)注樣本外 y 預(yù)測值是否靠譜。
預(yù)測的目標(biāo)是最小化 loss function;而傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)中 estimation 的目標(biāo)是參數(shù)的 unbiasedness。參數(shù)估計(jì)準(zhǔn)了不一定意味著樣本外的預(yù)測性一定更好。關(guān)于這方面的論述,我推薦各位看看 Sendhil Mullainathan 教授在 AFA Lecture 上做的 Machine Learning and Prediction in Economics and Finance 主題演講。

客觀的說,由于金融數(shù)據(jù)的一些特殊性(非結(jié)構(gòu)化、高維度、稀疏、信噪比低等),傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)在很多時(shí)候確實(shí)難有作為,而機(jī)器學(xué)習(xí)算法則更有前景。關(guān)于這點(diǎn),Lopez de Prado 做過一篇題為 《The 7 Reasons Most Econometric Investments Fail》的報(bào)告。當(dāng)然,這并不意味著我們就應(yīng)該輕易摒棄計(jì)量經(jīng)濟(jì)學(xué)模型、毫無顧忌的投身到機(jī)器學(xué)習(xí)的懷抱。
“It is naïve to think we no longer need economic models in the era of machine learning. Given that the quantity and quality of data is relatively limited in finance, machine learning applications face many of the same issues quantitative finance researchers have struggled with for decades.”
本文介紹的回測規(guī)程乍一看完雖然沒有太多驚艷之處,但它卻能產(chǎn)生非常積極的效果。正如飛機(jī)駕駛艙里面的 checklist 能極大的提升飛行安全一樣,在回測中牢記并遵守這些準(zhǔn)則可以有效降低過擬合的風(fēng)險(xiǎn)、避開噪音、找到真正在樣本外可持續(xù)的因果關(guān)系,獲取更高的收益。
(點(diǎn)擊上圖了解課程詳情)
參考文獻(xiàn)
Arnott, R., C. R. Harvey, and H. Markowitz (2019). A backtesting protocol in the era of machine learning. Journal of Financial Data Science, Vol. 1(1), 64 – 74.
Bailey, D. H. and M. Lopez de Prado (2012). The Sharpe ratio efficient frontier. Journal of Risk, Vol. 15(2), 3 – 44.
Bailey, D. H. and M. Lopez de Prado (2014). The deflated Sharpe ratio: correcting for selection bias, backtest overfitting, and non-Normality. The Journal of Portfolio Management, Vol. 40(5), 94 – 107.
Bailey, D. H., J. M. Borwein, M. Lopez de Prado, and Q. J. Zhu (2017). The probability of backtest overfitting. Journal of Computational Finance, Vol. 20(4), 39 – 69.
Chordia, T., A. Goyal, and A. Saretto (2017). p-Hacking: evidence from two million trading strategies. Swiss Finance Institute Research Paper No. 17-37, SSRN.
Comte (1856). The Positive Philosophy of Auguste Comte, translated by Harriett Marineau (Calvin Blanchard, New York). Vol. II.
Fang, J., B. Jacobsen, and Y. Qin (2017). Popularity versus profitability: evidence from Bollinger bands. The Journal of Portfolio Management, Vol. 43(4), 152 – 159.
Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. The Journal of Finance, Vol. 72(4), 1399 – 1440.
Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies, Vol. 29(1), 5 – 68.
Lopez de Prado, M. (2018). Advances in financial machine learning. Hoboken, NJ: John Wiley & Sons.
McLean, R.D. and J. Pontiff (2016). Does academic research destroy stock return predictability? The Journal of Finance, Vol. 71(1), 5 – 32.
Novy-Marx, R. (2015). Backtesting strategies based on multiple signals. NBER Working Paper, No. 21329.
Wang, T., C. Rudin, F. Doshi-Velez, Y. Liu, E. Klampfl, and P. MacNeille (2017). A Bayesian framework for learning rule sets for interpretable classification. Journal of Machine Learning Research, Vol. 18, 1 – 37.
金程推薦: AQF是什么意思 量化金融分析師年薪 AQF考試流程
全國熱線電話:400-700-9596
金融寬客交流群:801860357
AQF考友群:760229148
微信公眾號(hào):量化金融分析師
作者:石川,北京量信投資管理有限公司創(chuàng)始合伙人,清華大學(xué)學(xué)士、碩士,麻省理工學(xué)院博士。知乎專欄:https://zhuanlan.zhihu.com/mitcshi。未經(jīng)授權(quán),嚴(yán)禁轉(zhuǎn)載。





