亚洲黄色不卡网絡,黄色高清电影一二三四区,一道本不卡高清无码

摘要

　　在回測(cè)中牢記并遵守這些準(zhǔn)則可以有效降低過(guò)擬合的風(fēng)險(xiǎn)、避開(kāi)噪音、找到真正在樣本外可持續(xù)的因果關(guān)系，獲取更高的收益。

　　引言

　　讓我們從下圖這個(gè)令人欣喜的回測(cè)(backtesting)說(shuō)起。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　上圖是某針對(duì)美股的選股策略在長(zhǎng)達(dá) 50 年的回測(cè)內(nèi)的凈值曲線。該策略采用多空對(duì)沖、市值中性的方法構(gòu)建。該策略表現(xiàn)出了五大優(yōu)秀量化策略的必要不充分(呵呵)特征：

　　1. 因子計(jì)算的方法在回測(cè)期內(nèi)完全一致，沒(méi)有任何變化;

　　2. 該策略的表現(xiàn)在近期并沒(méi)有變差的跡象，說(shuō)明在該因子上并沒(méi)有發(fā)生“擁擠”;

　　3. 該因子穿越牛熊，在金融危機(jī)時(shí)代甚至出現(xiàn)了上漲(在可以做空的假設(shè)下);

　　4. 該因子和其他主流因子(包括市場(chǎng)、Size、Value、Momentum 等)的相關(guān)度極低;

　　5. 該因子的年換手率僅為 10%，交易成本可以忽略不計(jì)。

　　Too good to be true?

　　沒(méi)錯(cuò)，它正是 data mining 的產(chǎn)物。該因子的構(gòu)建完全沒(méi)有使用任何基本面或者交易數(shù)據(jù)，而僅僅依賴(lài)美股上市公司股票代碼上的字母。比如蘋(píng)果公司的股票代碼是 AAPL，該代碼上的第 1 至 4 位上的字母分別為 A、A、P 以及 L。該因子的構(gòu)建方法是做多股票代碼第三位字母為 S 的股票、做空股票代碼第三位字母為 U 的股票(記為 S(3) – U(3))。

　　在實(shí)驗(yàn)中，考慮股票代碼的前 3 位字母;考慮到全部可能的 26 個(gè)字母，以及每個(gè)字母可以出現(xiàn)在多、空兩頭，因此實(shí)驗(yàn)中有成千上萬(wàn)種組合方式。而 S(3) – U(3) 這種組合正是從這些組合中脫穎而出的、具備了上述五大優(yōu)秀特征的、僅僅來(lái)自 data mining 的虛假策略。

　　上面這個(gè)策略是靠蠻力(brute force)找到的，并不能說(shuō)是機(jī)器學(xué)習(xí)(Machine Learning)的產(chǎn)物。機(jī)器學(xué)習(xí)會(huì)進(jìn)行仔細(xì)的交叉驗(yàn)證(cross-validation)以確保我們?cè)谟?xùn)練集和測(cè)試集上看到相似的結(jié)果。不幸的是，上述策略在整個(gè)回測(cè)期內(nèi)的穩(wěn)定表現(xiàn)大概率會(huì)讓它通過(guò)交叉驗(yàn)證。這背后的原因是股票市場(chǎng)的數(shù)據(jù)容易出現(xiàn)路徑依賴(lài)，造成訓(xùn)練集和測(cè)試集之間并不獨(dú)立。

　　這個(gè)例子說(shuō)明，量化投資的小伙伴在回測(cè)基于機(jī)器學(xué)習(xí)的策略時(shí)將面臨很大的挑戰(zhàn)?；販y(cè)的目的是去偽存真，排除噪音、發(fā)現(xiàn)預(yù)測(cè)指標(biāo)和資產(chǎn)收益率之間真正的因果關(guān)系，從而在樣本外的實(shí)盤(pán)交易中獲得收益。如果回測(cè)不靠譜、落入各種陷阱，那么實(shí)盤(pán)的結(jié)果則可想而知。這個(gè)問(wèn)題在機(jī)器學(xué)習(xí)如此普及的今天顯得更加嚴(yán)重。

　　為了幫助量化交易者更好的杜絕樣本內(nèi)的過(guò)擬合，提高發(fā)現(xiàn)真正有效策略的概率，三位大咖站了出來(lái)：來(lái)自 Research Affiliates 的 Robert Arnott，杜克大學(xué)教授、前 AFA 主席 Campbell Harvey，以及諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者 Harry Markowitz 在 IPR Journals 的最新成員 Journal of Financial Data Science 的處女刊上發(fā)表了一篇題為 A Backtesting Protocol in the Era of Machine Learning 的文章(Arnott, Harvey, and Markowitz 2019)。

　　本文中我用“規(guī)程”來(lái)對(duì)應(yīng) Protocol 一詞，它也可以被譯作“協(xié)議”或者“清單”，其目的就是通過(guò)逐步遵循這些準(zhǔn)則來(lái)減少樣本內(nèi)過(guò)擬合的可能性。這個(gè) protocol 之于回測(cè)可靠性的作用就好比飛行員的 checklist 之于飛行安全的作用。Arnott, Harvey, and Markowitz (2019) 一文提出的 protocol 一共包括七部分，它們是：

　　1. 研究動(dòng)機(jī);

　　2. 多重檢驗(yàn);

　　3. 樣本選擇和數(shù)據(jù);

　　4. 交叉驗(yàn)證;

　　5. 模型動(dòng)力學(xué);

　　6. 模型復(fù)雜度;

　　7. 研究文化。

　　它們構(gòu)成了一個(gè)完整且可操作的體系，能夠幫助我們更好的規(guī)避樣本內(nèi)的虛假信號(hào)、找出能在樣本外更有效的交易策略。

　　以下行文并不會(huì)逐字逐句的轉(zhuǎn)述 Arnott, Harvey, and Markowitz (2019) 提出的每一個(gè) bullet point，而是會(huì)結(jié)合我有限的經(jīng)驗(yàn)和粗淺的認(rèn)識(shí)解讀我認(rèn)為最重要的一些內(nèi)容。瀏覽本文并不能 100% 代替閱讀原作，因此強(qiáng)烈建議感興趣的小伙伴找來(lái) Arnott, Harvey, and Markowitz (2019) 看一看。

　　下文第 1 到第 7 節(jié)將分別論述這個(gè) protocol 的七個(gè)方面。第 8 節(jié)總結(jié)全文。

　　1、研究動(dòng)機(jī)

　　回測(cè)規(guī)程的第一個(gè)方面是研究動(dòng)機(jī)(Research Motivation)。

　　Harvey 教授直言，金融領(lǐng)域的數(shù)據(jù)樣本太少了(也許超高頻除外)。以美股為例，現(xiàn)代金融時(shí)代的股票月頻數(shù)據(jù)大概只有 700 期(相當(dāng)于 60 年)，這對(duì)于機(jī)器學(xué)習(xí)應(yīng)用來(lái)說(shuō)太少了(回想一下 A 股，通常單因子評(píng)測(cè)的回測(cè)期只有區(qū)區(qū) 10 年，真是太短了)。因此，這個(gè) protocol 中第一也是最重要的一點(diǎn)就是 a clear economic foundation for any model —— 任何策略都應(yīng)該有一個(gè)理論先驗(yàn)。注意，是先驗(yàn)，而不是看到數(shù)之后再“真香”編故事。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　Chordia, Goyal, and Saretto (2017) 使用基本面指標(biāo)的不同組合方法構(gòu)建了兩百萬(wàn)個(gè)針對(duì)美股的因子策略。在實(shí)驗(yàn)設(shè)計(jì)中，他們對(duì) data mining 進(jìn)行了必要的懲罰，并最終找到 17 個(gè)在統(tǒng)計(jì)上和經(jīng)濟(jì)上都顯著的因子。

　　其中一個(gè)因子的構(gòu)建方法為：分子是 long-term debt issuance 和 preferred stock redeemable 之差;分母是 minimum rental commitments four years into the future。這個(gè)因子使用了三個(gè)財(cái)務(wù)指標(biāo)，但是該組合卻毫無(wú)業(yè)務(wù)含義。而上述其他 16 個(gè)“顯著”的因子都具有類(lèi)似的結(jié)構(gòu)，它們都是 data mining 的結(jié)果。

　　在現(xiàn)實(shí)中，人們往往站在“任何策略都應(yīng)該有一個(gè)理論先驗(yàn)”的對(duì)立面上，即先看數(shù)據(jù)再找理由。比如對(duì)于前面那個(gè) S(3) – U(3) 的例子。它的那些優(yōu)秀特征會(huì)讓人去尋找虛假的理論依據(jù)來(lái)說(shuō)服自己。當(dāng)一個(gè)人能夠?yàn)?S(3) – U(3) 找到理由，那么如果回測(cè)的結(jié)果顯示相反的結(jié)果，即 U(3) – S(3)，相信 TA 也能夠找到理由。

　　“Any suspicion that the hypothesis was developedafter looking at the data is an obvious red flag.”

　　2、多重檢驗(yàn)

　　Protocol 的第二方面是當(dāng)心多重檢驗(yàn)(Multiple Testing and Statistical Methods)。多重檢驗(yàn)指的是：當(dāng)我們測(cè)試一個(gè)策略的許多組參數(shù)，或者很多選個(gè)因子時(shí)，僅僅依靠運(yùn)氣，這些參數(shù)或者因子中效果較好的那個(gè)就能在樣本內(nèi)獲得很高的夏普率(這也被稱(chēng)作 inflated Sharpe Ratio)。在回測(cè)時(shí)必須時(shí)刻考慮多重檢驗(yàn)的影響。

　　用白話的理解就是：如果我以某個(gè)金融學(xué)或經(jīng)濟(jì)學(xué)原理為先驗(yàn)，構(gòu)建了一個(gè)因子并測(cè)試有效，那么它大概是真有效;然而，如果我兩眼一抹黑試了 100 個(gè)因子，然后只挑出了較好的那一個(gè)，那么這個(gè)因子很可能只是個(gè) lucky factor。

　　Bailey and Lopez de Prado (2012, 2014) 專(zhuān)門(mén)就 inflated Sharpe Ratio 進(jìn)行了探討。他們假設(shè)不同參數(shù)的策略的夏普率滿(mǎn)足均值為 E[SR]、方差為 V(SR) 的正態(tài)分布。在上述假設(shè)下，N 組不同參數(shù)中樣本內(nèi)最大的夏普率的期望滿(mǎn)足(式中 γ 是歐拉-馬斯刻若尼常數(shù))：

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　該關(guān)系式表明，樣本內(nèi)的最大夏普率隨 N 增大和 V(SR) 增大。假設(shè) V(SR) = 1，則我們只需要測(cè)試 100 組設(shè)定，樣本內(nèi)的虛高夏普率就高達(dá) 2.5，盡管它對(duì)應(yīng)的 null hypothesis 是該策略真實(shí)夏普率為 0。這就是不考慮多重檢驗(yàn)的危害。

　　我們根據(jù) Novy-Marx (2015) 的方法、使用中證 500 的成分股做了隨機(jī)因子的實(shí)證。在實(shí)證中，純隨機(jī)的產(chǎn)生對(duì)收益率毫無(wú)預(yù)測(cè)性的 n 個(gè)因子，然后根據(jù)它們的表現(xiàn)選出其中較好的 k 個(gè)，再把和 k 個(gè)因子配置在一起，考察它們?cè)跇颖緝?nèi)上述 k 個(gè)因子構(gòu)成的投資組合收益率的 t-statistic 到底能有多高(由于這些隨機(jī)因子毫無(wú)預(yù)測(cè)性，因此 null hypothesis 是它們的預(yù)期收益率為零;評(píng)價(jià)標(biāo)準(zhǔn)為投資組合收益率 t-statistic 經(jīng)驗(yàn)分布的 95% 分位數(shù)閾值)。

　　下圖給出了實(shí)證結(jié)果。從中不難觀察到以下三點(diǎn)：(1)隨著 n 和 k 的增加，對(duì)于按照隨機(jī)因子 t-statistic 絕對(duì)值賦權(quán)配置的策略，它們的 t-statistic 閾值遞增;(2)隨著 n 的增加，等權(quán)配置和按因子樣本內(nèi)表現(xiàn)配置的效果越來(lái)越接近;(3)對(duì)于等權(quán)配置因子的情況，能夠觀察到策略的效果并不隨 k 遞增;這是因?yàn)楫?dāng) k 逐漸增大時(shí)，使用更多的因子可以降低組合的波動(dòng)率、提升 t-statistic 的閾值;一旦 k 超過(guò)較優(yōu)值，越來(lái)越多排名靠后的因子被選入，降低組合的收益率以及 t-statistic 閾值。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　為了在實(shí)證研究中發(fā)現(xiàn)樣本內(nèi)更好的策略或者更顯著的因子 —— 無(wú)論是為了討好基金經(jīng)理還是為了在頂刊上發(fā)文 —— multiple testing 的不正之風(fēng)早已席卷了學(xué)術(shù)界和業(yè)界。

　　Harvey, Liu, and Zhu (2016) 研究了學(xué)術(shù)界發(fā)表的 316 個(gè)選股因子。他們通過(guò)考慮不同因子之間相關(guān)性提出了一個(gè)全新檢驗(yàn)框架。該方法可以排除 multiple testing 的影響。該研究表明，只有在 single testing 中 t-statistic 超過(guò) 3.0(而非人們傳統(tǒng)認(rèn)為的 5% 的顯著性水平對(duì)應(yīng)的 2.0)的因子才有可能在排除了 multiple testing 的影響之后，而非來(lái)自運(yùn)氣。不過(guò)，Harvey 同時(shí)也指出，3.0 其實(shí)都是非常保守的。

　　我們自己在回測(cè)時(shí)應(yīng)時(shí)刻謹(jǐn)記 multiple testing 的影響;此外，在學(xué)習(xí)別人的發(fā)現(xiàn)時(shí)也要保持著一顆懷疑之心，因?yàn)闆](méi)有多少人告訴我們，在 TA 提出的這個(gè)樣本內(nèi)顯著因子之前有過(guò)多少次失敗的嘗試。

　　3、樣本選擇和數(shù)據(jù)

　　Protocol 的第三部分是樣本選擇和數(shù)據(jù)(Sample Choice and Data)。它的核心要素包括：(1)回測(cè)前就要確定回測(cè)區(qū)間，而非事后調(diào)整;(2)確保數(shù)據(jù)質(zhì)量;(3)小心處理異常值(outliers) —— 不要凡事都想當(dāng)然;(4)認(rèn)真記錄進(jìn)行的數(shù)據(jù)變形處理。

　　所有的這些努力其實(shí)都是為了避免 p-hacking。

　　Harvey 教授在介紹 Arnott, Harvey, and Markowitz (2019) 這篇文章的短片中講了一個(gè)故事。一個(gè)量化研究員給他展示了一個(gè)股票策略，該策略在回測(cè)期內(nèi)的表現(xiàn)非常好;只不過(guò)該回測(cè)有一個(gè)致命的問(wèn)題：它的回測(cè)窗口不包含 2008 年的金融危機(jī)。當(dāng) Harvey 教授問(wèn)他為什么排除這段時(shí)期，得到了令人無(wú)語(yǔ)的答復(fù)：“因?yàn)椴呗栽谶@段時(shí)間內(nèi)失效了”。

　　Excuse Me???

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　這就是先看結(jié)果再調(diào)整回測(cè)區(qū)間，妥妥的 p-hacking 反例。法國(guó)哲學(xué)家孔德將科學(xué)分成不同的等級(jí)(Comte 1856)。像數(shù)學(xué)、物理這類(lèi)“硬科學(xué)”位于等級(jí)的上方，而社會(huì)學(xué)、經(jīng)濟(jì)學(xué)這些“軟科學(xué)”位于等級(jí)的下方。“硬”和“軟”本身并無(wú)“好”與“壞”之分。

　　硬科學(xué)可以從數(shù)據(jù)可以直接得到結(jié)論、無(wú)需任何人工解釋?zhuān)医Y(jié)論是高度可歸納的。比如數(shù)學(xué)上的四色問(wèn)題，一旦證明成立那就是成立;又如物理上的引力波，一旦發(fā)現(xiàn)那就是說(shuō)明它的存在，這些都是確切的。反觀軟科學(xué)，研究成果依賴(lài)于提出怎樣的假設(shè)，如何處理數(shù)據(jù)，以及如何分析、解釋結(jié)果，總之“事在人為”。金融學(xué)是軟科學(xué)，很多實(shí)證分析結(jié)果都會(huì)因人而異。

　　比如在股票研究中“使用過(guò)去 50 年的數(shù)據(jù)還是過(guò)去 30 年的數(shù)據(jù)?”“使用美股還是其他國(guó)家的股票?”“使用日收益率還是周收益率?”“使用百分比收益率還是對(duì)數(shù)收益率?”“是否以及如何剔除異常值?”“使用 OLS 還是 GLS?”……這些看似自然的選擇背后其實(shí)都以追求樣本內(nèi)更顯著的 p-value 為動(dòng)機(jī)，一切阻礙獲得超低 p-value 的數(shù)據(jù)都會(huì)被巧妙的避開(kāi)。這種為了獲得超低 p-value 而在研究中刻意選取的數(shù)據(jù)處理方法就是 p-hacking。人們對(duì)于 p-hacking 的狂熱源于對(duì) p-value 的錯(cuò)誤解讀。

　　在統(tǒng)計(jì)學(xué)中，如果 H0 和 H1 分別表示 null hypothesis 和 alternative hypothesis，則 p-value = prob(D|H0)，即在 H0 成立下觀測(cè)到數(shù)據(jù) D 的概率。從該定義出發(fā)，p-value 不代表原假設(shè)或者備擇假設(shè)是否為真實(shí)的，即 p-value ≠ prob(H0|D)以及 p-value ≠ prob(H1|D)。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　在檢驗(yàn)一個(gè)策略或者因子是否有顯著收益時(shí)，我們需要的是 prob(H0|D)，即在觀察到 D 的條件下，原假設(shè)為真的概率是多少。這個(gè)問(wèn)題僅依靠 p-value 自身無(wú)法回答的。為此，Harvey (2017) 提出了一個(gè)基于貝葉斯的框架，它可以正確求解我們關(guān)注的問(wèn)題。

　　4、交叉驗(yàn)證

　　回測(cè)規(guī)程的第四部分是交叉驗(yàn)證(Cross-Validation)，這部分包括以下兩個(gè)要素：

　　1. Out of Sample is Not Really Out of Sample;

　　2. Iterated Out of Sample is Not Out of Sample。

　　這一條想要強(qiáng)調(diào)的是：由于歷史數(shù)據(jù)都是已經(jīng)發(fā)生過(guò)的，它們都是樣本內(nèi)數(shù)據(jù)，因此必須小心解讀交叉驗(yàn)證的結(jié)果，即便通過(guò)了交叉驗(yàn)證，也不能無(wú)腦的相信完全排除了過(guò)擬合的問(wèn)題。

　　關(guān)于更合理的使用交叉驗(yàn)證，Bailey et al. (2017) 的研究成果值得借鑒。他們提出了一個(gè) Combinatorially-Symmetric Cross-Validation(組合對(duì)稱(chēng)交叉驗(yàn)證，簡(jiǎn)稱(chēng) CSCV)方法，它可以定量的計(jì)算樣本內(nèi)過(guò)擬合的概率。它的優(yōu)勢(shì)在于：

　　1. 保證了訓(xùn)練集和測(cè)試集同樣大小，使得樣本內(nèi)外的夏普率具有可比性;

　　2. 保證了訓(xùn)練集和測(cè)試集的數(shù)據(jù)是對(duì)稱(chēng)的，因此夏普率在樣本外的降低只可能來(lái)自過(guò)擬合;

　　3. 保留了收益率序列的時(shí)序相關(guān)性;

　　4. 利用 Bootstrap 理念求解過(guò)擬合的概率，不需要對(duì)過(guò)擬合的隨機(jī)模型或者參數(shù)做任何假設(shè)。

　　舉個(gè)例子。按照 CSCV 方法，下圖描述了某趨勢(shì)追蹤策略在不同參數(shù)下，其樣本內(nèi)夏普率(SR_IS)和同參數(shù)在樣本外夏普率(SR_OOS)的負(fù)相關(guān)關(guān)系，意味著驗(yàn)本內(nèi)效果越好對(duì)應(yīng)著樣本外表現(xiàn)越差。該策略的樣本內(nèi)過(guò)擬合概率高達(dá) 0.572。一個(gè)真正有效的策略在樣本內(nèi)的過(guò)擬合概率不應(yīng)如此之高。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　無(wú)論從獨(dú)立性還是可交易特征而言，交易數(shù)據(jù)其實(shí)都十分匱乏。它們對(duì)傳統(tǒng)的交叉驗(yàn)證造成了極大的挑戰(zhàn)，在使用機(jī)器學(xué)習(xí)時(shí)應(yīng)牢記這一點(diǎn)，理性看待交叉驗(yàn)證結(jié)果。

　　5、模型動(dòng)力學(xué)

　　模型動(dòng)力學(xué)(Model Dynamics)是回測(cè)規(guī)程的第五部分，它關(guān)注的是量化策略在樣本外的表現(xiàn)逐漸變差的問(wèn)題。而這背后可能存在兩個(gè)原因：(1)市場(chǎng)結(jié)構(gòu)發(fā)生變化導(dǎo)致策略失效，比如越來(lái)越多的人開(kāi)始使用某個(gè)策略或者因子，使得它變得擁擠。(2)策略使用者自身的行為偏差導(dǎo)致一個(gè)好模型最終淪為一個(gè)失效模型。

　　我在之前的文章中多次表達(dá)過(guò)一個(gè)觀點(diǎn)：任何策略能賺錢(qián)都是利用了市場(chǎng)的某種非有效性;一旦使用該策略的人越來(lái)越多，市場(chǎng)在這方面就變得更加有效，從而削弱策略的盈利能力。

　　在技術(shù)分析領(lǐng)域，上述觀點(diǎn)的較好例證之一是布林帶(Bollinger bands)。毫無(wú)疑問(wèn)，布林帶是幾十年前最盛行、最管用的技術(shù)分析策略之一。然而，人們?cè)絹?lái)越發(fā)現(xiàn)該方法掙錢(qián)的能力越來(lái)越差。對(duì)此，F(xiàn)ang, Jacobsen, and Qin (2017) 針對(duì)全球十幾個(gè)主要市場(chǎng)進(jìn)行了實(shí)證分析。

　　他們的研究發(fā)現(xiàn)，1983 和 2001 這兩個(gè)重要時(shí)間節(jié)點(diǎn)對(duì)于布林帶的效果影響巨大。1983 年，John Bollinger首次在電視廣播中介紹了布林帶，使得這個(gè)之前神秘的方法開(kāi)始走進(jìn)大眾視野。而 2001 年，John Bollinger 更是發(fā)表了Bollinger on Bollinger Bands 這本紅極一時(shí)的技術(shù)流圣經(jīng);在隨后的 4 年內(nèi)，這本書(shū)被翻譯成其他 12 種語(yǔ)言在全世界范圍內(nèi)迅速傳播，這使得布林帶一下變得家喻戶(hù)曉。Fang, Jacobsen, and Qin (2017) 發(fā)現(xiàn)，布林帶的流行和普及(特別是 2001 年之后)直接造成了該策略的失效。

　　這樣的例子在股票因子投資中也不勝枚舉。一個(gè)新因子被提出后，隨著越來(lái)越多人使用，它在 post-publication 樣本外的效果勢(shì)必會(huì)打折扣。McLean and Pontiff (2016) 研究了 97 個(gè)因子在被發(fā)表之后的表現(xiàn)，發(fā)現(xiàn)因子的收益率比論文中的 in-sample 降低 50% 以上。有時(shí)，策略并沒(méi)有變得擁擠，但它在樣本外還是持續(xù)變差。這背后的另一個(gè)原因是使用者的非理性行為偏差。

　　任何一個(gè)策略或者交易系統(tǒng)，都是基于對(duì)市場(chǎng)的某個(gè)假設(shè)。然而市場(chǎng)充滿(mǎn)著不確定性，因此它必然會(huì)在一些時(shí)候背離這個(gè)假設(shè)，這時(shí)該交易系統(tǒng)就會(huì)出現(xiàn)虧損。一個(gè)優(yōu)秀的交易系統(tǒng)是一個(gè)長(zhǎng)期來(lái)看能夠盈利的系統(tǒng)，而非一個(gè)能夠每筆交易都賺錢(qián)的系統(tǒng)。

　　隨著交易的進(jìn)行，由于小數(shù)定律造成的偏誤，很多人在幾次虧損后就開(kāi)始“懷疑人生”了，認(rèn)為“this time is different”、開(kāi)始要對(duì)策略動(dòng)刀子。這種想法非常危險(xiǎn)。如果你真的這么做的了，為了每一筆的虧損都對(duì)你的系統(tǒng)進(jìn)行了修補(bǔ)，便走上了“處處精準(zhǔn)過(guò)擬合”的快車(chē)道，策略最終將會(huì)對(duì)市場(chǎng)未來(lái)的變化無(wú)能為力。

　　“Most traders take a good system and destroy it by trying to make it into a perfect system. –– Robert Prechter”

　　改造一個(gè)長(zhǎng)期來(lái)看可以賺錢(qián)的優(yōu)秀系統(tǒng)必須要非常小心。對(duì)哪怕是一個(gè)參數(shù)的哪怕是一丁點(diǎn)的調(diào)節(jié)都會(huì)改變?cè)撓到y(tǒng)的效果。這么做是以改動(dòng)后的系統(tǒng)對(duì)最新的交易數(shù)據(jù)表現(xiàn)更佳為前提;但是如果不能證明它在未來(lái)的樣本外更有效，那么如此“改進(jìn)”仍然是徒勞的。

　　量化投資背后的核心是單次優(yōu)勢(shì) + 大數(shù)定律。這二者中大數(shù)定律又更加重要，它要求我們?cè)诮灰字斜M一切努力做到一致性。一般交易者的學(xué)習(xí)曲線如下面圖中的黑色曲線：無(wú)法做到嚴(yán)格遵循一個(gè)交易系統(tǒng)，總是帶著個(gè)人情感進(jìn)行交易，將自己行為帶來(lái)的不確定性錯(cuò)誤地強(qiáng)加于系統(tǒng)的表現(xiàn)之上。這些交易者無(wú)法持之以恒，三天兩頭更換系統(tǒng)，最終輸光本金。與之相反的，一個(gè)優(yōu)秀的交易者會(huì)專(zhuān)注于一致性，這會(huì)讓他在通往盈利的進(jìn)程中越走越遠(yuǎn)，最終到達(dá)勝利的彼岸。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　6、模型復(fù)雜度

　　回測(cè)規(guī)程的第六部分是模型復(fù)雜度(Model Complexity)，主張我們應(yīng)該追求策略的而簡(jiǎn)單性和可解釋性。

　　我們大概都有下面這樣的經(jīng)驗(yàn)：一個(gè)策略的夏普率不夠亮眼，那么可以通過(guò)加入止盈、止損，中性化處理、甚至是對(duì)投資標(biāo)的進(jìn)行篩選來(lái)進(jìn)一步提高其在樣本內(nèi)的表現(xiàn)。此外，對(duì)上面的每一個(gè)處理方法，我們似乎都能找到合理的解釋和來(lái)自其他文獻(xiàn)的理論和實(shí)證支持。在確認(rèn)偏誤下，我們非常愿意相信這些處理都是合理的、并沒(méi)有引入過(guò)擬合。

　　任何通過(guò)增加參數(shù)維度來(lái)提高樣本內(nèi)的表現(xiàn) —— 無(wú)論這些理由聽(tīng)上去多么合理 —— 都實(shí)打?qū)嵉奶岣吡四Ｐ偷膹?fù)雜度;更高的模型復(fù)雜度則更容易出現(xiàn)過(guò)擬合。該文提出了如下圖所示的流程來(lái)定量計(jì)算模型復(fù)雜度造成的過(guò)擬合程度。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　考慮一個(gè)基于均線多頭排序的簡(jiǎn)單多頭趨勢(shì)追蹤策略。模型復(fù)雜度的兩個(gè)維度是：(1)均線多頭排序中用到的不同周期均線的個(gè)數(shù);(2)這些均線秩相關(guān)系數(shù)的閾值(用來(lái)決定是否開(kāi)倉(cāng)、空倉(cāng))。使用純隨機(jī)游走產(chǎn)生的假想資產(chǎn)價(jià)格曲線，按不同復(fù)雜度構(gòu)建趨勢(shì)追蹤策略。模型的過(guò)擬合度和復(fù)雜度之間的關(guān)系如下圖所示，說(shuō)明模型過(guò)擬合度隨模型復(fù)雜度遞增。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　在第六方面，Arnott, Harvey, and Markowitz (2019) 倡導(dǎo)的第二點(diǎn)是追求可解釋的機(jī)器學(xué)習(xí)(seek interpretable machine learning)。量化策略，尤其是使用了機(jī)器學(xué)習(xí)算法的量化策略不應(yīng)該是黑箱。任何使用者都應(yīng)該了解這個(gè)算法到底干了什么。最近幾年，計(jì)算機(jī)領(lǐng)域的一個(gè)細(xì)分學(xué)科逐漸受到世人關(guān)注，它研究的對(duì)象是 interpretable classification 和 interpretable policy design(一個(gè)例子見(jiàn) Wang et al. 2017)。相信在未來(lái)，可解釋的機(jī)器學(xué)習(xí)在金融領(lǐng)域能夠大有可為。

　　關(guān)于模型復(fù)雜度，我想補(bǔ)充一點(diǎn) Arnott, Harvey, and Markowitz (2019) 沒(méi)有的內(nèi)容，同樣來(lái)自《模型復(fù)雜度隨想》，那就是相較于簡(jiǎn)單的模型，復(fù)雜度更高的模型可能會(huì)在虧損時(shí)給人更痛苦的主觀感受。在這方面，我做了一些探索性的研究，指出了模型復(fù)雜度和實(shí)盤(pán)痛苦程度之間的非線性關(guān)系：

　　1. 當(dāng)模型復(fù)雜度逐漸提升時(shí)，由于它更好的捕捉了收益率和信號(hào)之間的(非線性)關(guān)系，這是能帶來(lái)樣本外效果的提升的，減少虧損的痛苦;

　　2. 當(dāng)模型過(guò)于復(fù)雜時(shí)，由于樣本內(nèi)過(guò)擬合可能性上升;模型復(fù)雜度會(huì)非線性的放大同等程度虧損(比如最大回撤)給人們?cè)斐傻耐纯唷?/p>

　　根據(jù)以上描述，模型復(fù)雜度和實(shí)盤(pán)的痛苦程度大概如下圖所示

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　在當(dāng)下，我們?cè)絹?lái)越崇尚各種復(fù)雜的模型。以上探索僅僅希望提出一些思考：我們?cè)跇颖就馐欠?100% 做好了準(zhǔn)備接受復(fù)雜模型?交易中存在各種認(rèn)知偏差，如果我們連最簡(jiǎn)單的按一根均線做趨勢(shì)追蹤都無(wú)法堅(jiān)決的執(zhí)行，那又有什么來(lái)保證我們?cè)诿鎸?duì)實(shí)盤(pán)虧損時(shí)能夠堅(jiān)守復(fù)雜模型呢?如果我們不能堅(jiān)守復(fù)雜模型，那么開(kāi)發(fā)復(fù)雜模型所付出的心血和努力是否付之東流呢?

　　7、研究文化

　　回測(cè)規(guī)程的最后一部分是研究文化(Research Culture)，它包括以下兩點(diǎn)：

　　1. Establish a research culture that rewards quality;

　　2. Be careful with delegated research.

　　上面第一條說(shuō)的是，在開(kāi)發(fā)量化策略或者因子時(shí)，比起追求樣本內(nèi)的驚艷效果，我們更應(yīng)該看中研究的質(zhì)量，例如研究是否避免了各種偏差、盡最大努力的排除了過(guò)擬合、是否存在先驗(yàn)理論、是否足夠獨(dú)立等。一個(gè)因子或指標(biāo)，無(wú)論有用沒(méi)有，只要能夠被復(fù)現(xiàn)，都是有益的發(fā)現(xiàn)，都為幫助我們更好的理解市場(chǎng)起到了巨大貢獻(xiàn)。

　　在學(xué)術(shù)界，為了提升期刊的聲望，編輯們都更傾向于錄用低 p-value 的文章;為了在更高水平的期刊上發(fā)文，學(xué)者們更傾向于找到低 p-value 的因子。在美國(guó)絕大多數(shù)學(xué)校里，如果能在 Journal of Finance 發(fā)表一篇文章，一個(gè)教授就有可能得到終身教職。這一環(huán)扣一環(huán)的錯(cuò)誤關(guān)系導(dǎo)致了嚴(yán)重的 publication bias，我們被大量依靠樣本內(nèi) data mining 和 p-hacking 獲得的虛假因子蒙蔽了雙眼，而高研究質(zhì)量卻低顯著性的因子在頂級(jí)期刊上則難有容身之處。

　　這部分的第二條說(shuō)的是，很多時(shí)候由于基金經(jīng)理的精力有限，無(wú)法親力親為研究每個(gè)策略。因此會(huì)把研究分發(fā)給不同的研究員。研究員應(yīng)該保持獨(dú)立性、進(jìn)行高質(zhì)量的研究，而不是通過(guò)尋找虛假的顯著性來(lái)取悅基金經(jīng)理。任何策略都最終會(huì)失效，而客觀、嚴(yán)謹(jǐn)?shù)难芯课幕攀悄軌蛟催h(yuǎn)流長(zhǎng)的，才是我們應(yīng)該努力追尋的。

　　在美國(guó)，要論業(yè)界的“學(xué)術(shù)天團(tuán)”，一般人大概首先會(huì)想到 AQR。然而，還有個(gè)更老牌、更大牌的管理人，它就是 Dimensional Fund Advisors L.P.，它的 Directors 中不乏 Eugene Fama、Ken French、Myron Scholes 這些赫赫有名的學(xué)者。在 Dimensional 的官網(wǎng)上記錄著 Ken French 下面這句話，一語(yǔ)道破了研究文化的真諦 —— 任何時(shí)候我們都要努力探尋真諦、做對(duì)的事情。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　8、結(jié)語(yǔ)

　　好了，上面七小節(jié)介紹了回測(cè)規(guī)程中的七方面內(nèi)容。接下來(lái)我們可以“召喚神龍”了。下圖給出了 Arnott, Harvey, and Markowitz (2019) 自己總結(jié)的七方面，每一個(gè) bullet point 都值得好好體會(huì)。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　最后想強(qiáng)調(diào)的是，Arnott, Harvey, and Markowitz (2019) 并不是為了否定機(jī)器學(xué)習(xí)在投資中越來(lái)越重要的作用。恰恰相反的是，他們提出這個(gè)框架就是為了讓我們更好的享受機(jī)器學(xué)習(xí)的成果。

　　對(duì)投資來(lái)說(shuō)，我們最關(guān)心的是 prediction 是否準(zhǔn)確，而非參數(shù)的 adjudication。它的意思是只要能提高樣本外的預(yù)測(cè)性，我們可以犧牲參數(shù)估計(jì)的準(zhǔn)確性。公允的說(shuō)，從探尋市場(chǎng)真諦的角度來(lái)說(shuō)，我們當(dāng)然關(guān)心 β 的估計(jì)是否準(zhǔn)確;然而，從投資實(shí)際效果的角度來(lái)看，我們更應(yīng)關(guān)注樣本外 y 預(yù)測(cè)值是否靠譜。

　　預(yù)測(cè)的目標(biāo)是最小化 loss function;而傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)中 estimation 的目標(biāo)是參數(shù)的 unbiasedness。參數(shù)估計(jì)準(zhǔn)了不一定意味著樣本外的預(yù)測(cè)性一定更好。關(guān)于這方面的論述，我推薦各位看看 Sendhil Mullainathan 教授在 AFA Lecture 上做的 Machine Learning and Prediction in Economics and Finance 主題演講。

　　機(jī)器學(xué)習(xí)回測(cè)規(guī)程

　　客觀的說(shuō)，由于金融數(shù)據(jù)的一些特殊性(非結(jié)構(gòu)化、高維度、稀疏、信噪比低等)，傳統(tǒng)計(jì)量經(jīng)濟(jì)學(xué)在很多時(shí)候確實(shí)難有作為，而機(jī)器學(xué)習(xí)算法則更有前景。關(guān)于這點(diǎn)，Lopez de Prado 做過(guò)一篇題為《The 7 Reasons Most Econometric Investments Fail》的報(bào)告。當(dāng)然，這并不意味著我們就應(yīng)該輕易摒棄計(jì)量經(jīng)濟(jì)學(xué)模型、毫無(wú)顧忌的投身到機(jī)器學(xué)習(xí)的懷抱。

　　“It is naïve to think we no longer need economic models in the era of machine learning. Given that the quantity and quality of data is relatively limited in finance, machine learning applications face many of the same issues quantitative finance researchers have struggled with for decades.”

　　本文介紹的回測(cè)規(guī)程乍一看完雖然沒(méi)有太多驚艷之處，但它卻能產(chǎn)生非常積極的效果。正如飛機(jī)駕駛艙里面的 checklist 能極大的提升飛行安全一樣，在回測(cè)中牢記并遵守這些準(zhǔn)則可以有效降低過(guò)擬合的風(fēng)險(xiǎn)、避開(kāi)噪音、找到真正在樣本外可持續(xù)的因果關(guān)系，獲取更高的收益。

>>>點(diǎn)擊咨詢(xún)量化投資相關(guān)問(wèn)題

　　(點(diǎn)擊上圖了解課程詳情)

　　參考文獻(xiàn)

　　Arnott, R., C. R. Harvey, and H. Markowitz (2019). A backtesting protocol in the era of machine learning. Journal of Financial Data Science, Vol. 1(1), 64 – 74.

　　Bailey, D. H. and M. Lopez de Prado (2012). The Sharpe ratio efficient frontier. Journal of Risk, Vol. 15(2), 3 – 44.

　　Bailey, D. H. and M. Lopez de Prado (2014). The deflated Sharpe ratio: correcting for selection bias, backtest overfitting, and non-Normality. The Journal of Portfolio Management, Vol. 40(5), 94 – 107.

　　Bailey, D. H., J. M. Borwein, M. Lopez de Prado, and Q. J. Zhu (2017). The probability of backtest overfitting. Journal of Computational Finance, Vol. 20(4), 39 – 69.

　　Chordia, T., A. Goyal, and A. Saretto (2017). p-Hacking: evidence from two million trading strategies. Swiss Finance Institute Research Paper No. 17-37, SSRN.

　　Comte (1856). The Positive Philosophy of Auguste Comte, translated by Harriett Marineau (Calvin Blanchard, New York). Vol. II.

　　Fang, J., B. Jacobsen, and Y. Qin (2017). Popularity versus profitability: evidence from Bollinger bands. The Journal of Portfolio Management, Vol. 43(4), 152 – 159.

　　Harvey, C. R. (2017). Presidential address: The scientific outlook in financial economics. The Journal of Finance, Vol. 72(4), 1399 – 1440.

　　Harvey, C. R., Y. Liu, and H. Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies, Vol. 29(1), 5 – 68.

　　Lopez de Prado, M. (2018). Advances in financial machine learning. Hoboken, NJ: John Wiley & Sons.

　　McLean, R.D. and J. Pontiff (2016). Does academic research destroy stock return predictability? The Journal of Finance, Vol. 71(1), 5 – 32.

　　Novy-Marx, R. (2015). Backtesting strategies based on multiple signals. NBER Working Paper, No. 21329.

　　Wang, T., C. Rudin, F. Doshi-Velez, Y. Liu, E. Klampfl, and P. MacNeille (2017). A Bayesian framework for learning rule sets for interpretable classification. Journal of Machine Learning Research, Vol. 18, 1 – 37.

金程推薦： AQF是什么意思量化金融分析師年薪 AQF考試流程

全國(guó)熱線電話：400-700-9596

　　金融寬客交流群：801860357

　　AQF考友群：760229148

　　微信公眾號(hào)：量化金融分析師

　　>>>返回首頁(yè)

作者：石川，北京量信投資管理有限公司創(chuàng)始合伙人，清華大學(xué)學(xué)士、碩士，麻省理工學(xué)院博士。知乎專(zhuān)欄:https://zhuanlan.zhihu.com/mitcshi。未經(jīng)授權(quán)，嚴(yán)禁轉(zhuǎn)載。