關于AQF小編今天來給大家分享一些新手們在量化投資中應該要注意的幾個錯誤區(qū),可能有些新手在操作的時候就算犯了這些錯誤都不知道,所以小編今天就來跟大家說一下。
1、幸存者偏差(Survivorship bias)
幸存者偏差是投資者面對的很普遍問題之一,而且很多人都知道幸存者偏差的存在,但很少人重視它所產生的效果。我們在回測的時候傾向于只使用當前尚存在的公司,這就意味我們剔除了那些因為破產、重組而退市的公司的所產生的影響。
在對歷史數(shù)據(jù)進行調整時,一些破產、退市、表現(xiàn)不佳的股票定期都會被剔除。而這些被剔除的股票沒有出現(xiàn)在你策略的股票池里,也就是說對過去做了回測時只利用了現(xiàn)在成分股的信息,剔除了那些在未來因為業(yè)績或者股價表現(xiàn)不好而被剔除出成分股中股票的影響。
也就是說當我們使用過去30年中表現(xiàn)很好的那些公司進行回測時,即便一些公司當時的信用風險高,當你知道誰會幸存下來時,于是在信用風險高或者陷入困境時買入,收益非常高。若考慮進那些破產、退市、表現(xiàn)不佳的股票后,結論則會完全相反,投資高信用風險企業(yè)的收益率長期遠低于信用穩(wěn)健的企業(yè)。
2、前視偏差(Look-ahead bias)
作為“七宗罪”之一的幸存者偏差是我們站在過去的時點上無法預知哪些公司能幸存下來并依舊是今天的指數(shù)成分股,而幸存者偏差僅僅是前視偏差的一種特例。前視偏差是指在回測時,使用了回測當時還不可用或者還沒有公開的數(shù)據(jù),這也是回測中很常見的錯誤。
前視偏差的一個很明顯的例子就體現(xiàn)在財務數(shù)據(jù)上,而對財務數(shù)據(jù)的修正則更容易造成難以發(fā)現(xiàn)的錯誤。一般來說,每個公司財務數(shù)據(jù)發(fā)布的時間點不同,往往存在滯后。而在回測時我們往往根據(jù)每個公司數(shù)據(jù)發(fā)布的時間點去評估公司財務狀況。
但是,當時點數(shù)據(jù)(Point-in-time data,簡稱PIT data)不可獲得時,財務報告的滯后假設往往是錯誤的。
在我們進行回測的時間點,終值往往尚無可知,只能使用初始值進行分析??赡苡行┤苏J為微小的修正并不會影響結論,但實際情況顯示:很多宏觀數(shù)據(jù)根據(jù)初值進行回歸結果并不顯著,公司財務數(shù)據(jù)的調整將對選股結果產生直接影響。
(15).jpg)
3、講故事(The sin of storytelling)
一些人喜歡沒有任何數(shù)據(jù)就開始講故事,做量化的人喜歡拿著數(shù)據(jù)和結果講故事。兩種情況有很多類似之處,擅長講故事的人或者說擅長解釋數(shù)據(jù)結果的人往往在得到數(shù)據(jù)之前,內心已經存在既定的腳本,只需要找到數(shù)據(jù)支撐即可。
回顧1997年-2000年和2000年-2002年兩段時間的美國科技成分股和Russell 3000指數(shù),我們會發(fā)現(xiàn)一個截然相反的結論。從1997-2000年間的美國科技成分股來看,利潤率是一個很好的因子,且回測結果也十分可信,然而如果拉長時間區(qū)間到2002年,我們會發(fā)現(xiàn)利潤率指標不再是一個好的因子。
但從Russell 3000指數(shù)的市場表現(xiàn)來看,我們卻得到了相反的結論,利潤率指標仍然是一個有效的因子,可見,股票池的選取和回測的時間長短對因子的有效性判斷影響非常大。所以講故事的人并不能得到正確的結論。
市場中每天都在發(fā)現(xiàn)新的“好因子”,尋找永動機。能夠發(fā)布出來的策略都是回測表現(xiàn)良好的。雖然講故事的人對歷史的解釋非常動聽,但其對未來的預測幾乎沒用。
金融經濟中的相關性和因果性往往很難弄得清楚明白,所以,當我們做出和常識相?;蚴呛驮瓉砼袛嘞喾慕Y果時,盡可能不要去做一名講故事的人。
所以一些量化金融分析師新手們在操作量化投資的時候一定要有數(shù)據(jù)支撐。
4、數(shù)據(jù)挖掘(Data mining and data snooping)
數(shù)據(jù)挖掘可以說是目前備受關注的領域,基于海量的數(shù)據(jù)與計算機的算力支持,人們往往希望能夠得到難以察覺的“好因子”。但是原有的金融數(shù)據(jù)還未及海量,且交易數(shù)據(jù)并不滿足“低噪音”的數(shù)據(jù)前提。
有時數(shù)據(jù)挖掘幾乎是無效的。因此,在構建策略或者尋找“好因子”時,我們都應該有清晰的邏輯和動機,量化分析只是驗證自己的邏輯或動機的一種工具,而不是尋找邏輯的捷徑。一般而言,我們構建策略或尋找因子的動機多源于金融學基礎理論知識、市場的有效性、行為金融學等領域。當然,我們也并不否認數(shù)據(jù)挖掘在量化領域的應用價值。
5、信號衰減、換手率、交易成本
信號衰減指的是一個因子產生后對未來多長時間的股票回報有預測能力。一般來說,高換手率和信號衰減有關。不同的股票選擇因子往往具有不同的信息衰減特征。越快的信號衰減往往需要更高的換手率去攫取收益。
然而,更高的換手率往往也意味著更高的交易成本。在組合構建中添加換手率約束是一個相對簡單的方法,但并不是理想的方法,因為換手率限制有時會幫助我們鎖定收益,有時也會損害既定的組合表現(xiàn)。因此,權衡信號衰減、交易成本以及模型預測能力是構建投資組合的關鍵。
那么,如何確定好的調整頻率呢?我們需要注意的是,收緊換手率約束并不意味著降低調整頻率。例如,我們常常聽到類似“我們是長期價值投資者,我們預期持有股票3-5年。
因此,我們一年調整一次即可”。但是,信息往往來的很快,我們需要及時調整我們的模型和預期。即使我們的換手率約束很緊,我們仍然需要在適當時機加快調倉頻率。下圖以一個衰減速度很快的因子的極端案例為例進行說明。
當每天收盤時買入當天表現(xiàn)很差的100個股票,賣出過去的持倉,持續(xù)每日交易,回報率非常高。這里的錯誤也是前視偏差,還沒收盤我們并不知道當天哪些股票表現(xiàn)是很差的,即使用程序化交易,這種策略也是不可行。我們只能以每天開盤價買入昨天表現(xiàn)很差的100個股票。通過對比,以開盤價買入的策略幾乎一條直線。
6、異常值(Outliers)
傳統(tǒng)的異常值控制技術主要包括winsorization和truncation兩種,數(shù)據(jù)的標準化也可近似看做異常值控制的方法之一,標準化技術有可能對模型的表現(xiàn)產生顯著的影響。比如下圖中的標普BMI韓國指數(shù)成分股的利潤率,采用平均值、剔除1%、2%極值等方法的結果差異很大。宏觀數(shù)據(jù)中經常出現(xiàn)此類問題,少數(shù)極值若不做預處理,會嚴重影響回歸結果。
雖然異常值有可能包含著有用的信息,但是大部分情況來看,他們并不包含有用信息。當然,對于價格動量因子來說是例外。
7、非對稱性
一般來說,做多因子策略時較常用的策略是多空策略,即做多好的股票同時做空差的股票??上У氖?,并不是所有的因子都是平等的,多數(shù)因子的多空收益特征存在不對稱性,加之做空可能存在的成本和現(xiàn)實可行性,也給量化投資造成了不小的困擾。
.jpg)




