AQF量化解析,機(jī)器學(xué)習(xí)因子構(gòu)建以及有效性分析。歡迎閱讀全文~
◢ Part I ◣ 人工智能與量化投資
人工智能從自誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大,金融領(lǐng)域也是將其改革的一大領(lǐng)域。談到人工智能機(jī)器學(xué)習(xí),大家最忌諱的便是黑箱問題,其實(shí)不必,理解機(jī)器學(xué)習(xí)算法,邏輯實(shí)則簡(jiǎn)單,比如相同的因子特征將會(huì)有相同的表現(xiàn),以此簡(jiǎn)單的邏輯,我們實(shí)證中發(fā)現(xiàn)效果比較顯著。人工智能機(jī)器人將能夠自動(dòng)生成研究報(bào)告替代分析師,發(fā)明策略替代主動(dòng)基金經(jīng)理進(jìn)行投資等等,雖然這些目前來說不太普及,不是很成熟,但機(jī)器學(xué)習(xí)人工智能作為工具,為我們提高工作效率是毫無疑問的,并且隨著技術(shù)的發(fā)展,金融領(lǐng)域?qū)⒖赡苡瓉眍嵏残缘母母铩?/p>
本文主要嘗試分類算法在投資中的運(yùn)用,所以在此把文中涉及的分類算法都進(jìn)行簡(jiǎn)單介紹。
一、相關(guān)分類算法概述
1) Logistic
Logistic回歸是研究二分類觀察結(jié)果與一些影響因素之間關(guān)系的一種多變量分析方法。通常的問題是,研究某些因素條件下某個(gè)結(jié)果是否發(fā)生。根據(jù)線性回歸可以預(yù)測(cè)連續(xù)的值,對(duì)于分類問題,我們需要輸出0或者1。
2) Knn
鄰近算法,或者說K最近鄰(kNN,k-NearestNeighbor)分類算法是數(shù)據(jù)挖掘分類技術(shù)中最簡(jiǎn)單的方法之一。所謂K最近鄰,就是k個(gè)最近的鄰居的意思,說的是每個(gè)樣本都可以用它最接近的k個(gè)鄰居來代表。kNN算法的核心思想是如果一個(gè)樣本在特征空間中的k個(gè)最相鄰的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,并具有這個(gè)類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時(shí),只與極少量的相鄰樣本有關(guān)。通常情況下,k的取值為樣本數(shù)量的開方。
3) AdaBoost
Adaboost是一種迭代算法,其核心思想是針對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構(gòu)成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器)。其算法本身是通過改變數(shù)據(jù)分布來實(shí)現(xiàn)的,它根據(jù)每次訓(xùn)練集之中每個(gè)樣本的分類是否正確,以及上次的總體分類的準(zhǔn)確率,來確定每個(gè)樣本的權(quán)值。將修改過權(quán)值的新數(shù)據(jù)集送給下層分類器進(jìn)行訓(xùn)練,最后將每次訓(xùn)練得到的分類器最后融合起來,作為最后的決策分類器。使用adaboost分類器可以排除一些不必要的訓(xùn)練數(shù)據(jù)特征,并放在關(guān)鍵的訓(xùn)練數(shù)據(jù)上面。
4) Svm
使用SVM算法的思路:(1)簡(jiǎn)單情況,線性可分情況,把問題轉(zhuǎn)化為一個(gè)凸優(yōu)化問題,可以用拉格朗日乘子法簡(jiǎn)化,然后用既有的算法解決;(2)復(fù)雜情況,線性不可分,用核函數(shù)將樣本投射到高維空間,使其變成線性可分的情形,利用核函數(shù)來減少高緯度計(jì)算量。
5) 樸素貝葉斯
貝葉斯定理也稱貝葉斯推理,早在18世紀(jì),英國(guó)學(xué)者貝葉斯(1702~1763)曾提出計(jì)算條件概率的公式用來解決如下一類問題:假設(shè)B[1],B[2]…,B[n]互斥且構(gòu)成一個(gè)完全事件,已知它們的概率P(B[i]),i=1,2,…,n,現(xiàn)觀察到某事件A與B[1],B[2]…,B[n]相伴隨機(jī)出現(xiàn),且已知條件概率P(A/B[i]),求P(B[i]/A)。樸素貝葉斯即特征條件相互獨(dú)立。
6) 決策樹
決策樹主要步奏(ID3):1.對(duì)當(dāng)前例子集合,計(jì)算屬性的信息增益;2.選擇信息增益最大的屬性Ai;3.把在Ai處取值最大的例子歸于Ai子集,Ai有幾個(gè)屬性就有幾個(gè)子集;4.對(duì)依次對(duì)每種取值情況下的子集,遞歸調(diào)用建樹算法,即返回1;5.若子集只含有單個(gè)屬性,則分支為葉子節(jié)點(diǎn),判斷其屬性值并標(biāo)上相應(yīng)的符號(hào),然后返回調(diào)用處。其中,1)信息熵其實(shí)是信息量的期望。2)熵:表示隨機(jī)變量的不確定性。3)信息增益:在一個(gè)條件下,信息不確定性減少的程度。
7) 隨機(jī)森林
隨機(jī)森林顧名思義,是用隨機(jī)的方式建立一個(gè)森林,森林里面有很多的決策樹組成,隨機(jī)森林的每一棵決策樹之間是沒有關(guān)聯(lián)的。在得到森林之后,當(dāng)有一個(gè)新的輸入樣本進(jìn)入的時(shí)候,就讓森林中的每一棵決策樹分別進(jìn)行一下判斷,看看這個(gè)樣本應(yīng)該屬于哪一類(對(duì)于分類算法),然后看看哪一類被選擇最多,就預(yù)測(cè)這個(gè)樣本為那一類。
二、各分類算法的是與非
本文中,我們主要使用了七大分類算法進(jìn)行個(gè)股打分分類,這七大算法基本涵蓋了目前主流的比較成熟的傳統(tǒng)機(jī)器學(xué)習(xí)分類算法,當(dāng)我們實(shí)際使用時(shí),可能會(huì)比較困惑,或者不知道哪個(gè)分類算法更適合我們,為此,我們把各大分類算法進(jìn)行梳理。
首先,考慮一個(gè)算法是否符合我們的需求,我們需要明確自己的使用環(huán)境,我們的訓(xùn)練樣本的數(shù)量如何?特征空間的維數(shù)如何?我們的分類是否是線性可分離呢?各因子特征是否相互獨(dú)立?過度擬合是否將成為一個(gè)問題?對(duì)我們的系統(tǒng)在速度、性能、內(nèi)存占用方面要求如何?對(duì)我們自己的需求有了個(gè)完整的了解之后,我們才可選擇合適的算法。以下是各大分類算法的優(yōu)與缺,是與非。
1) Logistic
邏輯回歸是一種具有很好表現(xiàn)的分類算法,它抗噪聲干擾能力強(qiáng),并且你可以通過使用l2和l1正則化的方法來對(duì)特征進(jìn)行選擇從而避免過度擬合。適合當(dāng)你需要一個(gè)概率框架(例如,通過簡(jiǎn)單的調(diào)整分類閾值,來得知不確定區(qū)間或置信區(qū)間confidence intervals)或者如果你希望將來能在訓(xùn)練集中加入更多的數(shù)據(jù)并很快的融入你的模型。缺點(diǎn):1、容易欠擬合,一般準(zhǔn)確度不太高;2、只能處理兩分類問題,且必須線性可分。
2) Knn
思路簡(jiǎn)單,理論成熟,既可以用來做分類也可以用來做回歸,可用于非線性分類,訓(xùn)練時(shí)間復(fù)雜度為O(n),準(zhǔn)確度高,對(duì)數(shù)據(jù)沒有假設(shè),對(duì)outlier不敏感。缺點(diǎn)是計(jì)算量大,消耗很多內(nèi)存,因?yàn)橐鎯?chǔ)所有的實(shí)例,對(duì)低維空間效果更好,不適合高維空間。當(dāng)樣本不平衡時(shí),如一個(gè)類的樣本容量很大,而其他類樣本容量很小時(shí),有可能導(dǎo)致當(dāng)輸入一個(gè)新樣本時(shí),該樣本的K個(gè)鄰居中大容量類的樣本占多數(shù)。該算法只計(jì)算“最近的”鄰居樣本,某一類的樣本數(shù)量很大,那么或者這類樣本并不接近目標(biāo)樣本,或者這類樣本很靠近目標(biāo)樣本,可以采用權(quán)值的方法(和該樣本距離小的鄰居權(quán)值大)來改進(jìn)。樣本容量較小的類域采用這種算法比較容易產(chǎn)生誤分。
3) AdaBoost
Adaboost是一種有很高精度的分類器,容易實(shí)現(xiàn),分類準(zhǔn)確率較高,沒有太多參數(shù)可以調(diào),不會(huì)過擬合,可以使用各種方法構(gòu)建子分類器,Adaboost算法提供的是框架,當(dāng)使用簡(jiǎn)單分類器時(shí),計(jì)算出的結(jié)果是可以理解的。而且弱分類器構(gòu)造極其簡(jiǎn)單,不用做特征篩選,不用擔(dān)心overfitting(過度擬合)。缺點(diǎn)是容易受到噪聲干擾,這也是大部分算法的缺,訓(xùn)練時(shí)間過長(zhǎng),執(zhí)行效果依賴于弱分類器的選擇,對(duì)outlier比較敏感。
4) svm
原始的SVM只比較擅長(zhǎng)處理二分類問題,可用于線性/非線性分類,也可以用于回歸;低泛化誤差;容易解釋;計(jì)算復(fù)雜度較低。Support Vector Machines (SVMs) 使用與LR不同的損失函數(shù)(Hinge)。他們的解釋也不相同(最大間距)。實(shí)際上,一個(gè)使用線性核的SVM與前面介紹的邏輯回歸沒有太大的區(qū)別。使用SVM代替邏輯回歸的主要原因是因?yàn)槟愕膯栴}可能不是線性可分的。這種情況下,你可能必須要使用一個(gè)SVM并且使用一個(gè)非線性的核(例如,RBF)。實(shí)際上,邏輯回歸同樣可以使用不同的核,但是重點(diǎn)是你可能在實(shí)際使用中發(fā)現(xiàn)SVM更好用。另一個(gè)使用SVM的原因是如果你的數(shù)據(jù)是在一個(gè)高維空間中。高精度、對(duì)過擬合有較好的理論保證,并且使用一個(gè)合適的核可以得到較好的效果,甚至你的數(shù)據(jù)在特征空間里不是線性可分的。特別是在高維空間的像文本識(shí)別的問題中效果好。SVMs的主要缺點(diǎn)是它的費(fèi)勁、低效率的訓(xùn)練過程,對(duì)參數(shù)和核函數(shù)的選擇比較敏感,當(dāng)你有很多訓(xùn)練樣本時(shí),我不推薦你使用SVM來處理。
5) Nbayes(樸素貝葉斯)
表現(xiàn)簡(jiǎn)單,不能做豐富的假設(shè),相互獨(dú)立的屬性的假設(shè)限制太多,不能學(xué)習(xí)不同特征之間的相互作用。如果假設(shè)的Nbayes條件相互獨(dú)立性成立,那樸素貝葉斯比其他辨別模型如邏輯回歸要快,你只需要較少的訓(xùn)練數(shù)據(jù)即可。并且即使假設(shè)條件不成立,樸素貝葉斯分類器在實(shí)際使用中也通常有較好的效果。如果你的訓(xùn)練集很小,高偏離/低方差的分類器(例如,樸素貝葉斯)比低偏離/高方差的分類器(如,KNN-K近鄰)有著很大的優(yōu)勢(shì),因?yàn)楹笳呷菀走^擬合。但是低偏離/高方差的分類器隨著你的訓(xùn)練集的增大變得越來越有優(yōu)勢(shì)(他們有很小的漸近誤差),因?yàn)楦咂x的分類器不能提供高精度的模型。
6) 決策樹
決策樹模型可讀性好,理解和解釋起來簡(jiǎn)單,具有描述性,有助于人工分析;效率高,決策樹只需要一次構(gòu)建,反復(fù)使用,每一次預(yù)測(cè)的最大計(jì)算次數(shù)不超過決策樹的深度。決策樹模型可以想象,需要準(zhǔn)備的數(shù)據(jù)量不大,決策樹算法的時(shí)間復(fù)雜度(即預(yù)測(cè)數(shù)據(jù))是用于訓(xùn)練決策樹的數(shù)據(jù)點(diǎn)的對(duì)數(shù),使用白盒模型,如果給定的情況是在一個(gè)模型中觀察到的,該條件的解釋很容易解釋的布爾邏輯,可能使用統(tǒng)計(jì)檢驗(yàn)來驗(yàn)證模型,這是為了驗(yàn)證模型的可靠性。
缺點(diǎn)是決策樹算法學(xué)習(xí)者可以創(chuàng)建復(fù)雜的樹,但是沒有推廣依據(jù),這就是所謂的過擬合,為了避免這種問題,出現(xiàn)了剪枝的概念,即設(shè)置一個(gè)葉子結(jié)點(diǎn)所需要的最小數(shù)目或者設(shè)置樹的最大深度,決策樹的結(jié)果可能是不穩(wěn)定的,因?yàn)樵跀?shù)據(jù)中一個(gè)很小的變化可能導(dǎo)致生成一個(gè)完全不同的樹,這個(gè)問題可以通過使用集成決策樹來解決,有一些概念是很難的理解的,因?yàn)闆Q策樹本身并不難很輕易的表達(dá)它們,比如說異或校驗(yàn)或復(fù)用的問題,決策樹學(xué)習(xí)者很可能在某些類占主導(dǎo)地位時(shí)創(chuàng)建有有偏異的樹,因此建議用平衡的數(shù)據(jù)訓(xùn)練決策樹。
7) 隨機(jī)森林
隨機(jī)森林是建立在決策樹的基礎(chǔ)上,決策樹在分類時(shí)是選擇所有變量,而隨機(jī)森林則是產(chǎn)生很多決策樹,然后每根決策樹選擇不同的變量,進(jìn)行分析,最后選取決策樹中的眾數(shù),作為最終結(jié)果。優(yōu)點(diǎn)可以作用在高維數(shù)據(jù)中,具有很好的抗干擾能力,可以并行處理等。與邏輯回歸相比有不同的優(yōu)勢(shì)。一個(gè)主要的優(yōu)勢(shì)就是它們不期望線性的特征或者相互之間有線性作用的特征。我在講邏輯回歸時(shí)沒有提到的一點(diǎn)是,邏輯回歸能很好的應(yīng)對(duì)二值得特征(即絕對(duì)的特性,要么零,要么一)。
隨機(jī)森林里因?yàn)橛性S多的決策樹組成,可以很好的處理連續(xù)型的特征。其它的主要優(yōu)點(diǎn)是,因?yàn)樗慕Y(jié)構(gòu)組成(使用裝袋或加速),這類算法可以很好的處理高緯空間的大數(shù)量的訓(xùn)練樣本。隨機(jī)森林在處理很多分類問題時(shí)效果更好可能會(huì)過擬合,可能會(huì)陷入局部最小值的情況,所以需要集(ensembles)來幫助降低變量,另一缺點(diǎn)是可能有很多相似的決策樹,掩蓋了真實(shí)的結(jié)果,對(duì)小數(shù)據(jù)或者底維數(shù)據(jù)可能不能產(chǎn)生較好的分類執(zhí)行數(shù)據(jù),雖然比bossting等快,但比單只決策樹慢多了。
◢ Part II ◣ 策略概述
一、機(jī)器學(xué)習(xí)因子構(gòu)建
Step1:以傳統(tǒng)的成長(zhǎng)因子,盈利因子,財(cái)務(wù)因子,市場(chǎng)因子,估值和規(guī)模因子等最近歷史12個(gè)月(即滾動(dòng)一年)為特征值。
Step2:把未來一期個(gè)股收益的大小排序,選取排名前30%的作為強(qiáng)勢(shì)股,標(biāo)簽為1,選取排名靠后30%的作為弱勢(shì)股,標(biāo)簽為0。
Step3:用knn,Logistic,svm等七大機(jī)器學(xué)習(xí)分類算法進(jìn)行訓(xùn)練預(yù)測(cè)。
Step4:用最新一期因子作為特征輸入,通過機(jī)器學(xué)習(xí)算法預(yù)測(cè)得到個(gè)股未來一期相對(duì)強(qiáng)勢(shì)值,即機(jī)器學(xué)習(xí)因子。
Step5:分別在全市場(chǎng)、等市值中(按市值大小分20小組)、行業(yè)內(nèi)部進(jìn)行了訓(xùn)練預(yù)測(cè)。
1、數(shù)據(jù)預(yù)處理
a.沒滿一年的新股不進(jìn)行機(jī)器學(xué)習(xí)因子計(jì)算:因?yàn)樾枰米罱鼩v史一年的數(shù)據(jù)作為訓(xùn)練。
b.對(duì)于缺失值,用平均值代替,當(dāng)缺失達(dá)到10%,則該因子丟棄。
c. z-score標(biāo)準(zhǔn)化,要求原始數(shù)據(jù)的分布可以近似為高斯分布,否則效果不好。
對(duì)a_value,turnover_1等這一類不不符合高斯分布因子,需要用ln(t1/t0)(同一個(gè)股當(dāng)期與上期比值的對(duì)數(shù))進(jìn)行處理,才近似高斯分布。但對(duì)sec_return_1,MACD等這一類變化率等相關(guān)因子,直接用原始值便可以,因?yàn)樗麄儽旧硪呀?jīng)近似符合正態(tài)分布。
預(yù)處理之所有沒有處理掉極值和去掉漲跌停個(gè)股因子,原因是因?yàn)榇颂幹皇怯?xùn)練特征,而不是最終選股。再次,我們所選的因子是經(jīng)過人工核對(duì)的,基本沒有太多相似性,故也沒有降維這一步。
2、中性化處理
中性化處理我們包含二層含義,一是市值中性化,二是行業(yè)中性化。
首先,我們都知道,市值因子對(duì)個(gè)股的影響十分顯著,如果不考慮市值帶來的干擾,則我們的策略可能被市值因子帶來嚴(yán)重的影響。為此,我們市值分成20組,分別在不同市值組各選取20%作為策略多頭與空頭,使多頭與空頭有相同的市值分布,以消除市值可能帶來的影響。
其次,眾所周知,不同行業(yè),因子特征可能差異明顯,放在一起可能不具備可比性。為了去除行業(yè)帶來的影響,我們也分別在不同行業(yè)選取20%作為我們的空頭與多頭,使多頭與空頭保持同樣的行業(yè)暴露,以消除行業(yè)帶來的影響。
二、策略計(jì)算
在進(jìn)行策略計(jì)算時(shí),考慮了以下幾種情況:
a. 當(dāng)期單個(gè)因子在全市場(chǎng)缺失達(dá)40%時(shí),則該因子丟棄,不進(jìn)行計(jì)算。
b. 調(diào)倉(cāng)當(dāng)天停牌,漲停,跌停個(gè)股剔除。
c. 新股一個(gè)月之內(nèi)不能作為候選股(上市小于20個(gè)交日)。
在20090105到20171231期間,我們分別進(jìn)行了全市場(chǎng)選股,市值中性選股,行業(yè)中性選股,五種情況表現(xiàn)如下:
相關(guān)說明:
1) 所用因子:全市場(chǎng)訓(xùn)練得到的個(gè)股未來相對(duì)強(qiáng)勢(shì)值。
2) L/S:全市場(chǎng)選股多空收益差凈值。相對(duì)強(qiáng)勢(shì)值排名靠前20%作為多頭,相對(duì)強(qiáng)勢(shì)值排名后20%作為空頭。
3) aL/Se:市值等權(quán)多空收益差凈值。分20小組,分別在組內(nèi)選前20%作為多頭,后20%作為空頭,最后各組等權(quán)。
4) aL/Sw:市值加權(quán)多空收益差凈值。分20小組,分別在組內(nèi)選前20%作為多頭,后20%作為空頭,最后各組以市值組權(quán)重加權(quán)得到多空組合。
5) iL/Se:行業(yè)等權(quán)多空收益差凈值。在中信一級(jí)行業(yè),分別在行業(yè)內(nèi)選前20%作為多頭,后20%作為空頭,最后各行業(yè)以等權(quán)到多空組合。
6) iL/Sw:行業(yè)加權(quán)多空收益差凈值。在中信一級(jí)行業(yè),分別在行業(yè)內(nèi)選前20%作為多頭,后20%作為空頭,最后各行業(yè)以滬深300行業(yè)內(nèi)權(quán)重加權(quán)得到多空組合。
注:以下相關(guān)標(biāo)記同。
◢ Part III ◣ 結(jié)論分析
一、AdaBoost、knn最穩(wěn)定,Bayes表現(xiàn)較好
經(jīng)過實(shí)證研究,logistic,knn,AdaBoost,svm,Nbayes,隨機(jī)森林,決策樹七大分類算法表現(xiàn)雖然總體來說比較接近,但差別也比較明顯,以下是實(shí)證得到的多空收益差表現(xiàn)。

.jpg)
.jpg)





結(jié)論與我們分析的基本一致。Adaboost是一種有很高精度的分類器,容易實(shí)現(xiàn),分類準(zhǔn)確率較高,沒有太多參數(shù)可以調(diào),不會(huì)過擬合,KNN雖然計(jì)算量大,但準(zhǔn)確度也高,對(duì)outlier不敏感。 所以Adaboost與knn分類得到的結(jié)果比較穩(wěn)定,在收益年化10%以上的算法中,在全市場(chǎng)選股,市值中性選股等權(quán)加權(quán),行業(yè)中性選股等權(quán)加權(quán)五種情況下,AdaBoost與knn算法年化波動(dòng)率基本在5%左右,表現(xiàn)非常穩(wěn)定。
而樸素貝葉斯只需要較少的訓(xùn)練數(shù)據(jù)即可有比較優(yōu)秀的表現(xiàn),在本研究中,我們以一年為周期,訓(xùn)練數(shù)據(jù)量相對(duì)較小,且雖然樸素貝葉斯要求特征相互獨(dú)立,但即使假設(shè)條件不成立也能有比較好的表現(xiàn),故樸素貝葉斯表現(xiàn)較好,年化收益分別達(dá)到15.50%,15.75%,12.89%,15.63%,10.23%。決策樹容易過擬合,分類結(jié)果不穩(wěn)定,精確度較低,表現(xiàn)最差,所以決策樹表現(xiàn)不佳,年化收益基本在3%左右,而隨機(jī)森林是建立在決策樹的基礎(chǔ)上,決策樹在分類時(shí)是選擇所有變量,而隨機(jī)森林則是產(chǎn)生很多決策樹,然后每根決策樹選擇不同的變量,進(jìn)行分析,最后選取決策樹中的眾數(shù),作為最終結(jié)果,所以表現(xiàn)比單個(gè)決策樹好,但分類本質(zhì)還是決策樹,故不如別的分類算法。
二、人工智能有比較快速的自適應(yīng)調(diào)整能力
七大分類算法中,我們分別計(jì)算出其月度IC(即每個(gè)月因子排序與未來期個(gè)股收益排序的相關(guān)系數(shù)),統(tǒng)計(jì)各年度IC平均值,發(fā)現(xiàn)分類算法中除了決策樹以外,其余算法得到的機(jī)器學(xué)習(xí)因子對(duì)個(gè)股未來收益皆有比較顯著的相關(guān)性,且年度月IC均值都大于為0,表示正相關(guān)性非常穩(wěn)定。




20090105到20171231期間,logistic,knn,AdaBoost,svm,Nbayes五大算法任何一年的月度平均IC均大于0;其中,樸素貝葉斯期間月度平均IC較高,達(dá)到5.88%,且年度月度平均IC幾乎都大于6%,logistic近一半的年份平均IC等于8%左右,期間所有月度平均IC為5.31%。而決策樹期間月度平均IC最低,為0.36%且所有年度月度平均IC均小于1%,說明預(yù)測(cè)性相對(duì)較差,幾乎沒有關(guān)聯(lián)性。
動(dòng)態(tài)的訓(xùn)練中,人工智能模型能夠快速的調(diào)整以適應(yīng)市場(chǎng)。以2017年logistic市值中性等權(quán)為例,前幾個(gè)月IC幾乎為負(fù),但在后半年,模型迅速反應(yīng),IC基本為本,且該年度平均月度IC依舊達(dá)到正的1.49%。
三、全市場(chǎng)訓(xùn)練明顯優(yōu)于市值中性或行業(yè)中性
前面講道過,我們訓(xùn)練分3種情況,即在全市場(chǎng)、等市值中(按市值大小分20小組)、行業(yè)內(nèi)部進(jìn)行了訓(xùn)練,分別得到相關(guān)的機(jī)器學(xué)習(xí)因子。以下我們分析哪種訓(xùn)練效果比較好。

相關(guān)說明如下:
1) 行業(yè)內(nèi)訓(xùn)練因子等權(quán):表示該因子為中信一級(jí)行業(yè)內(nèi)訓(xùn)練得到;在中信一級(jí)行業(yè),分別在行業(yè)內(nèi)選前20%作為多頭,后20%作為空頭,最后各行業(yè)以等權(quán)得到多空組合。
2) 全市場(chǎng)訓(xùn)練因子等權(quán):表示該因子為全市場(chǎng)訓(xùn)練得到;在中信一級(jí)行業(yè),分別在行業(yè)內(nèi)選前20%作為多頭,后20%作為空頭,最后各行業(yè)以等權(quán)得到多空組合。
3) 行業(yè)內(nèi)訓(xùn)練因子加權(quán):表示該因子為中信一級(jí)行業(yè)內(nèi)訓(xùn)練得到;在中信一級(jí)行業(yè),分別在行業(yè)內(nèi)選前20%作為多頭,后20%作為空頭,最后各行業(yè)以滬深300行業(yè)內(nèi)權(quán)重加權(quán)得到多空組合。
4) 全市場(chǎng)訓(xùn)練因子加權(quán):表示該因子為全市場(chǎng)訓(xùn)練得到;在中信一級(jí)行業(yè),分別在行業(yè)內(nèi)選前20%作為多頭,后20%作為空頭,最后各行業(yè)以滬深300行業(yè)內(nèi)權(quán)重加權(quán)得到多空組合。

相關(guān)說明如下:
1)等市值內(nèi)訓(xùn)練因子等權(quán):表示該因子為全市場(chǎng)按市值大小排序后分20小組,在組內(nèi)訓(xùn)練得到;在20小組內(nèi),分別選前20%作為多頭,后20%作為空頭,最后各小組以等權(quán)得到多空組合。
2)全市場(chǎng)訓(xùn)練因子等權(quán):表示該因子為全市場(chǎng)訓(xùn)練得到;在20小組內(nèi),分別選前20%作為多頭,后20%作為空頭,最后各小組以等權(quán)得到多空組合。
3)等市值內(nèi)訓(xùn)練因子加權(quán):表示該因子為全市場(chǎng)按市值大小排序后分20小組,在組內(nèi)訓(xùn)練得到;在20小組內(nèi),分別選前20%作為多頭,后20%作為空頭,最后以各小組市值加權(quán)得到多空組合。
4)全市場(chǎng)訓(xùn)練因子加權(quán):表示該因子為全市場(chǎng)訓(xùn)練得到;在20小組內(nèi),分別選前20%作為多頭,后20%作為空頭,最后以各小組市值加權(quán)得到多空組合。
從以上結(jié)果分析,可以看到,分別在全市場(chǎng)、等市值組、行業(yè)內(nèi)部進(jìn)行了訓(xùn)練預(yù)測(cè)。在市值中性情況下,全市場(chǎng)訓(xùn)練得到的因子明顯優(yōu)于市值內(nèi)部訓(xùn)練的因子;在行業(yè)中性情況下,全市場(chǎng)訓(xùn)練得到的因子亦優(yōu)于行業(yè)內(nèi)部訓(xùn)練得到的因子。我覺得原因有二點(diǎn):一是同市值或者同行業(yè),因子特征相對(duì)不太明顯;二是分組后,樣本明顯減少,導(dǎo)致訓(xùn)練不夠充分,降低了區(qū)分度。
四、機(jī)器學(xué)習(xí)因子相關(guān)性較高
為了考察這七大類因子的相關(guān)性,我們分別統(tǒng)計(jì)了各自之間的相關(guān)系數(shù)及協(xié)方差矩陣。

從相關(guān)系數(shù)矩陣可以看到,所有的相關(guān)系數(shù)皆為正,說明七大分類算法都是正相關(guān),但除了決策樹和隨機(jī)森林,其它五大算法logistic,knn,AdaBoost,svm,樸素貝葉斯相關(guān)系數(shù)基本是60%以上,說明這五大算法相關(guān)性非常高,也說明這五大算法分類得到的結(jié)論比較一致,這也間接證明了這幾大算法分類的正確性。
從協(xié)方差矩陣也可以看出,所有的協(xié)方差皆為正,也說明七大分類算法都是正相關(guān)。
五、機(jī)器學(xué)習(xí)因子單調(diào)性十分顯

從前面知道,幾大分類算法相關(guān)性非常高,所以此處以logistic算法為代表,來展示機(jī)器學(xué)習(xí)因子的單調(diào)性。我們把機(jī)器學(xué)習(xí)訓(xùn)練得到的個(gè)股相對(duì)強(qiáng)勢(shì)值進(jìn)行排序,按大小分成5組,發(fā)現(xiàn)排名靠前的小組明顯優(yōu)于排名靠后的小組,且單調(diào)性十分顯著。20090105到20171231,前二組年化收益在25%以上,而第四組收益不到20%,最后一組收益不到10%。
◢ Part IV ◣ 總結(jié)展望
人工智能從自誕生以來,理論和技術(shù)日益成熟,應(yīng)用領(lǐng)域也不斷擴(kuò)大,金融領(lǐng)域也是將其改革的一大領(lǐng)域。談到人工智能機(jī)器學(xué)習(xí),大家最忌諱的便是黑箱問題,其實(shí)不必,理解機(jī)器學(xué)習(xí)算法,邏輯實(shí)則簡(jiǎn)單,比如相同的因子特征將會(huì)有相同的表現(xiàn),以此簡(jiǎn)單的邏輯,我們實(shí)證中發(fā)現(xiàn)效果比較顯著。人工智能機(jī)器人將能夠自動(dòng)生成研究報(bào)告替代分析師,發(fā)明策略替代主動(dòng)基金經(jīng)理進(jìn)行投資等等,雖然這些目前來說不太普及,不是很成熟,但機(jī)器學(xué)習(xí)人工智能作為工具,為我們提高工作效率是毫無疑問的,并且隨著技術(shù)的發(fā)展,金融領(lǐng)域?qū)⒖赡苡瓉眍嵏残缘母母铩?/p>
談到機(jī)器學(xué)習(xí),大家最忌諱的便是黑箱問題。其實(shí)不必,理解機(jī)器學(xué)習(xí)算法,邏輯實(shí)則簡(jiǎn)單,比如相同的因子特征將會(huì)有相同的表現(xiàn)。在實(shí)戰(zhàn)中,我們發(fā)現(xiàn),該邏輯十分有效,在我們的機(jī)器學(xué)習(xí)選股模型中,首先構(gòu)建機(jī)器學(xué)習(xí)因子,然后根據(jù)個(gè)股的相對(duì)強(qiáng)勢(shì)即機(jī)器學(xué)習(xí)因子,我們把排名靠前20%的作為多頭,排名后20%的作為空頭進(jìn)行回測(cè);進(jìn)一步,我們把相對(duì)強(qiáng)勢(shì)分成5組,以考察這一指標(biāo)的單調(diào)性,發(fā)現(xiàn)效果十分顯著。同樣,為了去除市值和行業(yè)的影響,我們也分別測(cè)試了市值中性及行業(yè)中性的情況下的表現(xiàn)。
人工智能有比較快速的自適應(yīng)調(diào)整能力
七大分類算法中,我們分別計(jì)算出其月度IC(即每個(gè)月因子排序與未來期個(gè)股收益排序的相關(guān)系數(shù)),統(tǒng)計(jì)各年度IC平均值,發(fā)現(xiàn)分類算法中除了決策樹以外,其余算法得到的機(jī)器學(xué)習(xí)因子對(duì)個(gè)股未來收益皆有比較顯著的相關(guān)性,且年度月IC均值都大于為0,表示正相關(guān)性非常穩(wěn)定。
>>>點(diǎn)擊了解量化金融分析師AQF實(shí)訓(xùn)項(xiàng)目
人全市場(chǎng)訓(xùn)練明顯優(yōu)于市值中性或行業(yè)中性
分別在全市場(chǎng)、等市值組、行業(yè)內(nèi)部進(jìn)行了訓(xùn)練預(yù)測(cè)。在市值中性情況下,全市場(chǎng)訓(xùn)練得到的因子明顯優(yōu)于市值內(nèi)部訓(xùn)練的因子;在行業(yè)中性情況下,全市場(chǎng)訓(xùn)練得到的因子亦優(yōu)于行業(yè)內(nèi)部訓(xùn)練得到的因子。我覺得原因有二點(diǎn):一是同市值或者同行業(yè),因子特征相對(duì)不太明顯;二是分組后,樣本明顯減少,導(dǎo)致訓(xùn)練不夠充分,降低了區(qū)分度。
機(jī)器學(xué)習(xí)因子相關(guān)性較高
從相關(guān)系數(shù)矩陣可以看到,所有的相關(guān)系數(shù)皆為正,說明七大分類算法都是正相關(guān),但除了決策樹和隨機(jī)森林,其它五大算法logistic,knn,AdaBoost,svm,樸素貝葉斯相關(guān)系數(shù)基本是60%以上,說明這五大算法相關(guān)性非常高,也說明這五大算法分類得到的結(jié)論比較一致,這也間接證明了這幾大算法分類的正確性。
從協(xié)方差矩陣也可以看出,所有的協(xié)方差皆為正,也說明七大分類算法都是正相關(guān)。
機(jī)器學(xué)習(xí)因子單調(diào)性十分顯著
從前面知道,幾大分類算法相關(guān)性非常高,所以此處以logistic算法為代表,來展示機(jī)器學(xué)習(xí)因子的單調(diào)性。我們把機(jī)器學(xué)習(xí)訓(xùn)練得到的個(gè)股相對(duì)強(qiáng)勢(shì)值進(jìn)行排序,按大小分成5組,發(fā)現(xiàn)排名靠前的小組明顯優(yōu)于排名靠后的小組,且單調(diào)性十分顯著。20090105到20171231,前二組年化收益在25%以上,而第四組收益不到20%,最后一組收益不到10%。
.png)
完善下表,48小時(shí)內(nèi)查收全套AQF備考資料
.jpg)
金程推薦: AQF培訓(xùn) AQF考試 AQF報(bào)名
AQF考友群:760229148
微信公眾號(hào):量化金融分析師


.png)


