一、AQF研報摘要
卷積神經(jīng)網(wǎng)絡(luò)引領(lǐng)深度學(xué)習(xí)的發(fā)展,能夠運用于多因子選股
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是目前最為成熟的深度學(xué)習(xí)模型,是近年來人工智能蓬勃發(fā)展的重要推手之一,其主要特點是通過卷積和池化操作進行自動的特征提取和特征降維。本文首先通過原理分析給出了 CNN 運用于多因子選股的經(jīng)驗方法;然后在全 A 股票池內(nèi)對 CNN 的預(yù)測結(jié)果進行單因子測
試,其單因子測試結(jié)果相比對比模型具有良好表現(xiàn);本文還構(gòu)建了行業(yè)、市值中性全 A 選股策略并進行回測,CNN 在以中證 500 為基準(zhǔn)的全 A 選股測試中相比對比模型表現(xiàn)優(yōu)秀。
本文通過原理分析總結(jié)了卷積神經(jīng)網(wǎng)絡(luò)運用于多因子選股的經(jīng)驗方法
將卷積神經(jīng)網(wǎng)絡(luò)運用于多因子選股時,通過分析其工作原理,我們總結(jié)出以下經(jīng)驗:(1)股票因子數(shù)據(jù)可以組織成二維的“圖片”形式,這使得 CNN具有了時間序列學(xué)習(xí)的能力。(2)當(dāng)卷積核作用于股票因子數(shù)據(jù)時,本質(zhì)上是在進行因子合成,因此本文只使用了一層卷積層。(3)池化層是對因子數(shù)據(jù)的“模糊化”,這對體現(xiàn)因子的明確意義是不利的,因此本文未使用池化
層。(4)因子數(shù)據(jù)在“圖片”中的排列順序會影響到 CNN 的學(xué)習(xí)結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)合成因子的單因子測試具有良好表現(xiàn)
我們構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)、線性回歸三個模型,在2011-01-31 至 2019-1-31 的回測區(qū)間中分年度進行訓(xùn)練和測試,樣本空間為全 A 股。從單因子測試的角度來看,CNN 合成因子的 RankIC 均值為13.62%,因子收益率均值為 1.021%,略高于全連接神經(jīng)網(wǎng)絡(luò),也要高于線性回歸。在分五層測試中,CNN 合成因子的 TOP 組合年化收益率為20.05%,夏普比率為 0.72,信息比率為 4.04,多空組合的夏普比率為 4.84,表現(xiàn)都要優(yōu)于全連接神經(jīng)網(wǎng)絡(luò)和線性回歸。
卷積神經(jīng)網(wǎng)絡(luò)在以中證 500 為基準(zhǔn)的全 A 選股測試中表現(xiàn)優(yōu)秀
基于卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)和線性回歸,我們構(gòu)建了行業(yè)、市值中性全 A 選股策略并進行回測。在 2011-01-31 至 2019-1-31 的回測區(qū)間中,當(dāng)以滬深 300 為基準(zhǔn)時,兩種神經(jīng)網(wǎng)絡(luò)在年化超額收益率、信息比率和 Calmar 比率上的表現(xiàn)都不如線性回歸。當(dāng)以中證 500 為基準(zhǔn)時,CNN的 年 化 超 額 收益在 13.69%~16.38% 之 間 , 超 額 收 益 最 大 回 撤 在
4.80%~7.55%之間,信息比率在 2.29~2.56 之間,Calmer 比率在 2.16~2.85之間,CNN 在以上各項指標(biāo)上的表現(xiàn)都優(yōu)于另外兩個模型,全連接神經(jīng)網(wǎng)絡(luò)略優(yōu)于線性回歸。
卷積神經(jīng)網(wǎng)絡(luò)仍有進一步研究的空間
隨著 ImageNet 旗下的大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)連續(xù)數(shù)年的推動,卷積神經(jīng)網(wǎng)絡(luò)正在日新月異地進步中,還有諸多技術(shù)值得我們學(xué)習(xí)和嘗試,例如增大訓(xùn)練樣本數(shù)量的“數(shù)據(jù)增強”方法;ResNet 中的殘差學(xué)習(xí)方法;Inception 網(wǎng)絡(luò)中的多種尺寸卷積核混合的方法等等。此外,在高頻、海量的金融數(shù)據(jù)中使用 CNN 也是一個值得嘗試的方向。
二、研報結(jié)論和展望
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是目前發(fā)展最為成熟、投入研究力度最大的深度學(xué)習(xí)模型,是近年來人工智能蓬勃發(fā)展的重要推手之一。本文對 CNN 的原理和特色進行了介紹,并探討了如何使用 CNN 構(gòu)建人工智能選股模型。初步得出以下結(jié)論:
1. 卷積神經(jīng)網(wǎng)絡(luò)(CNN)是目前最為成熟的深度學(xué)習(xí)模型,是近年來人工智能蓬勃發(fā)展的重要推手之一,其主要特點是通過卷積和池化操作進行自動的特征提取和特征降維。把CNN 運用于多因子選股時,我們總結(jié)出以下經(jīng)驗:(1)股票因子數(shù)據(jù)可以組織成二維的“圖片”形式,這使得 CNN 具有了時間序列學(xué)習(xí)的能力。(2)當(dāng)卷積核作用于股票因子數(shù)據(jù)時,本質(zhì)上是在進行因子合成,因此本文只使用了一層卷積層。(3)池化層是對因子數(shù)據(jù)的“模糊化”,這對體現(xiàn)因子的明確意義是不利的,因此本文未使用池化層。(4)因子數(shù)據(jù)在“圖片”中的排列順序會影響到 CNN 的學(xué)習(xí)結(jié)果。
2. 我們構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)、線性回歸三個模型,在 2011-01-31 至2019-1-31 的回測區(qū)間中分年度進行訓(xùn)練和測試,樣本空間為全 A 股。從單因子測試的角度來看,CNN 合成因子的 RankIC 均值為 13.62%,因子收益率均值為 1.021%,略高于全連接神經(jīng)網(wǎng)絡(luò),也要高于線性回歸。在分五層測試中,CNN 合成因子的 TOP 組合年化收益率為 20.05%,夏普比率為 0.72,信息比率為 4.04,多空組合的夏普比率為 4.84,表現(xiàn)都要優(yōu)于全連接神經(jīng)網(wǎng)絡(luò)和線性回歸。
3. 基于卷積神經(jīng)網(wǎng)絡(luò)、全連接神經(jīng)網(wǎng)絡(luò)和線性回歸,我們構(gòu)建了行業(yè)、市值中性全 A 選股策略并進行回測。在 2011-01-31 至 2019-1-31 的回測區(qū)間中,當(dāng)以滬深 300 為基準(zhǔn)時,兩種神經(jīng)網(wǎng)絡(luò)在年化超額收益率、信息比率和 Calmer 比率上的表現(xiàn)都不如線性回歸。當(dāng)以中證 500 為基準(zhǔn)時,CNN 的年化超額收益在 13.69%~16.38%之間,超額收益最大回撤在 4.80%~7.55%之間,信息比率在 2.29~2.56 之間,Calmer 比率在 2.16~2.85 之間,CNN在以上各項指標(biāo)上的表現(xiàn)都優(yōu)于另外兩個模型,全連接神經(jīng)網(wǎng)絡(luò)略優(yōu)于線性回歸。
4. 隨著 ImageNet 旗下的大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)連續(xù)數(shù)年的推動,卷積神經(jīng)網(wǎng)絡(luò)正在日新月異地進步中,還有諸多技術(shù)值得我們學(xué)習(xí)和嘗試,例如增大訓(xùn)練樣本數(shù)量的“數(shù)據(jù)增強”方法;ResNet 中的殘差學(xué)習(xí)方法;Inception 網(wǎng)絡(luò)中的多種尺寸卷積核混合的方法等等。此外,在高頻、海量的金融數(shù)據(jù)中使用 CNN 也是一個值得嘗試的方向。
.png)
完善下表,48小時內(nèi)查收全套AQF備考資料
.jpg)
金程推薦: AQF培訓(xùn) AQF報名 AQF考試
AQF考試群:760229148
微信公眾號:量化金融分析師


.png)


