報(bào)告摘要
本文測試了多種數(shù)據(jù)標(biāo)注方法以及集成模型,XGBR-Combine 表現(xiàn)較好
將機(jī)器學(xué)習(xí)運(yùn)用于多因子選股時(shí),不同的數(shù)據(jù)標(biāo)注結(jié)果(數(shù)據(jù)標(biāo)簽)會(huì)使得模型得出不同的訓(xùn)練和預(yù)測結(jié)果。本文使用隨機(jī)數(shù)種子+多次測試的手段,研究對比了分類和回歸、使用夏普比率作為標(biāo)簽、使用信息比率作為標(biāo)簽以及使用 Calmar 比率作為標(biāo)簽的方法,回測表現(xiàn)整體符合預(yù)期。最后,我們將不同數(shù)據(jù)標(biāo)注方法訓(xùn)練的模型進(jìn)行等權(quán)集成得到模型XGBR-Combine,該模型在回測中表現(xiàn)最為全面。
本文使用了隨機(jī)數(shù)種子+多次測試的方法來驗(yàn)證數(shù)據(jù)標(biāo)注方法的有效性
在機(jī)器學(xué)習(xí)模型的訓(xùn)練過程中,會(huì)有各種各樣的步驟給模型帶來隨機(jī)性,如果本文僅對一系列數(shù)據(jù)標(biāo)注方法進(jìn)行單次測試,那么所得出的結(jié)果未必具有說服力。此時(shí)有必要進(jìn)行多次對比測試來獲得統(tǒng)計(jì)意義上的“確定結(jié)果”。在多次測試中,可以對模型設(shè)置不同的隨機(jī)數(shù)種子,使得每次測試中模型的預(yù)測都有一定差別,最后我們統(tǒng)計(jì)對比模型構(gòu)建策略的相應(yīng)指標(biāo)的分布情況,就能得到更具有說服力的結(jié)果。
本文對比了 XGBoost 分類和回歸的測試結(jié)果,回歸整體表現(xiàn)更好
本文對比了全A股票池中,XGBoost 分類(XGBC)和回歸(XGBR)的選股效果。單因子回歸和 IC 測試中,XGBR 只在 RankIC 均值上稍低于 XGBC,其他指標(biāo)表現(xiàn)都比 XGBC 要好。單因子分層測試的 TOP 組合中 XGBC 和XGBR 的各項(xiàng)回測指標(biāo)比較接近。本文還構(gòu)建了相對于中證 500 的行業(yè)、市值中性全 A 選股策略并進(jìn)行回測,XGBR 相比 XGBC 在信息比率上有穩(wěn)定優(yōu)勢。在其他指標(biāo)上,XGBR 和 XGBC 的表現(xiàn)不相上下。整體來看,XGBoost 回歸的表現(xiàn)更好。
本文還測試了另外三種數(shù)據(jù)標(biāo)注方法,回測表現(xiàn)整體符合預(yù)期
本文還在全 A 股票池中測試了另外三種數(shù)據(jù)標(biāo)注方法,使用夏普比率作為標(biāo)簽的模型(XGBR-Sharpe),使用信息比率作為標(biāo)簽的模型(XGBR-IR)以及使用 Calmar 比率作為標(biāo)簽的模型(XGBR-Calmar)。整體來看,在對應(yīng)的測試中,XGBR-Sharpe 比 XGBR 的夏普比率更高,XGBR-IR 比 XGBR 的信息比率更高,XGBR-Calmar 比 XGBR 的 Calmar 比率更高。三種數(shù)據(jù)標(biāo)注方法的回測表現(xiàn)和它們各自所設(shè)定的學(xué)習(xí)目標(biāo)相匹配,結(jié)果整體符合預(yù)期。
本文將不同數(shù)據(jù)標(biāo)注方法訓(xùn)練的模型進(jìn)行等權(quán)集成,回測表現(xiàn)最為全面
機(jī)器學(xué)習(xí)領(lǐng)域中可以采用模型等權(quán)集成的方式以充分體現(xiàn)不同模型的優(yōu)點(diǎn) 。 我們將XGBR,XGBR-IR,XGBR-Calmar 三個(gè)模型集成得到XGBR-Combine 并構(gòu)建了相對于中證 500 的行業(yè)、市值中性全 A 選股策略,回測結(jié)果中,XGBR-Combine 綜合了三個(gè)基模型的優(yōu)點(diǎn),在年化超額收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表現(xiàn)較好,在超額收益最大回撤(3.83%~8.79%)、Calmar 比率(2.13~3.87)上也有不錯(cuò)的表現(xiàn)。同時(shí),XGBR-Combine 的以上 4 個(gè)回測指標(biāo)的標(biāo)準(zhǔn)差都比較小,說明其在多次測試中受隨機(jī)性的干擾程度最小,表現(xiàn)最為穩(wěn)定。
報(bào)告結(jié)論
在機(jī)器學(xué)習(xí)中,如何為訓(xùn)練樣本進(jìn)行數(shù)據(jù)標(biāo)注是一個(gè)非常重要的話題。由于數(shù)據(jù)標(biāo)注的結(jié)果(數(shù)據(jù)標(biāo)簽)會(huì)直接作用于監(jiān)督學(xué)習(xí)的目標(biāo)函數(shù),因此不同的數(shù)據(jù)標(biāo)注方法會(huì)使得監(jiān)督學(xué)習(xí)得出不同的訓(xùn)練和預(yù)測結(jié)果。結(jié)合機(jī)器學(xué)習(xí)在多因子選股中的運(yùn)用,本文列出了各種數(shù)據(jù)標(biāo)注方法并進(jìn)行系統(tǒng)的測試,得出以下結(jié)論:
1.在機(jī)器學(xué)習(xí)模型的訓(xùn)練過程中,會(huì)有各種各樣的步驟給模型帶來隨機(jī)性,如果本文僅對一系列數(shù)據(jù)標(biāo)注方法進(jìn)行單次測試,那么所得出的結(jié)果未必具有說服力。此時(shí)有必要進(jìn)行多次對比測試來獲得統(tǒng)計(jì)意義上的“確定結(jié)果”。在多次測試中,可以對模型設(shè)置不同的隨機(jī)數(shù)種子,使得每次測試中模型的預(yù)測都有一定差別,最后我們統(tǒng)計(jì)對比模型構(gòu)建策略的相應(yīng)指標(biāo)的分布情況,就能得到更具有說服力的結(jié)果。
2.本文對比了全 A 股票池中,XGBoost 分類(XGBC)和回歸(XGBR)的選股效果。單因子回歸和 IC 測試中,XGBR 只在 RankIC 均值上稍低于 XGBC,其他指標(biāo)表現(xiàn)都比XGBC 要好。單因子分層測試的 TOP 組合中 XGBC 和 XGBR 的各項(xiàng)回測指標(biāo)比較接近。本文還構(gòu)建了相對于中證 500 的行業(yè)、市值中性全 A 選股策略并進(jìn)行回測,XGBR 相比 XGBC 在信息比率上有穩(wěn)定優(yōu)勢。在其他指標(biāo)上,XGBR 和 XGBC 的表現(xiàn)不相上下。整體來看,XGBoost 回歸的表現(xiàn)更好。
3.本文還在全 A 股票池中測試了另外三種數(shù)據(jù)標(biāo)注方法,使用夏普比率作為標(biāo)簽的模型(XGBR-Sharpe),使用信息比率作為標(biāo)簽的模型(XGBR-IR)以及使用 Calmar 比率作為標(biāo)簽的模型(XGBR-Calmar)。整體來看,在對應(yīng)的測試中,XGBR-Sharpe 比 XGBR的夏普比率更高,XGBR-IR 比 XGBR 的信息比率更高,XGBR-Calmar 比 XGBR 的Calmar 比率更高。三種數(shù)據(jù)標(biāo)注方法的回測表現(xiàn)和它們各自所設(shè)定的學(xué)習(xí)目標(biāo)相匹配,結(jié)果整體符合預(yù)期。
4.機(jī)器學(xué)習(xí)領(lǐng)域中可以采用模型等權(quán)集成的方式以充分體現(xiàn)不同模型的優(yōu)點(diǎn)。我們將XGBR,XGBR-IR,XGBR-Calmar 三個(gè)模型集成得到 XGBR-Combine 并構(gòu)建了相對于中證 500 的行業(yè)、市值中性全 A 選股策略,回測結(jié)果中,XGBR-Combine 綜合了三個(gè)基模型的優(yōu)點(diǎn),在年化超額收益率(14.74%~18.22%)、信息比率(2.28~3.39)上都表現(xiàn)較好,在超額收益最大回撤(3.83%~8.79%)、Calmar 比率(2.13~3.87)上也有不錯(cuò)的表現(xiàn)。同時(shí),XGBR-Combine 的以上 4 個(gè)回測指標(biāo)的標(biāo)準(zhǔn)差都比較小,說明其在多次測試中受隨機(jī)性的干擾程度最小,表現(xiàn)最為穩(wěn)定。>>>點(diǎn)擊咨詢機(jī)器學(xué)習(xí)入門
.jpg)
.jpg)
金程推薦: AQF就業(yè)前景 AQF證書含金量 AQF量化金融分析師年薪
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號(hào):量化金融分析師




