研報(bào)簡(jiǎn)介
研報(bào)標(biāo)題:20171024-民生證券-人工智能系列之一:機(jī)器學(xué)習(xí)量化投資實(shí)戰(zhàn)指南
券商:民生證券
發(fā)布時(shí)間:2017-10-24
作者:徐玉寧、馬自妍
類型:機(jī)器學(xué)習(xí)
系列:人工智能系列
內(nèi)容概要
本文系統(tǒng)講解了機(jī)器學(xué)習(xí)在AQF量化投資領(lǐng)域的應(yīng)用。人工智能包含了機(jī)器學(xué)習(xí)和深度學(xué)習(xí),而深度學(xué)習(xí)(如神經(jīng)網(wǎng)絡(luò))是機(jī)器學(xué)習(xí)的一個(gè)分支。常用庫(kù)有Python的scikit-learn和TensorFlow等。機(jī)器學(xué)習(xí)包括了下面三類:
>>>點(diǎn)擊咨詢Python金融實(shí)戰(zhàn)應(yīng)用
1) 監(jiān)督學(xué)習(xí):使用的是有標(biāo)簽數(shù)據(jù)構(gòu)建模型,訓(xùn)練后對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)
2) 無監(jiān)督學(xué)習(xí):使用的是無標(biāo)簽數(shù)據(jù)或總體分布不明顯的數(shù)據(jù),在沒有輸出標(biāo)量和反饋函數(shù)指導(dǎo)的情況下探索數(shù)據(jù)的整體結(jié)構(gòu)
3) 強(qiáng)化學(xué)習(xí):構(gòu)建一個(gè)可以與環(huán)境交互過程中提高性能的系統(tǒng)。AlphaGo是此類的成功應(yīng)用。
機(jī)器學(xué)習(xí)流程:
aqf011617
數(shù)據(jù)預(yù)處理:
缺失數(shù)據(jù)處理,如均值插補(bǔ)、中位數(shù)插補(bǔ)、眾數(shù)插補(bǔ)
類別數(shù)據(jù)處理:有序特征(大盤股為1,中盤股為2,小盤股為3)和標(biāo)稱特征(構(gòu)建虛擬特征/變量)
劃分?jǐn)?shù)據(jù)集:訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集
特征縮放:Min-Max歸一化(0~1)和標(biāo)準(zhǔn)化(均值為0,方差為1)。
模型評(píng)估與參數(shù)調(diào)優(yōu)
過擬合與欠擬合:
1) 欠擬合模型:訓(xùn)練準(zhǔn)確率和驗(yàn)證準(zhǔn)確率很低,說明是一個(gè)高偏差模型??梢酝ㄟ^增加參數(shù)數(shù)量、構(gòu)建額外特征、降低模型的正則化程度來改善
2) 過擬合模型:訓(xùn)練準(zhǔn)確率與驗(yàn)證準(zhǔn)確率之間有很大差距,是一個(gè)高方差模型。增加訓(xùn)練集樣本數(shù)、降低模型復(fù)雜度、特征提取、降維。
交叉驗(yàn)證:
目的:使模型在欠擬合(高偏差)和過擬合(高方差)之間找到較優(yōu)化平衡點(diǎn),有兩種驗(yàn)證方法:
1) Holdout 交叉驗(yàn)證:將模型劃分為訓(xùn)練數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集、測(cè)試數(shù)據(jù)集三個(gè)部分。驗(yàn)證集用來進(jìn)行對(duì)模型性能的評(píng)估
2) K 折交叉驗(yàn)證:使用無重復(fù)抽樣技術(shù),在k個(gè)訓(xùn)練數(shù)據(jù)子集上重復(fù)holdout方法k次。具有更好的魯棒性。
下面具體講監(jiān)督學(xué)習(xí)在量化投資中的應(yīng)用:
回歸——預(yù)測(cè)連續(xù)型目標(biāo)變量
1) 最小二乘法(OLS回歸):目標(biāo)是求誤差的最小平方和
2) 正則化方法:
i. 嶺回歸:在最小二乘的代價(jià)函數(shù)中加入權(quán)重的平方和
ii. LASSO回歸:在最小二乘的代價(jià)函數(shù)中加入權(quán)重絕對(duì)值的和
iii. 彈性網(wǎng)絡(luò):結(jié)合了嶺回歸和LASSO回歸的罰項(xiàng)
3) 評(píng)價(jià)回歸模型性能地方法:
i. 殘差圖:好的回歸模型的期望誤差隨機(jī)分布,殘差也隨機(jī)分布于中心線附近
ii. 均方誤差(MSE):即SSE的均值。可用于不同回歸模型的比較,參數(shù)調(diào)優(yōu)和交叉驗(yàn)
iii. 決定系數(shù)(R2):MSE的標(biāo)準(zhǔn)化版本,預(yù)測(cè)值的方差。
B. 分類——預(yù)測(cè)分組或標(biāo)簽
1) logistic 回歸:即sigmoid 函數(shù)
2) 支持向量機(jī)(SVM):監(jiān)督學(xué)習(xí)算法,用于分類和回歸。適合解決小樣本、非線性及高維模式識(shí)別
3) 決策樹:有很好的可解釋性。在每個(gè)節(jié)點(diǎn)選擇最大信息增益(IG)的特征對(duì)數(shù)據(jù)進(jìn)行劃分
4) 隨機(jī)森林:多顆決策樹的集成,有更好的魯棒性,一般不需要剪枝。
5) K-臨近算法(KNN):惰性學(xué)習(xí)算法,學(xué)習(xí)階段的計(jì)算成本為零
6) 神經(jīng)網(wǎng)絡(luò):由輸入層、中間隱藏層、輸出層構(gòu)成。采用反向傳播的訓(xùn)練機(jī)制,通過殘差的反向傳播調(diào)整權(quán)重,可以逼近任意函數(shù),能處理復(fù)雜的非線性關(guān)系,多用于處理分類問題
7) 深度學(xué)習(xí):逐層初始優(yōu)化避免傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的梯度擴(kuò)散問題。首先從底層逐層向頂層訓(xùn)練,再通過帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,誤差自頂向下傳播,對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)。
.png)
完善下表,48小時(shí)內(nèi)查收全套AQF備考資料
.jpg)
金程推薦: AQF考試 AQF報(bào)名 量化金融分析師
微信公眾號(hào):量化金融分析師
聲明▎更多內(nèi)容請(qǐng)關(guān)注微信號(hào)量化金融分析師。




