AQF量化分享丨本文為特許金融分析師CFA知識體系中量化相關章節(jié)的讀書筆記。內容如下:一、什么是機器學習;二、模型評價;三、監(jiān)督學習;四、非監(jiān)督學習;五、深度學習和強化學習~
一、什么是機器學習
機器學習 vs 統(tǒng)計學方法:
相同:從數(shù)據中提取信息的方法
不同:統(tǒng)計方差對數(shù)據分布做出假設,機器學習不對數(shù)據進行假設,直接從數(shù)據中提取信息
優(yōu)勢:機器學習能夠捕捉高度非線性的映射關系
劣勢:機器學習的結果通常難以解讀,模型容易產生過擬合的問題
機器學習算法分類:
監(jiān)督學習算法:
需要使用打標的數(shù)據(labeled data,已知輸出結果的樣本數(shù)據)建立輸入變量(特 征)和輸出變量(預測目標)之間的映射關系,使用樣本數(shù)據建立映射關系的過程稱為模型訓練,訓練好的模型可以用于對新數(shù)據產生的輸出結果(新數(shù)據的標簽)的預測。
問題分類:
分類問題:輸出變量為離散變量
回歸問題:輸出變量為連續(xù)變量
常用算法:
penalized regression
支持向量機
k近鄰
分類和回歸樹
集成學習
隨機森林
非監(jiān)督學習算法:
使用無標記數(shù)據,即輸入變量沒有已知的對應輸出結果,試圖找到數(shù)據的內部結構
問題分類:降維問題:減少特征數(shù)量、聚類問題
常用算法:主成分分析、k均值聚類、分級聚類(hierarchical clustering)
強化學習:
模型通過與自身產生的數(shù)據互動的過程中學習和優(yōu)化
模型選擇決策流程:

二、模型評價
數(shù)據劃分:
訓練數(shù)據:對模型進行訓練
驗證數(shù)據:對訓練好的模型進行檢驗和參數(shù)調整
測試數(shù)據:測試模型在新數(shù)據上的表現(xiàn)
泛化與過擬合:

學習曲線:訓練樣本數(shù)量與誤差的關系

擬合曲線:
模型復雜度與誤差的關系
偏差曲線與方差曲線相交的位置是模型在過擬合和欠擬合之間的平衡點

三、監(jiān)督學習
Penalized regression
Penalized regression適合解決特征數(shù)量大且相互間可能存在相關關系的問題
線性回歸通過最小化模型殘差平方和得到較優(yōu)系數(shù)組合,Penalized regression 在殘差平方和的基礎上增加對懲罰項,懲罰項的值隨著模型的參數(shù)增加而增加,因此貢獻大的參數(shù)能夠最終留在模型里
常用的Penalized regression:LASSO(least absolute shrinkage and selection operator) 回歸的懲罰如下,其中 lambda > 0:

注意:在 penalized regression 中,懲罰項只在模型訓練過程中使用,測試階段只根據殘差平方和評價模型
支持向量機:
二元線性分類器
目標是找到能夠將數(shù)據集分為兩類的較優(yōu)超平面,較優(yōu)超平面是與所有數(shù)據距離最遠的超平面
較優(yōu)超平面由兩個分組中與超平面距離最近的數(shù)據決定,這些數(shù)據稱為支持向量
現(xiàn)實問題中數(shù)據通常不能被超平面完美分類,兩種解決不完美分類的方法:
soft margin classification :在目標函數(shù)(通常是超平面與樣本數(shù)據的距離)中加入對錯誤分類的懲罰項
非線性支持向量機算法:可以減少錯誤分類的樣本數(shù)量,代價是增加特征,即增加模型的復雜度
適合中低維度的問題,不適合高緯度問題,對異常值和特征存在高相關性的問題容忍度更好
常用于文本分類和文本情感分析
K近鄰算法(KNN):
思路:根據與待預測數(shù)據相臨近的其他數(shù)據的類別判別新數(shù)據的屬性
非參數(shù)算法,即不對數(shù)據的分布特征進行假設
對完全無關的特征或特征之間存在相關性的情況非常敏感,因此需要仔細甄別特征,只保留最有價值的特征
在特征數(shù)量比較少的情況下效果更好
超參數(shù)K的值太小會導致結果對局部的異常值非常敏感,如果K太大又會導致臨近樣本的特征被大量數(shù)據的平均值淹沒,K值的確定通常要綜合考慮類別的數(shù)量和不同類別在數(shù)據中的占比。
分類和回歸樹(CART):
CART模型的每個節(jié)點代表一個特征和特征值分界點的組合,每個節(jié)點上特征和分界點的 選擇標準,是使得分類誤差最小化
當進一步的分裂不能顯著改善數(shù)據集內部的分組誤差時停止分裂,節(jié)點成為終端節(jié)點。
對于分類問題,終端節(jié)點數(shù)據集的屬性由大多數(shù)數(shù)據的屬性決定;對于回歸問題,終端節(jié)點的數(shù)據值由節(jié)點數(shù)據集的平均值決定
CART也是非參數(shù)算法,即不對數(shù)據分布特征進行假設
無限深度的樹能夠實現(xiàn)對數(shù)據的完全分類,但為了限制過擬合,通常會對數(shù)據的復雜度進行限制
限制樹的最大深度
限制每個節(jié)點的最小樣本數(shù)量
限制總的節(jié)點數(shù)量
對完全分類樹進行剪枝操作
同一特征可以在節(jié)點分類規(guī)則中多次出現(xiàn)
CART可以解釋特征中非常復雜的依賴關系
模型結果容易理解和解釋
集成學習和隨機森林:
集成學習:綜合多個模型的預測結果,以減少單個模型中的噪音對預測的影響
集成學習的分類:
將異質的學習算法通過投票的方式結合起來,比如多數(shù)投票分類器,邏輯基礎是大數(shù)定理,集成模型的有效性依賴與單個模型間相互獨立的假設.
在不同的數(shù)據集上訓練同質的算法,比如bootstrap aggregating(bagging) :
(1)從原始數(shù)據集中通過有放回的抽樣,產生n個新的自數(shù)據集,對每個子數(shù)據集單獨訓練模型,通過多數(shù)投票或對解決進行平均的方法得到集成模型的預測結果
(2)有助于提高模型穩(wěn)定性,減少過擬合
(3)隨機森林是bagging方法產生的集成模型,使用bagging產生的自數(shù)據集和部分特征對單一決策樹進行訓練,通過多數(shù)投票得到最終預測結果。缺點是喪失了單一決策樹容易解釋的特點
四、非監(jiān)督學習
主成分分析:
高維特征數(shù)據的問題:
難以可視化
特征之間存在相關性
主成分分析是通過對特征的協(xié)方差矩陣進行轉換,將多個存在相關性的特征轉化為幾個不存在相關性個成分變量
關鍵概念:(1)特征向量:定義了新的彼此不存在相關關系的成分變量,成分變量是原始特征的現(xiàn)行組合 (2) 特征值:每個特征變量對應一個特征值,特征值反映了對應的特征向量能夠解釋的原始數(shù)據方差的比例
主成分分析法是對特征值進行排序,選取最大的幾個特征值對應的特征向量
主成分的方向是能夠最小化總投影誤差和最大化數(shù)據之間總的離散距離的方向
主成分方向互相之間相互垂直,因此不存在相關性
選擇能夠解釋85%-95%總體方差的主成分數(shù)量
缺點是結果的可解釋性差
聚類算法
聚類算法的目標是根據數(shù)據之間的相似性將數(shù)據分組,使得分組內部的數(shù)據盡可能相似, 分組之間的差異盡可能大
聚類算法的缺點是聚類結果難以評估
K均值聚類:
K 代表類別數(shù)量,是算法的超參數(shù),需要在訓練之前決定
樣本數(shù)據會根據其與每個類別中心的距離比較結果確定所屬類別,類別的中心最初為隨機產生,在迭代過程中用每個類別內部數(shù)據的平均值更新類別中心
當所有數(shù)據所屬類別不再發(fā)生改變以后(完成收斂)停止迭代
優(yōu)點:速度快,可以處理量樣本數(shù)據
缺點:(1)最終分組收到初始類別中心的影響,解決辦法,隨機產生初始位置,多次進行聚類,結合使應用經驗選擇最終模型(2)超參數(shù)需要依據主觀經驗確定,解決辦法,對超參數(shù)進行比較尋優(yōu),選擇能夠最大化分組間差異的K值,但最終結果仍具有主觀性并且收到數(shù)據集的影響
分級聚類:
通過迭代的方法產生有層級的類別,類別之間存在包含關系
相比K均值聚類的計算量更大
但分級的結果可以讓研究人員自行決定使用模型的顆粒度
算法分類:(1)聚合聚類:相比分解聚類速度更快;從考慮小群落開始,因此更適合需要識別小群落的問題 (2)分解聚類:從考慮整體數(shù)據結構開始,因此更適合需要識別大群落的問題
類別之間的距離是通過比較兩個類別中所有樣本數(shù)據之間的直線距離得到的
將分級聚類可視化的方法:dendrogram
五、深度學習和強化學習
神經網絡:
可以用于分類或回歸問題,可以是監(jiān)督學習或非監(jiān)督學習
關鍵概念:
(1)網絡結構:每個層次包含若干節(jié)點(神經元):輸入層、 隱含層、 輸出層
(2)節(jié)點:連結節(jié)點的輸入數(shù)據和輸出數(shù)據 。求和操作:根據不同節(jié)點的權重對輸入值進行加權求和 。激活函數(shù):對節(jié)點求和結果進行非線性映射
(3)權重:不同層次的節(jié)點間通過權重聯(lián)系。神經網絡訓練的目標,是找到能夠最小化網絡整體誤差的權重組合
網絡層次越多,節(jié)點越多,網絡結構越復雜,需要更多數(shù)據進行訓練
能夠處理更復雜的問題,容易產生過擬合的問題
深度神經網絡是有很多個隱含層的神經網絡
強化學習:
強化學習使用的是沒有標簽的數(shù)據
關鍵概念:agent在嘗試不同action的過程中與環(huán)境互動,根據來自環(huán)境的反饋學習經驗,
agent:可以認為是一個需要訓練的機器
action:可選擇的行動
environment:agent運行的外部條件
reward:行動的結果
強化學習的訓練過程是不斷試錯的過程
量化金融分析師(簡稱AQF,Analyst of Quantitative Finance)由量化金融標準委員會(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領域的專業(yè)水平證書。 >>>點擊咨詢AQF證書含金量
.png)
課程適合人群:
金融工程/數(shù)學專業(yè)背景的同學/工作人士,希望進一步學習Python編程以及在量化投資的實戰(zhàn)應用;
非金融工程專業(yè)背景的同學/工作人士,希望迅速成為寬客;
金融相關人員,希望學習如何系統(tǒng)的做量化策略;
個人投資者,希望系統(tǒng)學習掌握量化投資相關的實務技能,從模型開發(fā),回測,策略改進,搭建穩(wěn)定的量化交易系統(tǒng)。
(點擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎》
主要涵蓋了量化投資領域的必備知識,包括:基本面分析、技術分析、數(shù)量分析、固定收益、資產組合管理、權益、另類投資等內容。
2、《Python語言編程基礎》
包含了Python環(huán)境搭建、基礎語法、變量類型、基本函數(shù)、基本語句、第三方庫、金融財務實例等內容。旨在為金融財經人提供最需要的編程方法。
3、《基于Python的經典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對交易模型、波動擴張模型、Alpha模型、機器學習(隨機森林模型、主成分分析)、深度學習(人工神經網絡)等內容。
4、《量化交易系統(tǒng)設計》
旨在學習量化交易系統(tǒng)的具體知識,包括過濾器,進入信號,退出信號,倉位管理等詳細內容,并指導學員設計涵蓋個人交易哲學的量化交易系統(tǒng)。
5、《量化實盤交易》
旨在為解決實際量化交易策略搭建過程中的一些問題提供較優(yōu)解決方案。 >>>點擊咨詢AQF相關問題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國主要金融市場及交易產品的交易機制;
2、熟知國內外期貨交易、股市交易的異同點和內在運行機制;
3、掌握經典量化交易策略細節(jié)及其背后的交易哲學;
4、掌握金融、編程和建模知識基礎,擁有量化交易實盤操作能力;
5、具備獨立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設計的基本框架,以及風險管理和資產組合理論的實際運用;
7、掌握從策略思想——策略編寫——策略實現(xiàn)餓完整量化投資決策過程;具備量化投資實戰(zhàn)交易能力。
.png)
更多內容推薦閱讀:
2019年量化金融分析師(AQF)全國統(tǒng)一考試報名簡章
Wind、Excel和Python三大金融技能兼修,下一個金融分析大神就是你
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號:量化金融分析師
完善下表,48小時內查收aqf備考資料
(如果沒收到資料,可以點我咨詢)


.jpg)
.png)


