Key Topics:
Data analysis project
Preparing and wrangling data
Data exploration
Model training
Text-based data for financial forecasting
Selecting features from textual data
Fit of machine learning algorithms
一、機(jī)器學(xué)習(xí)建模流程

二、數(shù)據(jù)準(zhǔn)備和預(yù)處理

三、數(shù)據(jù)探索目標(biāo)和方法

數(shù)據(jù)探索的目標(biāo):了解數(shù)據(jù)的分布情況和數(shù)據(jù)之前的關(guān)系。
結(jié)構(gòu)化數(shù)據(jù)探索:
探索性分析:方便快速了解和溝通數(shù)據(jù)
描述性統(tǒng)計(jì)
中心趨勢(shì)度量
統(tǒng)計(jì)圖
數(shù)據(jù)表
其他可視化工具:熱力圖、詞云
統(tǒng)計(jì)檢驗(yàn)
特征選擇:選擇和問(wèn)題相關(guān)的特征,減少特征數(shù)量有助于降低模型復(fù)雜度
刪除與問(wèn)題無(wú)關(guān)的特征
刪除冗余特征:重復(fù)或存在多重共線性的特征
常用方法:卡方檢驗(yàn)、相關(guān)性系數(shù)、信息增益
特征工程:通過(guò)對(duì)已有特征進(jìn)行轉(zhuǎn)化或分解形成新特征
取對(duì)數(shù)
分類:將一個(gè)特征內(nèi)部的數(shù)據(jù)進(jìn)行分類
聚合:通過(guò)多個(gè)特征合成一個(gè)新特征
分解:將一個(gè)特征分解為多個(gè)特征,比如使用 one hot encoding 技術(shù)
文本數(shù)據(jù)探索
文本數(shù)據(jù)的常見(jiàn)應(yīng)用:
文本分類
話題建模
欺詐識(shí)別
情感分析
文本數(shù)據(jù)的探索性分析:
詞頻統(tǒng)計(jì)
關(guān)聯(lián)詞分析
詞語(yǔ)和句子的平均長(zhǎng)度
詞和短語(yǔ)出現(xiàn)的頻次
文本數(shù)據(jù)的特征選擇:降低特征和模型復(fù)雜度,提升模型訓(xùn)練效率
文本數(shù)據(jù)的特征選擇的結(jié)果是一些特征詞
噪音特征是對(duì)模型訓(xùn)練沒(méi)有幫助的特征,噪音特征的篩除是影響文本學(xué)習(xí)效果的重要步驟
文本中最常出現(xiàn)的詞和最少出現(xiàn)的詞都可能成為噪音特征 文本數(shù)據(jù)特征選擇:
(1)詞頻和文本頻率
詞頻:篩除所有文本中出現(xiàn)頻率較高和最低的詞
文本頻率:一個(gè)詞的文本平率是包含這個(gè)詞的文本數(shù)量與總文本數(shù)量之間的比值
頻率方法在詞匯數(shù)量很大時(shí)(幾千或者上萬(wàn))效果比較好
(2)卡方檢驗(yàn):
使用卡方檢驗(yàn)檢測(cè)一個(gè)詞的出現(xiàn)與?本類別之間的相關(guān)性
通過(guò)每個(gè)詞的卡方統(tǒng)計(jì)值對(duì)詞的重要程度進(jìn)行排序,卡方值高的詞與某個(gè)類別有更顯著的相關(guān)性,因此可以作為模型學(xué)習(xí)的特征
(3)互信息:
互信息衡量的一個(gè)詞對(duì)某個(gè)類別的貢獻(xiàn)程度。
一個(gè)詞的互信息如果為0,說(shuō)明它在所有文章中的分布都是相同的。
一個(gè)詞的互信息如果為1,說(shuō)明它只在一個(gè)類別的文章中出現(xiàn)的頻率非常高
文本數(shù)據(jù)的特征工程:
(1)數(shù)字:將代表不同類型的數(shù)字進(jìn)?進(jìn)?步劃分
(2)N-gram:多詞聯(lián)合模式的分析
(3)名稱實(shí)體識(shí)別
(4)語(yǔ)法成分分析
四、模型訓(xùn)練

機(jī)器學(xué)習(xí)模型訓(xùn)練的基本思想,是用一系列規(guī)則去擬合訓(xùn)練數(shù)據(jù)已,以解釋數(shù)據(jù)中存在的一些規(guī)律。
導(dǎo)致模型擬合誤差的主要因素:
樣本數(shù)據(jù)量:小樣本容易導(dǎo)致模型欠擬合,因?yàn)樾颖究赡茈y以放映總體數(shù)據(jù)的規(guī)律
特征數(shù)量:
特征數(shù)量少容易導(dǎo)致模型欠擬合,特征太少可能不足以解釋因變量發(fā)生的變化
特征數(shù)量多容易導(dǎo)致模型過(guò)擬合,特征多意味著模型更復(fù)雜
模型選擇
根據(jù)任務(wù)特征選擇模型:
有標(biāo)簽數(shù)據(jù):監(jiān)督學(xué)習(xí)
無(wú)標(biāo)簽數(shù)據(jù):非監(jiān)督學(xué)習(xí)
根據(jù)數(shù)據(jù)類型選擇模型:
數(shù)值數(shù)據(jù):CART
文本數(shù)據(jù):廣義線性模型或者支持向量機(jī)
圖形數(shù)據(jù)和語(yǔ)音數(shù)據(jù):神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)
根據(jù)數(shù)據(jù)量(樣本數(shù)量和特征數(shù)量)選擇模型:
大量特征但樣本數(shù)量有限的問(wèn)題可以使用支持向量機(jī)
神經(jīng)網(wǎng)絡(luò)適合樣本數(shù)量遠(yuǎn)高于特征數(shù)量的問(wèn)題
對(duì)樣本不均衡問(wèn)題,可以采用對(duì)小樣本過(guò)采樣或?qū)Υ髽颖厩凡蓸拥姆椒ㄆ胶獗壤?/p>
模型效果評(píng)價(jià)(主要針對(duì)二元分類問(wèn)題)

誤差分析:
(1)混淆矩陣:
(2)精確度:precision (P) = TP / (TP + FP) = TP / all predicted positive
(3)召回率/敏感度:
recall (R) = TP / (FN + TP) = TP / all real positive
當(dāng)?shù)诙愬e(cuò)誤的成本高昂時(shí),召回率是主要的關(guān)注指標(biāo)
準(zhǔn)確率:accuracy = (TP + TN) / (TP + TN + FP + FN)
F1 得分:F1 = (2*P*R) / (P + R),適合于在樣本類別不均衡的場(chǎng)景下使用,能夠綜合衡量精確度和召回率

Receiver Operating Characteristic(ROC):
(1)ROC是用來(lái)反映 true positive rate 和 false positive rate 之間制約關(guān)系的工具
TPR = TP / (TP + FN)
FPR = FP / (TN + FP)
(2)根據(jù)ROC曲線形狀衡量模型表現(xiàn),凸性更強(qiáng)的模型表現(xiàn)更好
(3)也可以用AUC(ROC曲線下包圍的面積)衡量模型表現(xiàn)
AUC越接近1說(shuō)明模型表現(xiàn)越好
AUC=0.5 是隨機(jī)猜測(cè)的情況下得到的 AUC值
均方根誤差(RMSE):
(1)適用于回歸問(wèn)題和輸出結(jié)果為連續(xù)數(shù)據(jù)的問(wèn)題
(2)均方根誤差越小模型表現(xiàn)越好

參數(shù)調(diào)優(yōu)
參數(shù)調(diào)優(yōu)的目的是改善模型的預(yù)測(cè)結(jié)果
樣本內(nèi)預(yù)測(cè)誤差?說(shuō)明模型欠擬合,可以考慮增加模型復(fù)雜度
樣本外預(yù)測(cè)誤差明顯高于樣本內(nèi)預(yù)測(cè)誤差說(shuō)明模型存在過(guò)擬合,可以降低模型復(fù)雜度
偏差和方差的平衡是尋找較優(yōu)模型平衡點(diǎn)的關(guān)鍵
參數(shù)和超參數(shù):
參數(shù)是模型訓(xùn)練過(guò)程中不斷優(yōu)化得到的,依賴于訓(xùn)練數(shù)據(jù),比如回歸模型中的回歸系數(shù), 神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)連接權(quán)重,支持向量機(jī)中的支持相等等
超參數(shù)是在模型訓(xùn)練之前由研究人員確定的,不依賴于訓(xùn)練數(shù)據(jù),比如監(jiān)督學(xué)習(xí)中的正則系數(shù),神經(jīng)網(wǎng)絡(luò)中的激活函數(shù)和隱含層數(shù)量,集成學(xué)習(xí)中決策樹(shù)的數(shù)量和深度,KNN或kmean算法中k的取值等。超參數(shù)的優(yōu)化:
(1)網(wǎng)格搜索法
(2)擬合曲線:不同超參數(shù)所對(duì)應(yīng)的樣本內(nèi)和樣本外誤差構(gòu)成的曲線

量化金融分析師(簡(jiǎn)稱AQF,Analyst of Quantitative Finance)由量化金融標(biāo)準(zhǔn)委員會(huì)(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書(shū)。 >>>點(diǎn)擊咨詢AQF證書(shū)含金量
.png)
課程適合人群:
金融工程/數(shù)學(xué)專業(yè)背景的同學(xué)/工作人士,希望進(jìn)一步學(xué)習(xí)Python編程以及在量化投資的實(shí)戰(zhàn)應(yīng)用;
非金融工程專業(yè)背景的同學(xué)/工作人士,希望迅速成為寬客;
金融相關(guān)人員,希望學(xué)習(xí)如何系統(tǒng)的做量化策略;
個(gè)人投資者,希望系統(tǒng)學(xué)習(xí)掌握量化投資相關(guān)的實(shí)務(wù)技能,從模型開(kāi)發(fā),回測(cè),策略改進(jìn),搭建穩(wěn)定的量化交易系統(tǒng)。
(點(diǎn)擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎(chǔ)》
主要涵蓋了量化投資領(lǐng)域的必備知識(shí),包括:基本面分析、技術(shù)分析、數(shù)量分析、固定收益、資產(chǎn)組合管理、權(quán)益、另類投資等內(nèi)容。
2、《Python語(yǔ)言編程基礎(chǔ)》
包含了Python環(huán)境搭建、基礎(chǔ)語(yǔ)法、變量類型、基本函數(shù)、基本語(yǔ)句、第三方庫(kù)、金融財(cái)務(wù)實(shí)例等內(nèi)容。旨在為金融財(cái)經(jīng)人提供最需要的編程方法。
3、《基于Python的經(jīng)典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對(duì)交易模型、波動(dòng)擴(kuò)張模型、Alpha模型、機(jī)器學(xué)習(xí)(隨機(jī)森林模型、主成分分析)、深度學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò))等內(nèi)容。
4、《量化交易系統(tǒng)設(shè)計(jì)》
旨在學(xué)習(xí)量化交易系統(tǒng)的具體知識(shí),包括過(guò)濾器,進(jìn)入信號(hào),退出信號(hào),倉(cāng)位管理等詳細(xì)內(nèi)容,并指導(dǎo)學(xué)員設(shè)計(jì)涵蓋個(gè)人交易哲學(xué)的量化交易系統(tǒng)。
5、《量化實(shí)盤交易》
旨在為解決實(shí)際量化交易策略搭建過(guò)程中的一些問(wèn)題提供較優(yōu)解決方案。 >>>點(diǎn)擊咨詢AQF相關(guān)問(wèn)題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國(guó)主要金融市場(chǎng)及交易產(chǎn)品的交易機(jī)制;
2、熟知國(guó)內(nèi)外期貨交易、股市交易的異同點(diǎn)和內(nèi)在運(yùn)行機(jī)制;
3、掌握經(jīng)典量化交易策略細(xì)節(jié)及其背后的交易哲學(xué);
4、掌握金融、編程和建模知識(shí)基礎(chǔ),擁有量化交易實(shí)盤操作能力;
5、具備獨(dú)立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設(shè)計(jì)的基本框架,以及風(fēng)險(xiǎn)管理和資產(chǎn)組合理論的實(shí)際運(yùn)用;
7、掌握從策略思想——策略編寫(xiě)——策略實(shí)現(xiàn)餓完整量化投資決策過(guò)程;具備量化投資實(shí)戰(zhàn)交易能力。
.png)
更多內(nèi)容推薦閱讀:
2019年量化金融分析師(AQF)全國(guó)統(tǒng)一考試報(bào)名簡(jiǎn)章
Wind、Excel和Python三大金融技能兼修,下一個(gè)金融分析大神就是你
金程推薦: AQF培訓(xùn) AQF培訓(xùn)機(jī)構(gòu) AQF是什么意思
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號(hào):量化金融分析師
完善下表,48小時(shí)內(nèi)查收aqf備考資料
(如果沒(méi)收到資料,可以點(diǎn)我咨詢)



.png)


