在集成學(xué)習(xí)概述中已經(jīng)知道了常用的集成算法有兩種:Bagging 和 Boosting。而在 Bagging 中,隨機(jī)森林(Random Forest,RF)又是其中典型的代表了。沒錯(cuò),這篇文章我們就是來介紹隨機(jī)森林的。
什么是隨機(jī)森林我們介紹了單個(gè)決策樹的形成過程,簡單來說,如果采用 Bagging 方式來將多個(gè)決策樹集成在一起就是隨機(jī)森林了。從名字中可以看出包含了兩個(gè)關(guān)鍵詞:“隨機(jī)”和“森林”。森林的意思是指多個(gè)決策樹,那隨機(jī)的意思呢?其實(shí)隨機(jī)有兩個(gè)含義,一個(gè)是數(shù)據(jù)的隨機(jī)性,另一個(gè)是特征的隨機(jī)性。關(guān)于隨機(jī)的含義下面會(huì)更具體介紹。
隨機(jī)森林是 Bagging 中的一種,所以隨機(jī)森林的示意圖可以用下圖表示:

算法流程對(duì)隨機(jī)森林有個(gè)簡單了解之后,我們來看下隨機(jī)森林的算法流程。假設(shè)要我們要生成 T 個(gè)決策樹,原始的訓(xùn)練集包含 m 個(gè)樣本,特征個(gè)數(shù)為 n,那么整個(gè)流程如下:
從原始的包含了 m 個(gè)樣本的數(shù)據(jù)集中隨機(jī)地有放回地采樣 m 次,得到 m 個(gè)樣本(會(huì)有重復(fù)樣本)
使用采樣生成的數(shù)據(jù)集訓(xùn)練一個(gè)決策樹
重復(fù)步驟1和2共 T 次,得到 T 個(gè)訓(xùn)練好的決策樹
采用投票法(分類樹)或簡單平均法(回歸樹)從 T 個(gè)決策樹的預(yù)測結(jié)果中生成最終的結(jié)果
可以看到,由于采用隨機(jī)地有放回地采樣得到訓(xùn)練集,這樣不同的樹用到的訓(xùn)練集會(huì)有所差異;其次,每個(gè)樹在結(jié)點(diǎn)分裂時(shí)并非是從所有的特征中選擇較優(yōu)特征和劃分點(diǎn),而是先隨機(jī)地從所有特征 n 中選擇一個(gè)包含了 k 個(gè)特征的特征子集,然后從特征子集中選擇較優(yōu)特征和劃分點(diǎn),通過改變 k 的大小可以控制隨機(jī)性的引入程度。隨機(jī)森林中的“隨機(jī)”含義指的就是前面說的這兩個(gè)隨機(jī):數(shù)據(jù)隨機(jī)和特征隨機(jī)。
需要說明的是,如果在隨機(jī)選擇的特征子集只包含一個(gè)特征時(shí),相當(dāng)于每次隨機(jī)選擇一個(gè)特征進(jìn)行劃分;如果特征子集包含的特征個(gè)數(shù)等于所有特征個(gè)數(shù) n,這時(shí)候與經(jīng)典的決策樹沒有區(qū)別。
袋外誤差前面已經(jīng)知道,對(duì)于每棵樹訓(xùn)練時(shí)所用到的樣本都是隨機(jī)且有放回地采樣得到的,大約有 36.8% 的樣本沒有被采樣到,也就是說,在生成某棵樹的訓(xùn)練樣本時(shí),這些沒有被采樣到的樣本稱為該樹的袋外數(shù)據(jù)(Out Of Bag,OOB)。通過袋外數(shù)據(jù),我們可以計(jì)算出袋外誤差來評(píng)估模型的性能。
對(duì)于袋外數(shù)據(jù),我們可以計(jì)算出袋外錯(cuò)誤率,計(jì)算過程如下:
對(duì)于每個(gè)樣本,計(jì)算它作為某棵樹的袋外數(shù)據(jù)時(shí)該樹對(duì)它的預(yù)測結(jié)果
由于一個(gè)樣本可以是多顆樹的袋外數(shù)據(jù),所以采用投票法或簡單平均法生成該樣本最后的預(yù)測結(jié)果
根據(jù)每個(gè)袋外數(shù)據(jù)的預(yù)測結(jié)果與其真實(shí)結(jié)果可以計(jì)算出對(duì)應(yīng)的誤差
最后,簡單介紹下隨機(jī)森林的優(yōu)點(diǎn)。由于隨機(jī)森林在生成 T 個(gè)數(shù)據(jù)集以及訓(xùn)練模型的時(shí)候彼此之間沒有依賴,所以它可以做到并行化,這對(duì)于數(shù)據(jù)量較大的情況下訓(xùn)練速度的提升很明顯。其次,如果特征較多時(shí),通過控制隨機(jī)選擇特征的個(gè)數(shù)也可以優(yōu)化訓(xùn)練速度。
量化金融分析師(簡稱AQF ,Analyst of Quantitative Finance)由量化金融標(biāo)準(zhǔn)委員會(huì)(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書。 >>>點(diǎn)擊咨詢AQF證書含金量
.png)
課程適合人群:
金融工程/數(shù)學(xué)專業(yè)背景的同學(xué)/工作人士,希望進(jìn)一步學(xué)習(xí)Python編程以及在量化投資的實(shí)戰(zhàn)應(yīng)用;
非金融工程專業(yè)背景的同學(xué)/工作人士,希望迅速成為寬客;
金融相關(guān)人員,希望學(xué)習(xí)如何系統(tǒng)的做量化策略;
個(gè)人投資者,希望系統(tǒng)學(xué)習(xí)掌握量化投資相關(guān)的實(shí)務(wù)技能,從模型開發(fā),回測,策略改進(jìn),搭建穩(wěn)定的量化交易系統(tǒng)。>>>點(diǎn)擊咨詢AQF課程相關(guān)問題
(點(diǎn)擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎(chǔ)》
主要涵蓋了量化投資領(lǐng)域的必備知識(shí),包括:基本面分析、技術(shù)分析、數(shù)量分析、固定收益、資產(chǎn)組合管理、權(quán)益、另類投資等內(nèi)容。
2、《Python語言編程基礎(chǔ)》
包含了Python環(huán)境搭建、基礎(chǔ)語法、變量類型、基本函數(shù)、基本語句、第三方庫、金融財(cái)務(wù)實(shí)例等內(nèi)容。旨在為金融財(cái)經(jīng)人提供最需要的編程方法。
3、《基于Python的經(jīng)典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對(duì)交易模型、波動(dòng)擴(kuò)張模型、Alpha模型、機(jī)器學(xué)習(xí)(隨機(jī)森林模型、主成分分析)、深度學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò))等內(nèi)容。
4、《量化交易系統(tǒng)設(shè)計(jì)》
旨在學(xué)習(xí)量化交易系統(tǒng)的具體知識(shí),包括過濾器,進(jìn)入信號(hào),退出信號(hào),倉位管理等詳細(xì)內(nèi)容,并指導(dǎo)學(xué)員設(shè)計(jì)涵蓋個(gè)人交易哲學(xué)的量化交易系統(tǒng)。
5、《量化實(shí)盤交易》
旨在為解決實(shí)際量化交易策略搭建過程中的一些問題提供較優(yōu)解決方案。 >>>點(diǎn)擊咨詢AQF相關(guān)問題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國主要金融市場及交易產(chǎn)品的交易機(jī)制;
2、熟知國內(nèi)外期貨交易、股市交易的異同點(diǎn)和內(nèi)在運(yùn)行機(jī)制;
3、掌握經(jīng)典量化交易策略細(xì)節(jié)及其背后的交易哲學(xué);
4、掌握金融、編程和建模知識(shí)基礎(chǔ),擁有量化交易實(shí)盤操作能力;
5、具備獨(dú)立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設(shè)計(jì)的基本框架,以及風(fēng)險(xiǎn)管理和資產(chǎn)組合理論的實(shí)際運(yùn)用;
7、掌握從策略思想——策略編寫——策略實(shí)現(xiàn)餓完整量化投資決策過程;具備量化投資實(shí)戰(zhàn)交易能力。
.png)
金程推薦: AQF培訓(xùn) AQF培訓(xùn)機(jī)構(gòu) AQF是什么意思
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號(hào):量化金融分析師


.png)


