A级片三级毛片中文字幕|97人人干人人爱|aaaaa毛片亚洲av资源网|超碰97在线播放|日本一a级毛片欧美一区黄|日韩专区潮吹亚洲AV无码片|人人香蕉视频免费|中文字幕欧美激情极品|日本高清一级免费不卡|国模大胆在线国产啪视频

AQF
首頁(yè) 備考指南 精品課程 名師團(tuán)隊(duì) 職業(yè)前景
您現(xiàn)在的位置:首頁(yè)備考必備AQF資料 為什么貝葉斯是量化工作者最常用的工具?

為什么貝葉斯是量化工作者最常用的工具?

發(fā)表時(shí)間: 2024-04-19 15:04:51 編輯:金程AQF

為什么貝葉斯是量化工作者最常用的工具?跟著金程AQF小編一起來(lái)看看吧~

淺談貝葉斯

金程AQF小編表示不論是學(xué)習(xí)概率統(tǒng)計(jì)還是機(jī)器學(xué)習(xí)的過(guò)程中,貝葉斯總是是繞不過(guò)去的一道坎,大部分人在學(xué)習(xí)的時(shí)候都是在強(qiáng)行地背公式和套用方法,沒有真正去理解其牛逼的思想內(nèi)涵。

歷史背景

什么事都要從頭說(shuō)起,貝葉斯全名為托馬斯·貝葉斯(Thomas Bayes,1701-1761),是一位與牛頓同時(shí)代的牧師,是一位業(yè)余數(shù)學(xué)家,平時(shí)就思考些有關(guān)上帝的事情,當(dāng)然,統(tǒng)計(jì)學(xué)家都認(rèn)為概率這個(gè)東西就是上帝在擲骰子。當(dāng)時(shí)貝葉斯發(fā)現(xiàn)了古典統(tǒng)計(jì)學(xué)當(dāng)中的一些缺點(diǎn),從而提出了自己的“貝葉斯統(tǒng)計(jì)學(xué)”,但貝葉斯統(tǒng)計(jì)當(dāng)中由于引入了一個(gè)主觀因素(先驗(yàn)概率,下文會(huì)介紹),一點(diǎn)都不被當(dāng)時(shí)的人認(rèn)可。直到20世紀(jì)中期,也就是快200年后了,統(tǒng)計(jì)學(xué)家在古典統(tǒng)計(jì)學(xué)中遇到了瓶頸,伴隨著計(jì)算機(jī)技術(shù)的發(fā)展,當(dāng)統(tǒng)計(jì)學(xué)家使用貝葉斯統(tǒng)計(jì)理論時(shí)發(fā)現(xiàn)能解決很多之前不能解決的問(wèn)題,從而貝葉斯統(tǒng)計(jì)學(xué)一下子火了起來(lái),兩個(gè)統(tǒng)計(jì)學(xué)派從此爭(zhēng)論不休。

什么是概率?

什么是概率這個(gè)問(wèn)題似乎人人都覺得自己知道,卻有很難說(shuō)明白。比如說(shuō)我問(wèn)你 擲一枚硬幣為正面的概率為多少?,大部分人第一反應(yīng)就是50%的幾率為正。不好意思,首先這個(gè)答案就不正確,只有當(dāng)材質(zhì)均勻時(shí)硬幣為正面的幾率才是50%(所以不要覺得打麻將的時(shí)候那個(gè)骰子每面的幾率是相等的,萬(wàn)一被做了手腳呢)。

好,那現(xiàn)在假設(shè)硬幣的材質(zhì)是均勻的,那么為什么正面的幾率就是50%呢?有人會(huì)說(shuō)是因?yàn)槲覕S了1000次硬幣,大概有492次是正面,508次是反面,所以近似認(rèn)為是50%,說(shuō)得很好(擲了1000次我也是服你)。

擲硬幣的例子說(shuō)明了古典統(tǒng)計(jì)學(xué)的思想,就是概率是基于大量實(shí)驗(yàn)的,也就是 大數(shù)定理。那么現(xiàn)在再問(wèn)你,有些事件,例如:明天下雨的概率是30%;A地會(huì)發(fā)生地震的概率是 5%;一個(gè)人得心臟病的概率是 40%…… 這些概率怎么解釋呢?難道是A地真的 100 次的機(jī)會(huì)里,地震了 5 次嗎?

肯定不是這樣,所以古典統(tǒng)計(jì)學(xué)就無(wú)法解釋了。再回到擲硬幣的例子中,如果你沒有機(jī)會(huì)擲 1000 次這么多次,而是只擲了 3 次,可這 3 次又都是正面,那該怎么辦?難道這個(gè)正面的概率就是 100% 了嗎?這也是古典統(tǒng)計(jì)學(xué)的弊端。

》》》點(diǎn)我咨詢了解AQF 培訓(xùn)課程

舉個(gè)例子:生病的幾率

一種癌癥,得了這個(gè)癌癥的人被檢測(cè)出為陽(yáng)性的幾率為 90%,未得這種癌癥的人被檢測(cè)出陰性的幾率為 90%,而人群中得這種癌癥的幾率為 1%,一個(gè)人被檢測(cè)出陽(yáng)性,問(wèn)這個(gè)人得癌癥的幾率為多少?

猛地一看,被檢查出陽(yáng)性,而且得癌癥的話陽(yáng)性的概率是 90%,那想必這個(gè)人應(yīng)該是難以幸免了。那我們接下來(lái)就算算看。

我們用 A表示事件 “測(cè)出為陽(yáng)性”, 用 B1 表示“得癌癥”, B2 表示“未得癌癥”。根據(jù)題目,我們知道如下信息:

  貝葉斯

那么我們現(xiàn)在想得到的是已知為陽(yáng)性的情況下,得癌癥的幾率 P(B1,A) :

  貝葉斯

P(B1,A) 表示的是聯(lián)合概率,得癌癥且檢測(cè)出陽(yáng)性的概率是人群中得癌癥的概率乘上得癌癥時(shí)測(cè)出是陽(yáng)性的幾率,是 0.009。同理可得得癌癥且檢測(cè)出陽(yáng)性的概率:

  貝葉斯

這個(gè)概率是什么意思呢?其實(shí)是指如果人群中有 1000 個(gè)人,檢測(cè)出陽(yáng)性并且得癌癥的人有 9 個(gè),檢測(cè)出陽(yáng)性但未得癌癥的人有 99 個(gè)??梢钥闯?,檢測(cè)出陽(yáng)性并不可怕,不得癌癥的是絕大多數(shù)的,這跟我們一開始的直覺判斷是不同的!

可直到現(xiàn)在,我們并沒有得到所謂的“在檢測(cè)出陽(yáng)性的前提下得癌癥的 概率 ”,怎么得到呢?很簡(jiǎn)單,就是看被測(cè)出為陽(yáng)性的這 108(9 99) 人里,9 人和 99 人分別占的比例就是我們要的,也就是說(shuō)我們只需要添加一個(gè)歸一化因子(normalization)就可以了。所以陽(yáng)性得癌癥的概率P(B1|A) 為:

  貝葉斯

陽(yáng)性未得癌癥的概率 P(B2|A) 為:

  貝葉斯

這里 P(B1|A) ,P(B2|A) 中間多了這一豎線||成為了條件概率,而這個(gè)概率就是貝葉斯統(tǒng)計(jì)中的后驗(yàn)概率!而人群中患癌癥與否的概率 P(B1),P(B2) 就是先驗(yàn)概率!我們知道了先驗(yàn)概率,根據(jù)觀測(cè)值(observation),也可稱為 test evidence:是否為陽(yáng)性,來(lái)判斷得癌癥的后驗(yàn)概率,這就是基本的貝葉斯思想,我們現(xiàn)在就能得出本題的后驗(yàn)概率的公式為:

  貝葉斯

由此就能得到如下的貝葉斯公式的一般形式。

貝葉斯公式

我們把上面例題中的 A 變成樣本(sample) x , 把B 變成參數(shù)(parameter) θ, 我們便得到我們的貝葉斯公式:

  貝葉斯

可以看出上面這個(gè)例子中,B 事件的分布是離散的,所以在分母用的是求和符號(hào) ∑ 。那如果我們的參數(shù) θ 的分布是連續(xù)的呢?沒錯(cuò),那就要用積分,于是我們終于得到了真正的貝葉斯公式 :

  貝葉斯

其中 π 指的是參數(shù)的概率分布,π(θ) 指的是先驗(yàn)概率,π(θ|x) 指的是后驗(yàn)概率,f(x|θ)指的是我們觀測(cè)到的樣本的分布,也就是似然函數(shù)(likelihood),記住豎線 |左邊的才是我們需要的。其中積分求的區(qū)間指的是參數(shù) θ 所有可能取到的值的域,所以可以看出后驗(yàn)概率 π(θ|x) 是在知道 x 的前提下在域內(nèi)的一個(gè)關(guān)于θ 的概率密度分布,每一個(gè)θ 都有一個(gè)對(duì)應(yīng)的可能性(也就是概率)。

理解貝葉斯公式

這個(gè)公式應(yīng)該在概率論書中就有提到,反正當(dāng)時(shí)我也只是死記硬背住,然后遇到題目就套用。甚至在 Chalmers 學(xué)了一門統(tǒng)計(jì)推斷的課講了貝葉斯,大部分時(shí)間我還是在套用公式,直到后來(lái)結(jié)合了一些專門講解貝葉斯的課程和資料才有了一些真正的理解。要想理解這個(gè)公式,首先要知道這個(gè)豎線 | 的兩側(cè)一會(huì)是 x|θ ,一會(huì)是 θ|x 到底指的是什么,或者說(shuō)似然函數(shù)和參數(shù)概率分布到底指的是什么。

似然函數(shù)

首先來(lái)看似然函數(shù) f(x|θ),似然函數(shù)聽起來(lái)很陌生,其實(shí)就是我們?cè)诟怕收摦?dāng)中看到的各種概率分布 f(x),那為什么后面要加個(gè)參數(shù)|θ 呢?我們知道,擲硬幣這個(gè)事件是服從伯努利分布的 Ber(p) , n次的伯努利實(shí)驗(yàn)就是我們熟知的二項(xiàng)分布 Bin(n,p), 這里的p就是一個(gè)參數(shù),原來(lái)我們?cè)谧鰧?shí)驗(yàn)之前,這個(gè)參數(shù)就已經(jīng)存在了(可以理解為上帝已經(jīng)定好了),我們抽樣出很多的樣本 x 是為了找出這個(gè)參數(shù),我們上面所說(shuō)的擲硬幣的例子,由于我們擲了 1000 次有 492 次是正面,根據(jù)求期望的公式 n⋅p=μ (492就是我們的期望)可以得出參數(shù) p 為

  貝葉斯

所以我們才認(rèn)為正面的概率是近似 50% 的。

現(xiàn)在我們知道了,其實(shí)我們觀測(cè)到樣本 x 的分布是在以某個(gè)參數(shù) θ 為前提下得出來(lái)的,所以我們記為 f(x|θ),只是我們并不知道這個(gè)參數(shù)是多少。所以參數(shù)估計(jì)成為了統(tǒng)計(jì)學(xué)里很大的一個(gè)課題,古典統(tǒng)計(jì)學(xué)中常用的方法有兩種:矩方法(momnet)和最大似然估計(jì)(maximum likelihood estimate, mle) ,我們常用的像上面擲硬幣例子中求均值的方法,本質(zhì)就是矩估計(jì)方法,這是基于大數(shù)定理的。而統(tǒng)計(jì)學(xué)中更廣泛的是使用最大似然估計(jì)的方法,原理其實(shí)很簡(jiǎn)單,在這簡(jiǎn)單說(shuō)一下:假設(shè)我們有 n 個(gè)樣本 x1,x2,x3,…,xn,它們每一個(gè)變量都對(duì)應(yīng)一個(gè)似然函數(shù):

  貝葉斯

我們現(xiàn)在把這些似然函數(shù)乘起來(lái):

  貝葉斯

我們只要找到令 lik(θ) 這個(gè)函數(shù)最大的 θ 值,便是我們想要的參數(shù)值(具體計(jì)算參考[2]中p184)。

后驗(yàn)分布(Posterior distribution)

現(xiàn)在到了貝葉斯的時(shí)間了。以前我們想知道一個(gè)參數(shù),要通過(guò)大量的觀測(cè)值才能得出,而且是只能得出一個(gè)參數(shù)值。而現(xiàn)在運(yùn)用了貝葉斯統(tǒng)計(jì)思想,這個(gè)后驗(yàn)概率分布 π(θ|x) 其實(shí)是一系列參數(shù)值 θ 的概率分布,再說(shuō)簡(jiǎn)單點(diǎn)就是我們得到了許多個(gè)參數(shù) θ 及其對(duì)應(yīng)的可能性,我們只需要從中選取我們想要的值就可以了:有時(shí)我們想要概率最大的那個(gè)參數(shù),那這就是 后驗(yàn)眾數(shù)估計(jì)(posterior mode estimator);

有時(shí)我們想知道參數(shù)分布的中位數(shù),那這就是后驗(yàn)中位數(shù)估計(jì)(posterior median estimator);有時(shí)我們想知道的是這個(gè)參數(shù)分布的均值,那就是后驗(yàn)期望估計(jì)。這三種估計(jì)沒有誰(shuí)好誰(shuí)壞,只是提供了三種方法得出參數(shù),看需要來(lái)選擇?,F(xiàn)在這樣看來(lái)得到的參數(shù)是不是更具有說(shuō)服力?

置信區(qū)間和可信區(qū)間

在這里我想提一下置信區(qū)間(confidence interval, CI) 和可信區(qū)間(credibility interval,CI),我覺得這是剛學(xué)貝葉斯時(shí)候非常容易弄混的概念。

》》》點(diǎn)我咨詢了解AQF 考試重難點(diǎn)

再舉個(gè)例子:一個(gè)班級(jí)男生的身高可能服從某種正態(tài)分布 N(μ,σ2),然后我們把全班男生的身高給記錄下來(lái),用高中就學(xué)過(guò)的求均值和方差的公式就可以算出來(lái)這兩個(gè)參數(shù),要知道我們真正想知道的是這個(gè)參數(shù) μ,σ2,當(dāng)然樣本越多,得出的結(jié)果就接近真實(shí)值(其實(shí)并沒有人知道什么是真實(shí)值,可能只有上帝知道)。

等我們算出了均值和方差,我們這時(shí)候一般會(huì)構(gòu)建一個(gè)95%或者90%的置信區(qū)間,這個(gè)置信區(qū)間是對(duì)于樣本 x 來(lái)說(shuō)的,我只算出了一個(gè) μ 和 一個(gè) σ 參數(shù)值的情況下,95% 的置信區(qū)間意味著在這個(gè)區(qū)間里的樣本是可以相信是服從以 μ,σ 為參數(shù)的正態(tài)分布的,一定要記住置信區(qū)間的概念中是指一個(gè)參數(shù)值的情況下!

而我們也會(huì)對(duì)我們得到的后驗(yàn)概率分布構(gòu)造一個(gè) 90% 或 95% 的區(qū)間,稱之為可信區(qū)間。這個(gè)可信區(qū)間是對(duì)于參數(shù) θ 來(lái)說(shuō)的,我們的到了 很多的參數(shù)值,取其中概率更大一些的90%或95%,便成了可信區(qū)間。

先驗(yàn)分布(Prior distribution)

說(shuō)完了后驗(yàn)分布,現(xiàn)在就來(lái)說(shuō)說(shuō)先驗(yàn)分布。先驗(yàn)分布就是你在取得實(shí)驗(yàn)觀測(cè)值以前對(duì)一個(gè)參數(shù)概率分布的主觀判斷,這也就是為什么貝葉斯統(tǒng)計(jì)學(xué)一直不被認(rèn)可的原因,統(tǒng)計(jì)學(xué)或者數(shù)學(xué)都是客觀的,怎么能加入主觀因素呢?但事實(shí)證明這樣的效果會(huì)非常好!

再拿擲硬幣的例子來(lái)看(怎么老是拿這個(gè)舉例,是有多愛錢。。。),在扔之前你會(huì)有判斷正面的概率是50%,這就是所謂的先驗(yàn)概率,但如果是在打賭,為了讓自己的描述準(zhǔn)確點(diǎn),我們可能會(huì)說(shuō)正面的概率為 0.5 的可能性最大,0.45 的幾率小點(diǎn),0.4 的幾率再小點(diǎn),0.1 的幾率幾乎沒有等等,這就形成了一個(gè)先驗(yàn)概率分布。

那么現(xiàn)在又有新的問(wèn)題了,如果我告訴你這個(gè)硬幣的材質(zhì)是不均勻的,那正面的可能性是多少呢?這就讓人犯糊涂了,我們想有主觀判斷也無(wú)從下手,于是我們就想說(shuō)那就先認(rèn)為 0~1 之間每一種的可能性都是相同的吧,也就是設(shè)置成 0~1 之間的均勻分布Uni(0,1) 作為先驗(yàn)分布吧,這就是貝葉斯統(tǒng)計(jì)學(xué)當(dāng)中的無(wú)信息先驗(yàn)(noninformative prior)!那么下面我們就通過(guò)不斷擲硬幣來(lái)看看,這個(gè)概率到是多少,貝葉斯過(guò)程如下:  貝葉斯

從圖中我們可以看出,0 次試驗(yàn)的時(shí)候就是我們的先驗(yàn)假設(shè)——均勻分布,然后擲了第一次是正面,于是概率分布傾向于 1,第二次又是正,概率是 1的可能性更大了,但注意:這時(shí)候在 0.5 的概率還是有的,只不過(guò)概率很小,在 0.2 的概率變得更小。

第三次是反面,于是概率分布被修正了一下,從為1的概率最大變成了 2/3 左右最大(3次試驗(yàn),2 次正 1 次反當(dāng)然概率是2/3的概率最大)。再下面就是進(jìn)行更多次的試驗(yàn),后驗(yàn)概率不斷根據(jù)觀測(cè)值在改變,當(dāng)次數(shù)很大的時(shí)候,結(jié)果趨向于 0.5 (哈哈,結(jié)果這還是一枚普通的硬幣,不過(guò)這個(gè)事件告訴我們,直覺是不可靠的,一定親自實(shí)驗(yàn)才行~)。

有的人會(huì)說(shuō),這還不是在大量數(shù)據(jù)下得到了正面概率為 0.5 嘛,有什么好稀奇的?注意了!畫重點(diǎn)了!(敲黑板) 記住,不要和一個(gè)統(tǒng)計(jì)學(xué)家或者數(shù)學(xué)家打賭!跑題了,跑題了。。。說(shuō)回來(lái),我們上面就說(shuō)到了古典概率學(xué)的弊端就是如果擲了 2 次都是正面,那我們就會(huì)認(rèn)為正面的概率是 1,而在貝葉斯統(tǒng)計(jì)學(xué)中,如果我們擲了 2 次都是正面,只能說(shuō)明正面是1的可能性最大,但還是有可能為 0.5, 0.6, 0.7 等等的,這就是對(duì)古典統(tǒng)計(jì)學(xué)的一種完善和補(bǔ)充,于是我們也就是解釋了,我們所謂的地震的概率為 5%;生病的概率為 10% 等等這些概率的意義了,這就是貝葉斯統(tǒng)計(jì)學(xué)的哲學(xué)思想。

共軛先驗(yàn)(Conjugate prior)

共軛先驗(yàn)應(yīng)該是每一個(gè)貝葉斯統(tǒng)計(jì)初學(xué)者最頭疼的問(wèn)題,我覺得沒有“之一”。這是一個(gè)非常大的理論體系,我試著用一些簡(jiǎn)單的語(yǔ)言進(jìn)行描述,關(guān)鍵是去理解其思想。

繼續(xù)拿擲硬幣的例子,這是一個(gè)二項(xiàng)試驗(yàn) Bin(n,p),所以其似然函數(shù)為:

  貝葉斯

在我們不知道情況時(shí)就先假設(shè)其先驗(yàn)分布為均勻分布 Uni(0,1),即:

  貝葉斯

那現(xiàn)在根據(jù)貝葉斯公式求后驗(yàn)概率分布:

  貝葉斯

我們得到結(jié)果為:

  貝葉斯

這么一大串是什么呢?其實(shí)就是大名鼎鼎的貝塔分布(Beta distribution)。簡(jiǎn)寫就是 Be(x 1,n−x 1)。比如我擲了10 次(n=10),5次正(x=5),5 次反,那么結(jié)果就是 Be(6,6), 這個(gè)分布的均值就是

  貝葉斯

很符合我們想要的結(jié)果。

現(xiàn)在可以說(shuō)明,我們把主觀揣測(cè)的先驗(yàn)概率定為均勻分布是合理的,因?yàn)槲覀冊(cè)趯?duì)一件事物沒有了解的時(shí)候,先認(rèn)為每種可能性都一樣是非常說(shuō)得通的。有人會(huì)認(rèn)為,既然無(wú)信息先驗(yàn)是說(shuō)得通的,而且貝葉斯公式會(huì)根據(jù)我們的觀測(cè)值不斷更新后驗(yàn)概率,那是不是我們隨便給一個(gè)先驗(yàn)概率都可以呢?當(dāng)然……不行!!這個(gè)先驗(yàn)概率是不能瞎猜的,是需要根據(jù)一些前人的經(jīng)驗(yàn)和常識(shí)來(lái)判斷的。比如我隨便猜先驗(yàn)為一個(gè)分段函數(shù):

  貝葉斯

是不是很變態(tài)的一個(gè)函數(shù)…就是假設(shè)一個(gè)極端的情況,如果你把這個(gè)情況代入貝葉斯公式,結(jié)果是不會(huì)好的(當(dāng)然我也不知道該怎么計(jì)算)。

這個(gè)例子中,我看到了可能的后驗(yàn)分布是 Beta 分布,看起來(lái)感覺有點(diǎn)像正態(tài)分布啊,那我們用正態(tài)分布作為先驗(yàn)分布可以嗎?這個(gè)是可以的(所以要學(xué)會(huì)觀察)??扇绻覀儼严闰?yàn)分布為正態(tài)分布代入到貝葉斯公式,那計(jì)算會(huì)非常非常麻煩,雖然結(jié)果可能是合理的。那怎么辦?不用擔(dān)心,因?yàn)槲覀冇泄曹椣闰?yàn)分布!

繼續(xù)拿上面這個(gè)例子,如果我們把先驗(yàn)分布 π(θ) 設(shè)為貝塔分布 Beta(a,b),結(jié)果是什么呢?我就不寫具體的計(jì)算過(guò)程啦,直接給結(jié)果:

  貝葉斯

有沒有看到,依然是貝塔分布,結(jié)果只是把之前的 1 換成了 a 和 b(聰明的你可能已經(jīng)發(fā)現(xiàn),其實(shí)我們所說(shuō)的均勻分布 Uni(0,1) 等價(jià)于 Beta(1,1),兩者是一樣的)。

由此我們便可以稱二項(xiàng)分布的共軛先驗(yàn)分布為貝塔分布!注意!接著畫重點(diǎn)!:共軛先驗(yàn)這個(gè)概念必須是基于似然函數(shù)來(lái)討論的,否則沒有意義!好,那現(xiàn)在有了共軛先驗(yàn),然后呢?作用呢?這應(yīng)該是很多初學(xué)者的疑問(wèn)。

現(xiàn)在我們來(lái)看,如果你知道了一個(gè)觀測(cè)樣本的似然函數(shù)是二項(xiàng)分布的,那我們把先驗(yàn)分布直接設(shè)為 Beta(a,b) ,于是我們就不用計(jì)算復(fù)雜的含有積分的貝葉斯公式便可得到后驗(yàn)分布 Beta (x a,n−x b) 了!!!只需要記住試驗(yàn)次數(shù)n,和試驗(yàn)成功事件次數(shù)x就可以了!互為共軛的分布還有一些,但都很復(fù)雜,用到的情況也很少,推導(dǎo)過(guò)程也極其復(fù)雜,有興趣的可以自行搜索。我說(shuō)的這個(gè)情況是最常見的!

注意一下,很多資料里會(huì)提到一個(gè)概念叫偽計(jì)數(shù)(pseudo count),這里的偽計(jì)數(shù)值得就是a,b對(duì)后驗(yàn)概率分布的影響,我們會(huì)發(fā)現(xiàn)如果我們?nèi)?Beta(1,1) ,這個(gè)先驗(yàn)概率對(duì)結(jié)果的影響會(huì)很小,可如果我們?cè)O(shè)為 Beta(100,100),那么我們做 10 次試驗(yàn)就算是全是正面的,后驗(yàn)分布都沒什么變化。

樸素貝葉斯分類器(Naive Bayes classifier)和scikit-learn的簡(jiǎn)單使用

在機(jī)器學(xué)習(xí)中你應(yīng)該會(huì)看到有一個(gè)章節(jié)是講樸素貝葉斯分類器的(把naive翻譯成樸素我也是服了啊,以后我們可以“夸”某某人好樸素啊)。具體的數(shù)學(xué)原理在周志華老師的西瓜書《機(jī)器學(xué)習(xí)》的第7章有詳細(xì)解釋,其實(shí)就是利用了基本的貝葉斯理論,跟上面說(shuō)的差不多,只不過(guò)更加說(shuō)明的怎樣去實(shí)踐到機(jī)器學(xué)習(xí)中。下面就直接簡(jiǎn)單說(shuō)一下Python中有個(gè)機(jī)器學(xué)習(xí)庫(kù) scikit-learn 中樸素貝葉斯分類器的簡(jiǎn)單實(shí)用。例子參考的是 scikit-learn 官網(wǎng)的GaussianNB 頁(yè)面。

直接看代碼:

import numpy as npX = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])Y = np.array([1, 1, 1, 2, 2, 2])from sklearn.naive_bayes import GaussianNB #導(dǎo)入GaussianNBclf = GaussianNB() #設(shè)置clf為高斯樸素貝葉斯分類器clf.fit(X, Y) #訓(xùn)練數(shù)據(jù)print(clf.predict([[-1, 0]])) #預(yù)測(cè)數(shù)據(jù)[-1,0]屬于哪一類

輸出結(jié)果為: [1]。這里面我們可以看到有 X,Y 兩個(gè)變量,X是我們要訓(xùn)練的數(shù)據(jù)特征,而Y給的是對(duì)應(yīng)數(shù)據(jù)的標(biāo)簽,分成 [1],[2] 兩類。用 clf.fit 訓(xùn)練好了之后,用 clf.predict 預(yù)測(cè)新數(shù)據(jù)[-1,0],結(jié)果是被分為第一類,說(shuō)明結(jié)果是令人滿意的。

MCMC(Markov chain Monte Carlo)

你以為說(shuō)到這貝葉斯的事情就結(jié)束了?那你真的就是太 naive 了。貝葉斯公式里的 θ 只是一個(gè)參數(shù),有沒有想過(guò)有兩個(gè)參數(shù)怎么辦?還能怎么辦,分布的積分改成雙重積分唄??梢钥梢?,那如果有 3個(gè)、5個(gè)、10 個(gè)參數(shù)呢?還有十重積分嘛?很顯然積分這個(gè)工具只適合我們?cè)谝痪S和二維的情況下進(jìn)行計(jì)算,三維以上的效果就已經(jīng)不好了;

其實(shí)不僅僅在于多維情況,就算是在一維情況很多積分也很難用數(shù)值方法計(jì)算出來(lái),那該怎么辦?于是便有了 MCMC 方法,全稱是馬爾科夫鏈蒙特卡洛方法。大家別指望在下文里看到詳細(xì)的計(jì)算過(guò)程和推導(dǎo),我還是按照我的理解,簡(jiǎn)單地從原理出發(fā)進(jìn)行描述,讓大家有一個(gè)感性的認(rèn)識(shí)。

第二個(gè)MC:蒙特卡洛方法

雖然蒙特卡洛方法是 MCMC 中的第二個(gè) MC,但先解釋蒙特卡洛方法會(huì)更加容易理解。蒙特卡洛方法也稱蒙特卡洛抽樣方法,其基本思想是通過(guò)大量取樣來(lái)近似得到想要的答案。有一個(gè)經(jīng)典的試驗(yàn)就是計(jì)算圓周率,在一個(gè)邊上為1的正方形中畫一個(gè)內(nèi)切圓,圓的面積就是 π,圓面積比上整體的正方形面積也是 ππ, 現(xiàn)在在正方形內(nèi)產(chǎn)生大量隨機(jī)數(shù),最后我們只需要計(jì)算在圓內(nèi)點(diǎn)的個(gè)數(shù)比上總體點(diǎn)的個(gè)數(shù),便近似得到了圓周率 π 的值(這些統(tǒng)計(jì)學(xué)家是真聰明啊。。。)。

現(xiàn)在回到貝葉斯公式,我們現(xiàn)在有一個(gè)后驗(yàn)概率 π(θ|x) ,但我們其實(shí)最想知道的是 h(θ) 的后驗(yàn)期望:

  貝葉斯

怎么又跑出來(lái)一個(gè) h(θ) ?不要著急,如果我們令 h(θ)=θ , 那上面這個(gè)積分求得就是我們想要的后驗(yàn)期望估計(jì)了!(當(dāng)然 h(θ) 還可以是其他情況,會(huì)得到其他我們想要的結(jié)果,例如后驗(yàn)最大估計(jì),后驗(yàn)方差等等,這里就不贅述了) 蒙特卡洛方法指出:如果我們可以從后驗(yàn)概率分布 π(θ|x) 中抽取大量的獨(dú)立同分布(i.i.d)的觀測(cè)值 θ1,θ2,…,θm ,于是我們可以用如下公式:

  貝葉斯

在大數(shù)定理的支持下,hm 就可看作是 E[h(θ)|x] 的近似值。但是這個(gè)方法在多維和后驗(yàn)分布形式未知的情況下,很難抽樣,于是便有了第一個(gè) MC,馬爾科夫鏈的方法。

第一個(gè)MC:馬爾科夫鏈

馬爾科夫鏈也稱之為馬氏鏈,先來(lái)看一下數(shù)學(xué)定義:

  貝葉斯

意思就是,從 Xn,Xn−1,…,X0 到 Xn 1 的轉(zhuǎn)移概率只與 Xn 1 的前一個(gè)狀態(tài) Xn 有關(guān)。

如果條件概率 P(Xn 1|Xn) 與 n 無(wú)關(guān),成為一個(gè)固定值,那么就稱這個(gè)馬氏鏈有平穩(wěn)轉(zhuǎn)移概率,記為 pij 。并且我們稱 P=(pij) 為馬氏鏈的轉(zhuǎn)移矩陣,且滿足條件:

  貝葉斯

怎么一個(gè)概率變成一個(gè)矩陣了???其實(shí)這個(gè)轉(zhuǎn)移概率 pij 指的只是狀態(tài) i 中的一個(gè)觀測(cè)值 Xn 到狀態(tài) j 中的另一個(gè)觀測(cè)值 Xn 1 的概率,其實(shí)我們?cè)诿總€(gè)狀態(tài)下許許多多的觀測(cè)值。我隨便舉一例子:

現(xiàn)有一個(gè)轉(zhuǎn)換矩陣:  貝葉斯

可以看出狀態(tài) i 中的一個(gè)觀測(cè)值轉(zhuǎn)移到下個(gè)狀態(tài) j 的分別三個(gè)觀測(cè)值的概率和為1。

下面就是最最重要的馬氏鏈的平穩(wěn)性(也可稱之為收斂性):

設(shè)馬爾科夫鏈有轉(zhuǎn)移概率矩陣貝葉斯, 一個(gè)概率分布貝葉斯如果滿足 貝葉斯,則稱之為此馬爾科夫鏈的平穩(wěn)分布。(取自[1]中定義6.3.2)

可能這么看這個(gè)定義還是有點(diǎn)繞,這里的 i,j 并不是指從 i 一步就到了 j ,求和符號(hào) ∑ 的意思就是能讓概率分布 π(i) 經(jīng)過(guò) n 步之后成為平穩(wěn)分布 π(j) 。我們得到的平穩(wěn)分布 π(j)=[π(1),π(2),…,π(j)] 里面各個(gè)概率的和也為1。

現(xiàn)在我們就要把這個(gè)馬爾科夫鏈和貝葉斯聯(lián)系起來(lái),按照我的理解,π(i) 就是我們的先驗(yàn)分布,如果我們能找到一個(gè)轉(zhuǎn)移矩陣,那么我們就會(huì)在n步之后就會(huì)收斂到一個(gè)平穩(wěn)分布,而這個(gè)分布就是我們要的后驗(yàn)分布。得到平穩(wěn)分布后,根據(jù)平穩(wěn)性,繼續(xù)乘上這個(gè)轉(zhuǎn)移概率矩陣,平穩(wěn)分布依然不會(huì)改變,所以我們就從得到平穩(wěn)分布開始每次對(duì)其中抽樣 1 個(gè)出來(lái),再經(jīng)過(guò) m 步之后,我們就得到了 m 個(gè)服從后驗(yàn)分布的 i.i.d 樣本,便可按照第二個(gè) MC 蒙特卡洛方法進(jìn)行計(jì)算了!

>>>點(diǎn)擊咨詢了解AQF 課程詳情

免費(fèi)獲取AQF試聽課

金程推薦: AQF培訓(xùn) AQF是什么意思

完善下表,48小時(shí)內(nèi)查收aqf備考資料

(如果沒收到資料,可以點(diǎn)我咨詢)

cfa資料索取框

>>>返回首頁(yè)

吐槽

對(duì)不起!讓你吐槽了

/500

上傳圖片

    可上傳3張圖片

    2001-2025 上海金程教育科技有限公司 All Rights Reserved. 信息系統(tǒng)安全等級(jí):三級(jí)
    中央網(wǎng)信辦舉報(bào)中心 上海市互聯(lián)網(wǎng)舉報(bào)中心 不良信息舉報(bào)郵箱:law@gfedu.net
    滬ICP備14042082號(hào) 滬B2-20240743 通過(guò)ISO9001:2015 國(guó)際質(zhì)量管理體系認(rèn)證 滬公網(wǎng)安備31010902103762號(hào) 出版物經(jīng)營(yíng)許可證 電子營(yíng)業(yè)執(zhí)照

    掃描二維碼登錄金程網(wǎng)校

    請(qǐng)使用新版 金程網(wǎng)校APP 掃碼完成登錄

    登錄即同意金程網(wǎng)校協(xié)議及《隱私政策》