秦同學(xué)
2019-11-26 16:48老師,閾值到底是個(gè)什么意思呢?為什么閾值最大,判斷就都為0呢
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
Peter F助教
2019-11-27 09:27
該回答已被題主采納
同學(xué),你好:請(qǐng)問 閾值 是在視頻具體哪個(gè)位置提到的?
-
追問
老師,這里,閾值最大 判斷都為0…這里,突然引入閾值,這些分析沒有明白
-
追答
同學(xué),你好:可以這樣理解,
背景介紹:ROC的全稱是“受試者工作特征”(Receiver Operating Characteristic)曲線,首先是由二戰(zhàn)中的電子工程師和雷達(dá)工程師發(fā)明的,用來偵測(cè)戰(zhàn)場(chǎng)上的敵軍載具(飛機(jī)、船艦),也就是信號(hào)檢測(cè)理論。之后很快就被引入了心理學(xué)來進(jìn)行信號(hào)的知覺檢測(cè)。此后被引入機(jī)器學(xué)習(xí)領(lǐng)域,用來評(píng)判分類、檢測(cè)結(jié)果的好壞。因此,ROC曲線是非常重要和常見的統(tǒng)計(jì)分析方法。
根據(jù)學(xué)習(xí)器的預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,按此順序逐個(gè)把樣本作為正例進(jìn)行預(yù)測(cè),每次計(jì)算出兩個(gè)重要量的值(TPR、FPR),分別以它們?yōu)闄M、縱坐標(biāo)作圖。
計(jì)算公式如下:
False positive rate (FPR) = FP/(TN + FP)
True positive rate (TPR) = TP/(TP + FN)
假設(shè)采用邏輯回歸分類器,其給出針對(duì)每個(gè)實(shí)例為正類的概率,那么通過設(shè)定一個(gè)閾值如0.6,概率大于等于0.6的為正類,小于0.6的為負(fù)類。對(duì)應(yīng)的就可以算出一組(FPR,TPR),在平面中得到對(duì)應(yīng)坐標(biāo)點(diǎn)。隨著閾值的逐漸減小,越來越多的實(shí)例被劃分為正類,但是這些正類中同樣也摻雜著真正的負(fù)實(shí)例,即TPR和FPR會(huì)同時(shí)增大。閾值最大時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)為(0,0),閾值最小時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)(1,1)。
從AUC判斷分類器(預(yù)測(cè)模型)優(yōu)劣的標(biāo)準(zhǔn):
1)AUC = 1,是完美分類器,采用這個(gè)預(yù)測(cè)模型時(shí),存在至少一個(gè)閾值能得出完美預(yù)測(cè)。絕大多數(shù)預(yù)測(cè)的場(chǎng)合,不存在完美分類器。
2)0.5 < AUC < 1,優(yōu)于隨機(jī)猜測(cè)。這個(gè)分類器(模型)妥善設(shè)定閾值的話,能有預(yù)測(cè)價(jià)值。
3)AUC = 0.5,跟隨機(jī)猜測(cè)一樣(例:丟銅板),模型沒有預(yù)測(cè)價(jià)值。
4)AUC < 0.5,比隨機(jī)猜測(cè)還差;但只要總是反預(yù)測(cè)而行,就優(yōu)于隨機(jī)猜測(cè)。 -
追問
老師,這個(gè)閾值是代表什么含義呢?您解釋的大于閾值是是正類?
-
追答
同學(xué),你好:這個(gè)閾值就是邏輯回歸分類器的閾值,取值為(0,1),等間隔地取相同的值,比如 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9,大于閾值就取正,小于閾值就取負(fù),針對(duì)相同的模型會(huì)有以上 9 組的 FP、TN、TP、FN的值,然后,在圖上畫出 ROC 曲線。
-
追問
老師這個(gè)閾值重要嗎?我沒有懂,可以不記這些嘛
-
追答
同學(xué),你好:閾值是幫助理解的,以下公式要會(huì)計(jì)算,即可。
Precision (P) = TP/(TP + FP)
F1 score = (2 × P × R)/(P + R)
Accuracy = (TP + TN)/(TP + FP + TN + FN)
難度可以參考原版書課后題。
