李同學(xué)
2020-06-12 14:27關(guān)于這個矩陣(其中的1 2 3 4對應(yīng)單老師標(biāo)注的)我有一些小問題(前提:建立在已經(jīng)聽明白整個邏輯的基礎(chǔ)上): 問題1.P(1)=(2)/(1)+(2) 一類錯誤的概率用公式表示這樣嗎?問題2:P(2)=(3)/(1)+(3) 二類的公式表示? 問題3:F1 score的意義在于 讓precision和recall之間取得一個平衡,所以可以理解為:不是要P或者R最大,而是要讓F1最大即最好?問題4:Accuracy和precision在中文含義里差不太多,請問如果譯成中文的話,各大金融類書籍的標(biāo)準(zhǔn)翻譯分別對應(yīng)的什么?問題5:截圖中的紫色畫線部分的文字想要說明的是什么,可否簡單做解釋,便于和我前面想的結(jié)論相互印證?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
Kevin助教
2020-06-12 15:27
該回答已被題主采納
同學(xué)你好!
I類和II類錯誤的定義如圖。那么概率計算如下:
1.P(I)=(2)/((2)+(4));
2.P(II)=(3)/((1)+(3));
3.F1越大越好,無論P(yáng)或R如何;
4.目前沒有比較權(quán)威的叫法,可以參考:accuracy準(zhǔn)確率,precision精確率。(其實沒必要糾結(jié),實際中英語不就很好區(qū)分了嗎?2333);
5.比如癌癥檢測,1萬人中僅10個患癌癥。我們用1表示陽性,0表示陰性。那么I類錯誤:沒患病但檢測患病,II類錯誤:患病但檢測結(jié)果沒患病。實踐中,precision和recall相互制約,基本此消彼長。我們強(qiáng)調(diào)precision,可能只檢測出6個,6個都是患癌癥的,precision很高,但是對于別的病人就不負(fù)責(zé)任。強(qiáng)調(diào)recall,可能檢測出15個,8個患癌癥的,多7個正常人,造成醫(yī)療資源的浪費。大致就是這樣。所以評價一個檢測方法應(yīng)該precision和recall都有涉及,因此F1 score更好。
-
追問
第一個問題追問:p(1)=(2)/(2)+(4)表示:在人沒病的里邊,機(jī)器驗出有病的概率,即錯殺好人,一類錯誤;p(1)=(1)/(1)+(2)表示:在機(jī)器說人有病的里邊,機(jī)器說錯了(其實人沒?。┑母怕剩彩清e殺好人,也是一類錯誤。有點沒繞不過來了~兩個哪個對呢
-
追問
5追問:他說倆個比較 F1更好的條件是建立在:unequal class distribution is in the dataset.請問這個條件是想強(qiáng)調(diào)說明什么呢
-
追問
P(I)=(2)/((2)+(4));P=(1)((1)+(2))
P(II)=(3)/((1)+(3));R=(1)((1)+(3))
單老師的推導(dǎo)邏輯是:一類和二類錯誤都是越低越好,且此消彼長,所以P和R就是越高越好,且也是此消彼長。問題:如果一類錯誤的公式您寫的那樣(當(dāng)然 應(yīng)該就是那樣,所以還是有點暈),不是我寫的P(I)=(2)/((1)+(2))這樣的話,那單老師這種類比的推導(dǎo)方法就有些問題了,請問怎么解釋? -
追答
同學(xué)你好!
1.P(I)和P(II)都是建立在真實數(shù)據(jù)為真或為假的基礎(chǔ)上的條件概率,(1)+(2)明顯是預(yù)測為假的基礎(chǔ)上,肯定不對。
2.就是癌癥這個例子,分布極不對稱,10個人患癌癥,9990人正常。 -
追答
同學(xué)你好!
我看了看,單老師沒推導(dǎo)I類和II類錯誤的問題,只是寫了寫precision和recall的公式。precision和recall的關(guān)系,是此消彼長的,I類和II類錯誤也是此消彼長的關(guān)系,也沒問題的。 -
追問
您舉的癌癥的例子,我沒有能明白,和公式?jīng)]能對的上。1.明確:precision的對立面不是一類錯誤,而recall的對立面是二類錯誤,這個確定對吧?2.P和R的此消彼長可否再說的通俗一點呀?
-
追答
同學(xué)你好!
1.是的
2.還是癌癥的例子,10000人中10患癌癥,但這次更極端一點。比如一套檢測癌癥的方法,強(qiáng)調(diào)precision時,就是強(qiáng)調(diào)判斷患癌的人中有多少真正患癌,該比例越高,說明檢測能力越強(qiáng)。為了提高precision,那么我們可能會考慮10個指標(biāo),10個指標(biāo)都滿足才判定患癌癥。最終這種方法只檢測出1個患癌的人,實際1個的確患癌,也就是TP=1,FN=9,FP=0,TN=9990。此時precision=100%,recall僅10%。但是這樣的做法對于別的病人就不負(fù)責(zé)任。
強(qiáng)調(diào)recall,就是強(qiáng)調(diào)真實病人中,有多少能被我們檢測出來患癌,比例越高越好。那么我們抱著寧可錯判斷,也不能放過的心態(tài),我們就可能放松標(biāo)準(zhǔn),比如滿足10個指標(biāo)中的6個就判定患癌癥。此時可能檢測出15個患癌,實際這15個人中,8個患癌癥的,多7個正常人。TP=8,FN=2,FP=7,TN=9983。此時precision=8/15,recall=80%。但也造成了醫(yī)療資源的浪費。
所以在這套檢測的方法中,我們選的指標(biāo)越多,那么precision越高,但是recall相對就會低;選的指標(biāo)越少,那么recall越高,但precision相對會低。 -
追問
我的理解(簡單轉(zhuǎn)述一下您的意思 看是否理解): 精準(zhǔn)度高的好處:檢查過的沒有錯的;壞處:查的太慢 對沒查到的不公平。召回度高的好處:把可能出問題的基數(shù)擴(kuò)大了;壞處:不該查的也查了,浪費了資源。標(biāo)準(zhǔn)嚴(yán)一點,準(zhǔn)確度高 召回的基數(shù)就不可能那么大;標(biāo)準(zhǔn)松一點,召回的基數(shù)大了,就不可能保證每個都是精準(zhǔn)無誤。所以此消彼長。 ok?
-
追答
同學(xué)你好!
很棒!理解得很到位哈! -
追問
謝謝老師,看來有問題還是要問的,弄明白了心情好~
-
追答
別客氣 繼續(xù)加油哈~
