李同學
2020-08-19 22:37請問為什么 第二種方法,即標準化 可以消除 outlier?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關試題
來源: 視頻位置 相關試題
1個回答
Kevin助教
2020-08-20 09:21
該回答已被題主采納
同學你好!
舉個簡單的例子,分類的問題,x=-1000,-10,-5,-4,-3,-2,-1,0,1,2,3,4,5,10,1000,其中-1000和1000都是異常值。訓練出來的模型,會判定x在-3到3之間y為1,其余為0,也就是x=-3,-2,-1,0,1,2,3時,y=1。
而Normalization后,這個區(qū)間也會相應壓縮,可能會變成x(normalized)在-0.3到+0.3之間y(new)為1,其余為0,但此時由于異常值的存在,分母特別大,原本不在-3到3的數(shù)據(jù)點,經(jīng)過Normalization后,都在-0.3到0.3之間,即x=-10,-5,-4,-3,-2,-1,0,1,2,3,4,5,10時,y=1。因此該算法對異常值敏感。
而Standardization經(jīng)過該變化,直觀上理解,就是區(qū)間成比例縮放,因為是根據(jù)該組數(shù)據(jù)的均值和標準差調整的,異常值對均值和標準差的影響相對較小,因此較大程度保留了該組數(shù)據(jù)的性質。所以Standardization對異常值不太敏感。但要注意,這里并沒有消除outlier,只是outlier的影響小而已。
-
追問
老師您解釋的很具體,我想把問題簡單化一點。我說一下我的想法:先說第二種 標準化,即Z值化,因為(0,1)正太分布的均值是0,標準差是1,以數(shù)據(jù)大小一般不會超過三倍標準差為common sence,即任何數(shù)據(jù)Z化之后都在(-3,3)之間,所以異常值 10000 -5000也罷的影響就小了;相對,正?;?,因為分母為 range,受異常值影響大,所以整個結果受異常值影響也會大。問:可否簡單的這樣理解,目的是更好的記住結論啊~
-
追答
同學你好!
可以這么理解。其實考試并不要求具體的理解,記住結論即可。
