13****52
2024-03-15 08:47這一頁的silhouette coefficient、GtS、M-fold都是什么概念,麻煩分別解釋下。
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
黃石助教
2024-03-15 16:18
該回答已被題主采納
同學(xué)你好。
Silhouette coefficient是輪廓系數(shù),被用于尋找最優(yōu)的K值。對于某個(gè)簇中的數(shù)據(jù)點(diǎn)i,首先計(jì)算其與簇內(nèi)所有數(shù)據(jù)之間的平均距離,記作αi;再計(jì)算其與最鄰近簇內(nèi)所有數(shù)據(jù)之間的平均距離(即數(shù)據(jù)點(diǎn)i與所有非本身所在簇的簇內(nèi)所有數(shù)據(jù)之間的平均距離的最小值,這定義了“最鄰近簇”),記作bi。換言之,αi 描述的是簇內(nèi)的內(nèi)聚度,而 bi 描述的是簇間的分離度。數(shù)據(jù)點(diǎn)i的輪廓系數(shù)記作 Si = (bi - αi)/Max(αi, bi)。將所有數(shù)據(jù)點(diǎn)的輪廓系數(shù)求平均,得到的就是該聚類結(jié)果總的輪廓系數(shù)。輪廓系數(shù)的取值介于-1, 1之間,越趨近于1代表內(nèi)聚度和分離度都相對較優(yōu)。
GtS的做法是先建立一個(gè)包含所有變量的大型模型,在對所有系數(shù)進(jìn)行檢驗(yàn)后,找到最不顯著的那個(gè)系數(shù)對應(yīng)的解釋變量(也就是test statistic絕對值最小的那個(gè)),將其剔除、重新回歸、循環(huán)往復(fù)、直到模型中所有系數(shù)都是顯著的。
M-fold cross validation則是拿出大部分樣本進(jìn)行建模,留下小部分樣本進(jìn)行模型驗(yàn)證,計(jì)算出小部分樣本中的SSR,比較各個(gè)模型的表現(xiàn),選擇SSR最小的那個(gè)。具體方法見下圖。
