哎同學(xué)
2024-05-08 22:55完全看不懂,請老師給解釋下,謝謝
所屬:FRM Part I > Foundations of Risk Management 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
黃石助教
2024-05-10 11:03
該回答已被題主采納
同學(xué)你好。這里考察決策樹的構(gòu)建。我先說一下做法。決策樹的構(gòu)建與信息增益的概念相關(guān),信息增益是一種通過獲取關(guān)于特征的信息來降低不確定性的度量指標(biāo)。決策樹每一個節(jié)點上所選取的特征都應(yīng)盡量最大化信息增益、最大程度上降低不確定性。不確定性我們使用熵(Emtropy)或者基尼系數(shù)(Gini coefficient)衡量,這些指標(biāo)均落在[0, 1]區(qū)間,取值越大不確定性越高,取值越小不確定性越低。在選擇第一個節(jié)點的變量之前,我們會先計算出一個不考慮任何特征的輸出變量的熵/基尼系數(shù),再將已有的變量一個一個套進來試、選擇使得熵/基尼系數(shù)降低最多(也就是信息增益最多)的那個變量作為root node。
回到題目,題目已經(jīng)告訴我們root node是occupancy status了,我們只需要計算出其帶來的基尼系數(shù)的下降幅度即可。首先,計算不考慮任何特征的輸出變量的基尼系數(shù),十個房產(chǎn)中五個賣價高于8,000,000,五個低于8,000,000。根據(jù)公式,Gini = 1 - [(5/10)^2 + (5/10)^2] = 0.5。接下來,考慮occupancy status作為root node。在4個occupied的房產(chǎn)中,3個賣價高于8,000,000,1個賣價低于8,000,000,Gini = 1 - [(3/4)^2 + (1/4)^3] = 0.375;在6個非occupied的房產(chǎn)中,2個賣價高于8,000,000,4個賣價低于8,000,000,Gini = 1 - [(2/6)^2 + (4/6)^2] = 0.444;二者取平均等于0.410。因此,基尼系數(shù)從0.5跌到0.410,下降了0.09,這是我們的信息增益。
