13****52
2023-10-04 16:471、這么多變量,為什么選擇dividend作為root node? 2、決策樹到底流程步驟是怎樣,能起到什么作用,老師課上只提了一句,基尼系數(shù)越小越好,至于具體細節(jié)說得不夠清晰完整,請幫忙重新梳理一下,謝謝。
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
黃石助教
2023-10-07 10:44
該回答已被題主采納
同學(xué)您好。
1. 決策樹的構(gòu)建與信息增益的概念相關(guān)。信息增益是一種通過獲取關(guān)于特征的信息來降低不確定性的度量指標。決策樹每一個節(jié)點上所選取的特征都應(yīng)盡量最大化信息增益、最大程度上降低不確定性。不確定性我們使用熵(Emtropy)或者基尼系數(shù)(Gini coefficient)衡量,這些指標均落在[0, 1]區(qū)間,取值越大不確定性越高,取值越小不確定性越低。在選擇第一個節(jié)點的變量之前,我們會先計算出一個不考慮任何特征的輸出變量的熵/基尼系數(shù),再將已有的變量一個一個套進來試、選擇使得熵/基尼系數(shù)降低最多的那個變量作為root node。這里倒也不是選用的Dividend,只是畫了個示意圖;最終最大化信息增益的是Large Cap變量,其使得基尼系數(shù)從0.48降至0.255,信息增益 = 0.225。
2. 這個建議同學(xué)可以看一下原版書的例題,在每個節(jié)點上都是按照上述思想去構(gòu)建的。這個細節(jié)考到的概率很低,同學(xué)稍作了解即可。
