Eiji
2020-10-19 23:11請問啞變量和多重共線性有什么關(guān)系嗎
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
Jenny助教
2020-10-20 10:21
該回答已被題主采納
同學(xué)你好,如果回歸模型中含有截距項,若一個定型變量有m個類別,則引入m-1個虛擬變量。否則會產(chǎn)生虛擬變量陷阱。
另外,這里再對虛擬變量陷阱進行展開一下,這部分的解釋會有些超綱,會涉及到矩陣和線性代數(shù)方面的內(nèi)容,所以這部分會簡單略過不展開。大概了解一下就可以了。
主要是記結(jié)論,即如果有截距項的情況下,只能引入m-1個虛擬變量,否則會導(dǎo)致虛擬變量陷阱。
假設(shè)y是因變量,自變量有C1、C2、C3。在有截距項b時,回歸模型為:
y=a1×C1+a2×C2+a3×C3+b
按上圖中的虛擬變量設(shè)置,用OLS(ordinary least squares)求解方程的時候,模型解為
[a1,a2,a3,b]’=invert((X’X))X’Y,
當(dāng)有截距項b的并用時候,用上述公式求解模型就會遇到“虛擬變量陷阱”,也就是矩陣X’X是不可逆的(因為矩陣并不是滿秩的)。簡單來說就是完全多重共線性(即其中一個自變量可以完全由另外兩個自變量決定)導(dǎo)致OLS算法中矩陣不可逆。從而無法計算回歸模型的系數(shù)(“虛擬變量陷阱”是和回歸模型的求解算法有關(guān)的,上述的OLS的閉式解會報錯)。如果去掉截距項,這個矩陣是滿秩的,也就是各列向量并不是線性相關(guān)。故此時,沒有共線性的問題,那么就可以計算出回歸模型的系數(shù)。
如果回歸模型不含截距項,則m種特征需引入m個虛擬變量。但是在建立模型的時候,通常是建立含截距項的模型。雖然不含截距項的模型引進和類別相同數(shù)量的虛擬變量不存在完全共線性的問題,但要檢驗截距項的差值會更加困難,且不含截距項的回歸在計算r方上沒有一個一致的方法。所以一般都是采用含有截距項的模型進行研究。
