李同學(xué)
2021-10-31 00:2369題,沒聽懂,給每一個亞變量加上截距,為什么會造成多重共線性?
所屬:FRM Part I > Quantitative Analysis 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
Jenny助教
2021-11-01 13:44
該回答已被題主采納
同學(xué)你好,完整的說法是如果回歸模型中含有截距項,若一個定型變量有m個類別,則引入m-1個虛擬變量。如果回歸模型不含截距項,則m種特征可以引入m個虛擬變量。
如果既包含m個虛擬變量,又有截距項就會產(chǎn)生虛擬變量陷阱。
這部分的解釋會有些超綱,會涉及到矩陣和線性代數(shù)方面的內(nèi)容,所以這部分會簡單略過不展開。大概了解一下就可以了。
主要是記結(jié)論,即如果有截距項的情況下,只能引入m-1個虛擬變量,否則會導(dǎo)致虛擬變量陷阱。
假設(shè)y是因變量,自變量有C1、C2、C3。在有截距項b時,回歸模型為:
y=a1×C1+a2×C2+a3×C3+b
按上圖中的虛擬變量設(shè)置,用OLS(ordinary least squares)求解方程的時候,模型解為
[a1,a2,a3,b]’=invert((X’X))X’Y,
當(dāng)有截距項b的并用時候,用上述公式求解模型就會遇到“虛擬變量陷阱”,也就是矩陣X’X是不可逆的(因為矩陣并不是滿秩的)。簡單來說就是完全多重共線性(即其中一個自變量可以完全由另外兩個自變量決定)導(dǎo)致OLS算法中矩陣不可逆。從而無法計算回歸模型的系數(shù)(“虛擬變量陷阱”是和回歸模型的求解算法有關(guān)的,上述的OLS的閉式解會報錯)。如果去掉截距項,這個矩陣是滿秩的,也就是各列向量并不是線性相關(guān)。故此時,沒有共線性的問題,那么就可以計算出回歸模型的系數(shù)。
理論上,去掉截距的話,就可以引入m個虛擬變量,但是在建立模型的時候,通常是建立含截距項的模型。雖然不含截距項的模型引進(jìn)和類別相同數(shù)量的虛擬變量不存在完全共線性的問題,但要檢驗截距項的差值會更加困難,且不含截距項的回歸在計算r方上沒有一個一致的方法。所以一般都是采用含有截距項的模型進(jìn)行研究。
-
追問
不好意思,重新補充一下題干,遇到多重共線性的題總做不好。
-
追答
這里不是多重共線性的問題了,而是完全共線性。如果回歸模型中含有截距項,若一個定型變量有m個類別,則引入m-1個虛擬變量,否則會造成完全共線性。如果回歸模型不含截距項,則m種特征可以引入m個虛擬變量。
簡單一點,舉個例子,如果模型里面含有季度虛擬變量的話,在有截距項的情況下,模型只能包含其中三個季度,比如第一季度,第二季度,第三季度,其中第四季度不用加進(jìn)去,因為如果不是前面三個季度,那么自然就是第四季度,如果是前面三個季度之一,那么自然也就不是第四季度了,不可能同時兩個季度一起出現(xiàn)。如果在有截距項的時候,包含了四個季度,那么就會引起完全共線性問題,導(dǎo)致虛擬變量陷阱,從而無法得出模型的系數(shù)。如果沒有截距項的話,理論上可以包含四個季度,也不會引起上述問題。
考試只要記住第一句的結(jié)論即可。
