努同學(xué)
2023-07-09 18:09我不是很懂X的取值偏離整體的實(shí)質(zhì)意義,X作為自變量,相當(dāng)于是主觀的輸入數(shù)據(jù),不合適把它remove就行了。而且比如我可以主動(dòng)設(shè)置一個(gè)區(qū)間,0到100,作為X的取值區(qū)間,都是人為可以設(shè)定的,那這樣怎么還會(huì)出現(xiàn)有偏離這個(gè)區(qū)間的情況呢?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
愛吃草莓的葡萄助教
2023-07-10 14:49
該回答已被題主采納
同學(xué)你好。這里有幾個(gè)誤區(qū):
首先自變量x不是主觀的數(shù)據(jù),自變量數(shù)據(jù)第一是客觀存在的,第二在回歸假設(shè)中有一條是自變量不是隨機(jī)的。如果自變量是主觀數(shù)據(jù),那你通過模型也會(huì)得出主觀的y,這有什么意義;
其次,數(shù)據(jù)客觀存在,但也存在極端異常值。例如2022月度制冷空調(diào)售量,會(huì)不會(huì)在這十二個(gè)數(shù)據(jù)中存在極端數(shù)據(jù),換句話說在一向平穩(wěn)的銷量中有沒有可能出現(xiàn)銷量特別高或特別低的月度,當(dāng)然會(huì)有,夏天會(huì)明顯增加冬季明顯降低,每年都是如此是吧,這就是后面會(huì)學(xué)到的季節(jié)性影響。那么現(xiàn)在但看這十二個(gè)數(shù)據(jù),我并不知道有季節(jié)性這個(gè)東西,那你覺得特別高/低的數(shù)據(jù)是不是應(yīng)該剔除,以免影響回歸的結(jié)果。
同樣的道理,出現(xiàn)極端值,偏離趨勢(shì),它會(huì)傾斜回歸線,造成較大的誤差,那么應(yīng)該去除極端值,避免影響回歸線。同學(xué)你也說了設(shè)置區(qū)間,那設(shè)置多少合適,另外你設(shè)置這個(gè)區(qū)間就有主觀數(shù)據(jù)操縱,那結(jié)果還會(huì)準(zhǔn)嗎。
-
追問
老師我有嘗試去理解,但還有一個(gè)問題,比如說我想看年齡AGE對(duì)收入SALARY的影響,那么一個(gè)簡單的regression model 就是 Salary=intercept+b*AGE+ERROR,那對(duì)于自變量AGE來講,0到100才是一個(gè)有意義的區(qū)間,1000明顯是一個(gè)outlier,這種情況下人為設(shè)一個(gè)區(qū)間是不是更有經(jīng)濟(jì)意義。
