曹同學
2021-03-01 22:28老師,bagging里面所謂的不同訓練集怎么理解,如果都是從200個數(shù)據(jù)里分組作為訓練數(shù)據(jù),怎么分訓練集還是這200啊
所屬:CFA Level II > Quantitative Methods 視頻位置 相關試題
來源: 視頻位置 相關試題
1個回答
Kevin助教
2021-03-02 10:02
該回答已被題主采納
同學你好!
比如200個數(shù)據(jù),每個數(shù)據(jù)有100個feature。bagging的做法,比如每次抽200個數(shù)據(jù)的不重疊的10個feature進行訓練。
致正在努力的你,望能解答你的疑惑~
如此次答疑能更好地幫助你理解該知識點,煩請【點贊】。你的反饋是我們進步的動力,祝你順利通過考試~
-
追問
我之前理解的200個數(shù)據(jù),隨機抽100,反復這樣。這個隨機的100就是訓練集。不是這樣嗎?
-
追答
同學你好!
我看了下目前主流的說法,你說的是對的,應該是我記混了。
bagging的做法:
從原始樣本集中抽取訓練集。每輪從原始樣本集中使用Bootstraping的方法抽取n個訓練樣本(在訓練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒有被抽中)。共進行k輪抽取,得到k個訓練集。(k個訓練集之間是相互獨立的)
每次使用一個訓練集得到一個模型,k個訓練集共得到k個模型。
對分類問題:將上步得到的k個模型采用投票的方式得到分類結果;對回歸問題,計算上述模型的均值作為最后的結果。 -
追問
也就是說這個抽樣不是把200個都用到,屬于隨機抽樣。如果這樣的話不是也會出現(xiàn)偏差,比如沒有被抽到的可能解釋力度更大
-
追答
同學你好!
1.是的,不一定都用到。
2.由于是k個模型的平均結果,有用的特征基本都是能抽到的。即使沒抽到,調(diào)試模型的過程中也可以采用不同的抽樣結果,進行對比。
