Venus
2024-11-03 00:09Q2,老師上課的時(shí)候講的,IDF加了log就是為了剔除sample size帶來的影響,與statement 3 的說法矛盾,為什么這里選3是對的
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
愛吃草莓的葡萄助教
2024-11-06 13:25
該回答已被題主采納
同學(xué)你好。TF-IDF值因數(shù)據(jù)集中的文檔數(shù)量而異,因此,應(yīng)用于只有幾個(gè)文檔的數(shù)據(jù)集時(shí),模型性能可能會有所不同。此處與同學(xué)提到的提出sample size講的不是一回事,課程中講到的是DF過大,說明很頻繁出現(xiàn),可能沒有那么重要(比如停頓詞或者常見的)。DF適度低,說明出現(xiàn)的可能是比較重要的。
這個(gè)形式就是DF高——不重要,DF低——重要。形式相反,因此取個(gè)倒數(shù),這就變成了低——不重要,高——重要。之所以取對數(shù),這是為了防止指標(biāo)偏向較長的文件,因?yàn)檩^長的文件中字?jǐn)?shù)比較短的文件多,出現(xiàn)的次數(shù)也會較多。
-
追問
這里所說的文件,是指什么,總句子數(shù)還是總詞數(shù)還是什么?與database有什么區(qū)別
-
追答
同學(xué)你好。這里說的文件是句子數(shù)的意思,DF為包含該單詞的文檔數(shù)量除以文檔總數(shù)。database是數(shù)據(jù)集(合)。
