愛同學
2023-04-24 15:38為什么DF是越低越好,TF是越高越好呢?(因為講義說TF-IDF是越高越好)
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
愛吃草莓的葡萄助教
2023-04-24 21:06
該回答已被題主采納
同學你好.TF是term frequency,衡量的是給定單詞在全部文本全部單詞中出現(xiàn)的比率,TF越高說明該單詞可能越重要(剔除停止詞等常見詞);
DF是document frequency,衡量的是給定單詞的句子在全部句子中的比率,當一些停止詞或常見詞出現(xiàn)時,例如a、an、the等,這些詞但每一句話中基本上都會有出現(xiàn),如果計算DF的話,例如一篇文章可能有100句話,但是90句話都有a,你說這個單詞意義大嗎,顯然不大,因此DF越小越好。在DF的基礎(chǔ)上變形就得到了IDF。
TF-IDF就是上面兩個的結(jié)合,即既要單詞出現(xiàn)頻率高,又要單詞出現(xiàn)的不要太分散,越高說明越重要。
同學如果回答解決了您的疑惑,請給回答給予采納。祝早日持證!
