18****21
2024-08-13 18:07老師在另一題講mutual information的時候,還有這題講df的時候都說的是,出現(xiàn)頻次越低越重要,但是在這題的第一題又說了出現(xiàn)頻次最高和最低的都是廢詞。請問怎么區(qū)分這兩種情況?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
愛吃草莓的葡萄助教
2024-08-14 11:48
該回答已被題主采納
同學(xué)你好。本題并沒有涉及MI,與同學(xué)問的相關(guān)的是第一題,涉及的是TF。不同的指標有不同的含義,需要理解指標的含義才能進行判斷。
TF是詞頻,是詞出現(xiàn)的頻率。頻率過高與過低都不太好。例如the、is等,它們在文章中出現(xiàn)的頻率很高,但是這些詞沒有意義。過低說明不重要,重要的東西不會出現(xiàn)很少的次數(shù)。因此,我們看的是出現(xiàn)頻率位于中間的詞。
MI是互信息,是衡量一個標記對一類文本貢獻了多少信息。如果標記在所有文本類中的分布相同,則互信息值將等于 0。MI 值接近 1,意味著任何一個類中的標記往往只在該特定文本類中更頻繁地出現(xiàn),例如比賽、得分等詞出現(xiàn)在與運動相關(guān)的文章中的頻率會更高,出現(xiàn)在政治、旅游相關(guān)文章中的頻率會更低。具有最高 MI 值的標記與其相應(yīng)的文本類名稱有密切的關(guān)系。
