Ozr
2024-04-13 19:21為什么一個(gè)token出現(xiàn)在了all class就MI=0?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來(lái)源: 視頻位置 相關(guān)試題
1個(gè)回答
愛(ài)吃草莓的葡萄助教
2024-04-15 15:18
該回答已被題主采納
同學(xué)你好。MI是用來(lái)衡量?jī)蓚€(gè)隨機(jī)變量之間的相互依賴性的量。具體來(lái)說(shuō),MI量化了知道一個(gè)變量的值如何減少對(duì)另一個(gè)變量值的不確定性。
如果一個(gè)特定的token(比如一個(gè)單詞或詞匯)在所有類別的文本中都有出現(xiàn),那么它可能不具有區(qū)分不同類別的信息價(jià)值。這是因?yàn)檫@個(gè)token在類別間的分布是均勻的,它不會(huì)提供任何有助于區(qū)分一個(gè)類別與另一個(gè)類別的額外信息。換句話說(shuō),這個(gè)token的出現(xiàn)并不減少對(duì)文本所屬類別的預(yù)測(cè)的不確定性。
因此,當(dāng)這個(gè)token出現(xiàn)在所有類別中時(shí),它與類別標(biāo)簽之間的MI接近于零,因?yàn)樗鼈儙缀醪幌嚓P(guān)。在文本分類任務(wù)中,這樣的token可能被認(rèn)為是沒(méi)有信息量的,因?yàn)樗惶峁┤魏斡兄诜诸惖男盘?hào)。在特征選擇過(guò)程中,通常會(huì)排除這類MI較低的token,以便更好地識(shí)別和利用那些更具區(qū)分度的特征。
