魯同學(xué)
2023-10-07 12:41講義中明確表示, token詞頻過高或過低都不好,為什么TF 以及 TF*IDF越高越好
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
愛吃草莓的葡萄助教
2023-10-08 15:54
該回答已被題主采納
同學(xué)你好。token確實(shí)過高與過低都不好,但是把這兩頭掐掉后,TF是高一點(diǎn)好還是低一點(diǎn)好,是不是越高越好。但是怎么處理過高與過低詞呢,引入了DF,這個指標(biāo)越高說明沒有差異性,像什么the等,經(jīng)常出現(xiàn)那有差異性,因此它越低越好,是不是間接處理了過高與過低詞。然而我們在比較是一個高一個低,結(jié)合起來是高還是低不確定,難以判斷,因此將DF轉(zhuǎn)化為IDF,這樣TF與IDF都變成越高越好,兩個結(jié)合起來也容易確定。
