淑同學(xué)
2023-09-19 10:45這部分內(nèi)容感覺很混亂,一會說詞出現(xiàn)的頻率高,說明是stop words,沒有真正的含義要刪掉;一會又說TF、DF、MI越高越好,指標(biāo)越高說明詞越特殊,要保留。
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
愛吃草莓的葡萄助教
2023-09-20 09:45
該回答已被題主采納
同學(xué)你好。TF是越高越好,但凡是有個(gè)限度,超過限度就有問題了,在限度范圍內(nèi)越高越好。例如一句話,全部都是the等詞,此時(shí)TF為1,能夠得出什么有用信息嗎。
這就好比0到1之間,假如0.1與0.8是界限,低于0.1,說明出現(xiàn)的頻率太少了,可能是專有名詞表明不了特殊意思。但是如果高于0.9,就像上面的例子一樣,可能是the等詞,沒有有用信息。在0.1到0.9中,相當(dāng)于是“剔除”兩端異常情況,在這種情況下越高當(dāng)然越好,越高說明出現(xiàn)的頻率越高。
