愛同學(xué)
2023-04-01 12:00老師說(shuō)DF是單個(gè)文件來(lái)看的,怎么分母又是所有文件數(shù)??
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來(lái)源: 視頻位置 相關(guān)試題
1個(gè)回答
愛吃草莓的葡萄助教
2023-04-02 12:51
該回答已被題主采納
同學(xué)你好。DF是從單個(gè)文件來(lái)看的,這里存在中英表述不同的區(qū)別。
DF是英文定義為the number of documents (i.e., sentences) that contain a given word divided by the total number of sentences,中文指在單個(gè)文件(文章)中包含給定單詞的句子的數(shù)量除以句子總數(shù)(例如某個(gè)文件,也即文章,包含100個(gè)句子,其中包含特定單詞的句子有10個(gè),那么DF=10/100)。
這里易混淆的是document意思,英文給定的意思是句子之意,但中文意思是指文件文檔之意,容易誤解為我們平常所理解的那種文件意思。直接按照中文意思來(lái)掌握,document=sentences,文件=句子。
此外TF*IDF中,TF是指在句子層面,即單個(gè)句子中含有特定單詞的數(shù)量除以句子的單詞總數(shù)。
