崔同學(xué)
2025-01-21 15:49句子集,和語(yǔ)料庫(kù)是一個(gè)意思嗎? 計(jì)算TFIDF時(shí),為什么TF 與 DF 指標(biāo)的方向性是相反的呢? 我理解句子集是我們要分析的文本,語(yǔ)料庫(kù)是指提前通過(guò)科學(xué)統(tǒng)計(jì)方法,準(zhǔn)備的用于文本分析的基礎(chǔ)庫(kù)。 請(qǐng)問(wèn)我的理解錯(cuò)在哪里呢?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來(lái)源: 視頻位置 相關(guān)試題
1個(gè)回答
愛(ài)吃草莓的葡萄助教
2025-01-23 09:43
該回答已被題主采納
同學(xué)你好。句子集(collection)與語(yǔ)料集(corpus)是一個(gè)意思,在語(yǔ)料庫(kù)層的詞頻也稱(chēng)為集合頻率(collection frequency)。
TF衡量的是詞在單個(gè)文檔中的重要性。如果一個(gè)詞在某個(gè)文檔中頻繁出現(xiàn),那么它很可能與這個(gè)文檔的主題密切相關(guān),因此TF值會(huì)很高。
DF衡量的是詞在語(yǔ)料庫(kù)中的普遍性。如果一個(gè)詞在很多文檔中都出現(xiàn),那么它很可能是一個(gè)通用詞(如“的”“是”“在”等),對(duì)區(qū)分文檔主題的意義不大。因此,DF值越高,這個(gè)詞的區(qū)分能力越弱。
例如兩篇文檔,由眾多句子(sentence)組成,每個(gè)句子可以給他一個(gè)編號(hào),這些句子組成了句子集合collection或語(yǔ)料集corpus。在句子層面可以分析詞出現(xiàn)的頻率TF (Sentence Level),也可以分析詞在整個(gè)集合中出現(xiàn)的頻率TF (Collection Level)。
