紅同學(xué)
2023-05-20 16:47lemmatization stemming lowver case remove stop words tokenization 可否分別幫忙舉些例子?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
Vincent助教
2023-05-21 11:43
該回答已被題主采納
你好
lemmatization :詞形還原,比如wolves變成wolf
stemming:詞干提取,比如把integrating變成integrat
兩者其實(shí)有共同點(diǎn),即都是要找到詞的原始形式。只不過詞干提取(stemming)會(huì)更加激進(jìn)一點(diǎn),它在尋找詞干的時(shí)候可以會(huì)得到不是詞的詞干。比如"leaves"的詞干可能得到的是"leav", 并不是一個(gè)詞。而詞形還原則保守一些,它一般只對(duì)能夠還原成一個(gè)正確的詞的詞進(jìn)行處理。
lowver case :把大寫變小寫
tokenization: 把句子This is great, 拆成 this,is, great 三個(gè)詞
remove stop words:停用詞就是句子沒什么必要的單詞,去掉他們以后對(duì)理解整個(gè)句子的語義沒有影響。文本中,會(huì)存在大量的虛詞、代詞或者沒有特定含義的動(dòng)詞、名詞,這些詞語對(duì)文本分析起不到任何的幫助,我們往往希望能去掉這些“停用詞”。比如上例中,就是把this 和 is 這些詞去掉。
-
追問
謝謝老師!
