Z
2023-12-23 19:36這兩個(gè)步驟有啥重大區(qū)別?解析看的很暈
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來(lái)源: 視頻位置 相關(guān)試題
1個(gè)回答
愛(ài)吃草莓的葡萄助教
2023-12-25 14:17
該回答已被題主采納
同學(xué)你好。文本準(zhǔn)備和整理(text preparation and wrangling)主要是針對(duì)原始文本數(shù)據(jù)進(jìn)行預(yù)處理,以便于后續(xù)的分析。這個(gè)過(guò)程可能包括去除停用詞、標(biāo)點(diǎn)符號(hào)、數(shù)字和特殊字符,進(jìn)行詞干提取或詞形還原,以及將文本轉(zhuǎn)換為小寫等。此外,還可能包括一些更復(fù)雜的操作,如命名實(shí)體識(shí)別、詞性標(biāo)注、依存句法分析等。
而文本護(hù)理/管理(text curation)則是在預(yù)處理后的文本基礎(chǔ)上,進(jìn)一步篩選和組織數(shù)據(jù),以便于特定目的的研究和分析。這可能包括選擇與研究主題相關(guān)的文本,排除無(wú)關(guān)或重復(fù)的內(nèi)容,以及將文本按照一定的順序或結(jié)構(gòu)排列。此外,還可能包括對(duì)文本進(jìn)行注釋和標(biāo)記,以便于后續(xù)的檢索和分析。
