丁同學(xué)
2023-05-12 18:19Q3, 文本數(shù)據(jù)的處理有哪些步驟?預(yù)處理和整理階段有什么不同,分別包括哪幾項?文本清洗屬于哪個環(huán)節(jié)?以上問題麻煩老師幫助梳理解答一下,謝謝
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
愛吃草莓的葡萄助教
2023-05-15 13:50
該回答已被題主采納
同學(xué)你好。
數(shù)據(jù)處理包括兩方面,一是數(shù)據(jù)準備,二是數(shù)據(jù)預(yù)處理。
數(shù)據(jù)清洗(data cleansing)另一個名字叫做數(shù)據(jù)準備(data preparation) 。在非結(jié)構(gòu)數(shù)據(jù)中,包括移除網(wǎng)絡(luò)符號(http)、標點符號、數(shù)字、空格符號。
數(shù)據(jù)清洗下一步就是數(shù)據(jù)預(yù)處理(data preprocessing),另一個名字叫做數(shù)據(jù)整理(data wrangling)。在非結(jié)構(gòu)數(shù)據(jù)中,包括單詞小寫、去除停止詞、詞干還原(stemming)、詞根還原(Lemmatization)。
