L
2024-08-05 16:40這里寫的是對raw text data進行preprocess,但是后面實際上是開始清洗,所以是prepare和preprocess吧,因為清洗不屬于preprocess,還是說考試中并沒有完全區(qū)分這兩個詞呢
所屬:CFA Level II > Quantitative Methods 視頻位置 相關試題
來源: 視頻位置 相關試題
1個回答
愛吃草莓的葡萄助教
2024-08-06 14:41
該回答已被題主采納
同學你好。文本數(shù)據(jù)清洗(準備)包括刪除html標簽、刪除空格、刪除數(shù)字、刪除標點符號;接著就是文本數(shù)據(jù)預處理,包括小寫化、去掉停頓詞、詞性還原與詞根還原。
結(jié)構(gòu)數(shù)據(jù)清洗(準備)是將幾種可能存在的錯誤去掉;接著就是結(jié)構(gòu)數(shù)據(jù)預處理,包括提取、匯總、轉(zhuǎn)換、選擇、過濾。
第一段寫的就是結(jié)構(gòu)化數(shù)據(jù)預處理,根據(jù)已有的特征提取、匯總或轉(zhuǎn)換出新的特征,怎么是清洗呢,也沒有說刪除幾種可能存在的錯誤,也沒有說刪除標簽、符號等內(nèi)容。
-
追問
題目后面一頁就是這個呀,第一步就是clean the raw text data
-
追答
同學你好。在本題中也是有區(qū)分的。最后一段話的意思是說:兩人討論如何對原始文本數(shù)據(jù)進行預處理,然后一人告訴另一人原始文本數(shù)據(jù)處理需經(jīng)下面三步完成。也就是說下面三步是數(shù)據(jù)處理的步驟,數(shù)據(jù)處理包括數(shù)據(jù)準備(即清洗)和數(shù)據(jù)整理(即預處理)這兩步。
