丁同學(xué)
2023-05-12 17:25Q2,在文本數(shù)據(jù)處理和清洗過程中,優(yōu)先級高的應(yīng)該是white space和html tags呀,而numbers和標點應(yīng)該是可選的處理方式。這個題目答案為什么是numbers呢?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
愛吃草莓的葡萄助教
2023-05-14 18:12
該回答已被題主采納
同學(xué)你好。在文本數(shù)據(jù)的清洗與預(yù)處理過程中,沒有說哪一個是優(yōu)先級高的。本題考查的是文本數(shù)據(jù)與結(jié)構(gòu)數(shù)據(jù)處理方式。A與C選項的scale與winsorization是結(jié)構(gòu)化數(shù)據(jù)的操作,而本題問的是非結(jié)構(gòu)化數(shù)據(jù),因此方法不對。
-
追問
可是,在基礎(chǔ)課里面和其他問題的解答視頻里面,林老師有講過,html和空白是肯定要做的處理,而num和大小寫會有選擇的進行處理;
另外,從題目具體哪里可以看出來“考察的是非結(jié)構(gòu)化數(shù)據(jù)的處理”? -
追答
同學(xué)你好。
老師說的如果符號或數(shù)字如果有意義那需要替換,沒有說是可處理可不處理的意思。
同學(xué)你說的優(yōu)先級,優(yōu)先級的意思是說如果這四個都存在,哪一個先處理哪一個后處理。在這里沒有這一說,都是需要處理的,有的是去除有的是替換。
在文章中“statement 2”下一段話對應(yīng)的就是本題。這一段開始就說了數(shù)據(jù)獲取基于text-based model。
