別同學(xué)
2022-05-22 18:10請(qǐng)問課后題reading5第24題怎樣理解呢?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個(gè)回答
Essie助教
2022-05-22 23:53
該回答已被題主采納
你好,Achler使用網(wǎng)絡(luò)蜘蛛程序,從社交媒體網(wǎng)頁(yè)中提取非結(jié)構(gòu)化的原始內(nèi)容。原始文本數(shù)據(jù)是一系列字符,包含其他無用元素,包括html標(biāo)簽、標(biāo)點(diǎn)符號(hào)和空格(包括制表符、換行符和換行符)。
刪除數(shù)字是非結(jié)構(gòu)化數(shù)據(jù)的文本清理過程中的基本操作之一。 當(dāng)文本中出現(xiàn)數(shù)字(或數(shù)字)時(shí),應(yīng)將其刪除或替換為注釋“/number/”。
lemmatization是詞形還原,它發(fā)生在非結(jié)構(gòu)化數(shù)據(jù)的text wrangling,是將單詞形式轉(zhuǎn)換為其詞形詞根的過程。詞形還原減少了以各種形式出現(xiàn)的單詞的重復(fù),同時(shí)保持了文本數(shù)據(jù)的語(yǔ)義結(jié)構(gòu),從而有助于訓(xùn)練不太復(fù)雜的ML模型。
C選項(xiàng)的空格是對(duì)的,錯(cuò)在winsorization是針對(duì)結(jié)構(gòu)化數(shù)據(jù)的,通常是用來消除替代異常值的手段,而這里討論的是文本數(shù)據(jù)。
