白同學
2023-05-12 16:35這里的n-gram在text wrangling不是已經做過了么?為何在text exploration 中要再做一次?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關試題
來源: 視頻位置 相關試題
1個回答
愛吃草莓的葡萄助教
2023-05-12 17:20
該回答已被題主采納
同學你好。首先說明一下,此處特征工程處理技術可能與前面文本預處理技術重復。
首先前面文本預處理中N-grams,例如老師舉的“天”“安”“門”不能單獨展示,需要作為一個有序整體“天安門”來呈現,因此我們將其進行相應處理。
其次后面的是文本探索,可能我們將明顯的文本數據進行打包處理,但是不明顯的就真沒有意義嗎,顯然不是,因此我們此處特征工程進行探索,需要用到N-grams。例如“天”“安”“門”“地”,很明顯我們會將“天安門”作為一個整體,但是能不能重新構成一個單詞呢,顯然也可以,我們重新編排構成“地安門”,有沒有意義那就是后面步驟了。
