數(shù)據(jù)挖掘項(xiàng)目中最費(fèi)力的事,就是數(shù)據(jù)獲取和預(yù)處理。這些事情占用項(xiàng)目的時(shí)間一般為能達(dá)到 80%。最簡(jiǎn)單的解釋可以概括為「數(shù)據(jù)是困難的」。那么怎么解決呢?量化金融分析師AQF告訴你幾個(gè)賊好用的方法~
在真實(shí)數(shù)據(jù)中,我們拿到的數(shù)據(jù)可能包含了大量的缺失值,可能包含大量的噪音,也可能因?yàn)槿斯や浫脲e(cuò)誤導(dǎo)致有異常點(diǎn)存在,非常不利于算法模型的訓(xùn)練。
數(shù)據(jù)清洗的結(jié)果是對(duì)各種臟數(shù)據(jù)進(jìn)行對(duì)應(yīng)方式的處理,得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘等使用。
數(shù)據(jù)清洗能解決數(shù)據(jù)的各種問(wèn)題,包括但不限于:
準(zhǔn)確性
適用性
及時(shí)性
一致性
權(quán)威性
每種問(wèn)題都有各種情況,每種情況適用不同的處理方法。
數(shù)據(jù)清理一般針對(duì)具體應(yīng)用,因而難以歸納統(tǒng)一的方法和步驟,但是根據(jù)數(shù)據(jù)不同可以給出相應(yīng)的數(shù)據(jù)清理方法。
值缺失處理方法
大多數(shù)情況下,缺失的值必須手工填入( 即手工清理)。當(dāng)然,某些缺失值可以從本數(shù)據(jù)源或其它數(shù)據(jù)源推導(dǎo)出來(lái),這就可以用平均值、最大值、最小值或更為復(fù)雜的概率估計(jì)代替缺失的值,從而達(dá)到清理的目的。
準(zhǔn)確性檢測(cè)方法
用統(tǒng)計(jì)分析的方法識(shí)別可能的錯(cuò)誤值或異常值,如偏差分析、識(shí)別不遵守分布或回歸方程的值,也可以用簡(jiǎn)單規(guī)則庫(kù)(常識(shí)性規(guī)則、業(yè)務(wù)特定規(guī)則等)檢查數(shù)據(jù)值,或使用不同屬性間的約束、外部的數(shù)據(jù)來(lái)檢測(cè)和清理數(shù)據(jù)。
重覆性解決方法
資料庫(kù)中屬性值相同的記錄被認(rèn)為是重覆記錄,通過(guò)判斷記錄間的屬性值是否相等來(lái)檢測(cè)記錄是否相等,相等的記錄合并為一條記錄(即合并/清除)。合并/清除是消重的基本方法。
不一致性解決方法
從多數(shù)據(jù)源集成的數(shù)據(jù)可能有語(yǔ)義沖突,可定義完整性約束用于檢測(cè)不一致性,也可通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)聯(lián)系,從而使得數(shù)據(jù)保持一致。
噪音處理
噪音,是被測(cè)量變量的隨機(jī)誤差或方差。
1.分箱法
分箱方法通過(guò)考察數(shù)據(jù)的「近鄰」(即,周圍的值)來(lái)光滑有序數(shù)據(jù)值。這些有序的值被分布到一些「桶」或箱中。
2. 回歸法
可以用一個(gè)函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。線性回歸涉及找出擬合兩個(gè)屬性(或變量)的「較佳」直線,使得一個(gè)屬性能夠預(yù)測(cè)另一個(gè)。多線性回歸是線性回歸的擴(kuò)展,它涉及多于兩個(gè)屬性,并且數(shù)據(jù)擬合到一個(gè)多維面。使用回歸,找出適合數(shù)據(jù)的數(shù)學(xué)方程式,能夠幫助消除噪聲。
>>>點(diǎn)擊咨詢Python量化投資與金融實(shí)戰(zhàn)應(yīng)用
.png)
完善下表,48小時(shí)內(nèi)查收全套AQF備考資料
.jpg)
金程推薦: AQF考試 AQF報(bào)名 AQF培訓(xùn) 量化金融分析師
聲明▎更多內(nèi)容請(qǐng)關(guān)注微信號(hào)量化金融分析師。本文轉(zhuǎn)載自網(wǎng)絡(luò),我們尊重原創(chuàng),重在分享。我們對(duì)原文作者,表示敬意!版權(quán)歸原作者與機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。謝謝支持!




