A级片三级毛片中文字幕|97人人干人人爱|aaaaa毛片亚洲av资源网|超碰97在线播放|日本一a级毛片欧美一区黄|日韩专区潮吹亚洲AV无码片|人人香蕉视频免费|中文字幕欧美激情极品|日本高清一级免费不卡|国模大胆在线国产啪视频

AQF
首頁(yè) 備考指南 精品課程 名師團(tuán)隊(duì) 職業(yè)前景
您現(xiàn)在的位置:首頁(yè)備考必備AQF資料 一文看懂?dāng)?shù)據(jù)預(yù)處理的重要性!

一文看懂?dāng)?shù)據(jù)預(yù)處理的重要性!

發(fā)表時(shí)間: 2019-02-06 09:40:14 編輯:tansy

數(shù)據(jù)挖掘項(xiàng)目中最費(fèi)力的事,就是數(shù)據(jù)獲取和預(yù)處理。這些事情占用項(xiàng)目的時(shí)間一般為能達(dá)到 80%。最簡(jiǎn)單的解釋可以概括為「數(shù)據(jù)是困難的」。那么怎么解決呢?量化金融分析師AQF告訴你幾個(gè)賊好用的方法~

  數(shù)據(jù)挖掘項(xiàng)目中最費(fèi)力的事,就是數(shù)據(jù)獲取和預(yù)處理。這些事情占用項(xiàng)目的時(shí)間一般為能達(dá)到 80%。最簡(jiǎn)單的解釋可以概括為「數(shù)據(jù)是困難的」。那么怎么解決呢?量化金融分析師AQF告訴你幾個(gè)賊好用的方法~

  在真實(shí)數(shù)據(jù)中,我們拿到的數(shù)據(jù)可能包含了大量的缺失值,可能包含大量的噪音,也可能因?yàn)槿斯や浫脲e(cuò)誤導(dǎo)致有異常點(diǎn)存在,非常不利于算法模型的訓(xùn)練。

  數(shù)據(jù)清洗的結(jié)果是對(duì)各種臟數(shù)據(jù)進(jìn)行對(duì)應(yīng)方式的處理,得到標(biāo)準(zhǔn)的、干凈的、連續(xù)的數(shù)據(jù),提供給數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘等使用。

  數(shù)據(jù)清洗能解決數(shù)據(jù)的各種問(wèn)題,包括但不限于:

  準(zhǔn)確性

  適用性

  及時(shí)性

  一致性

  權(quán)威性

  每種問(wèn)題都有各種情況,每種情況適用不同的處理方法。

  數(shù)據(jù)清理一般針對(duì)具體應(yīng)用,因而難以歸納統(tǒng)一的方法和步驟,但是根據(jù)數(shù)據(jù)不同可以給出相應(yīng)的數(shù)據(jù)清理方法。

  值缺失處理方法

  大多數(shù)情況下,缺失的值必須手工填入( 即手工清理)。當(dāng)然,某些缺失值可以從本數(shù)據(jù)源或其它數(shù)據(jù)源推導(dǎo)出來(lái),這就可以用平均值、最大值、最小值或更為復(fù)雜的概率估計(jì)代替缺失的值,從而達(dá)到清理的目的。

  準(zhǔn)確性檢測(cè)方法

  用統(tǒng)計(jì)分析的方法識(shí)別可能的錯(cuò)誤值或異常值,如偏差分析、識(shí)別不遵守分布或回歸方程的值,也可以用簡(jiǎn)單規(guī)則庫(kù)(常識(shí)性規(guī)則、業(yè)務(wù)特定規(guī)則等)檢查數(shù)據(jù)值,或使用不同屬性間的約束、外部的數(shù)據(jù)來(lái)檢測(cè)和清理數(shù)據(jù)。

  重覆性解決方法

  資料庫(kù)中屬性值相同的記錄被認(rèn)為是重覆記錄,通過(guò)判斷記錄間的屬性值是否相等來(lái)檢測(cè)記錄是否相等,相等的記錄合并為一條記錄(即合并/清除)。合并/清除是消重的基本方法。

  不一致性解決方法

  從多數(shù)據(jù)源集成的數(shù)據(jù)可能有語(yǔ)義沖突,可定義完整性約束用于檢測(cè)不一致性,也可通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)聯(lián)系,從而使得數(shù)據(jù)保持一致。

  噪音處理

  噪音,是被測(cè)量變量的隨機(jī)誤差或方差。

  1.分箱法

  分箱方法通過(guò)考察數(shù)據(jù)的「近鄰」(即,周圍的值)來(lái)光滑有序數(shù)據(jù)值。這些有序的值被分布到一些「桶」或箱中。

  2. 回歸法

  可以用一個(gè)函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)。線性回歸涉及找出擬合兩個(gè)屬性(或變量)的「較佳」直線,使得一個(gè)屬性能夠預(yù)測(cè)另一個(gè)。多線性回歸是線性回歸的擴(kuò)展,它涉及多于兩個(gè)屬性,并且數(shù)據(jù)擬合到一個(gè)多維面。使用回歸,找出適合數(shù)據(jù)的數(shù)學(xué)方程式,能夠幫助消除噪聲。

  >>>點(diǎn)擊咨詢Python量化投資與金融實(shí)戰(zhàn)應(yīng)用

AQF金融寬客交流群

  完善下表,48小時(shí)內(nèi)查收全套AQF備考資料

AQF資料索取框

  金程推薦: AQF考試 AQF報(bào)名 AQF培訓(xùn) 量化金融分析師

  >>>返回首頁(yè)

  聲明▎更多內(nèi)容請(qǐng)關(guān)注微信號(hào)量化金融分析師。本文轉(zhuǎn)載自網(wǎng)絡(luò),我們尊重原創(chuàng),重在分享。我們對(duì)原文作者,表示敬意!版權(quán)歸原作者與機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。謝謝支持!

吐槽

對(duì)不起!讓你吐槽了

/500

上傳圖片

    可上傳3張圖片

    2001-2025 上海金程教育科技有限公司 All Rights Reserved. 信息系統(tǒng)安全等級(jí):三級(jí)
    中央網(wǎng)信辦舉報(bào)中心 上海市互聯(lián)網(wǎng)舉報(bào)中心 不良信息舉報(bào)郵箱:law@gfedu.net
    滬ICP備14042082號(hào) 滬B2-20240743 通過(guò)ISO9001:2015 國(guó)際質(zhì)量管理體系認(rèn)證 滬公網(wǎng)安備31010902103762號(hào) 出版物經(jīng)營(yíng)許可證 電子營(yíng)業(yè)執(zhí)照

    掃描二維碼登錄金程網(wǎng)校

    請(qǐng)使用新版 金程網(wǎng)校APP 掃碼完成登錄

    登錄即同意金程網(wǎng)校協(xié)議及《隱私政策》