數(shù)據(jù)科學(xué)實(shí)際上可以定義為我們從數(shù)據(jù)中獲取額外信息的一個(gè)過程,在做數(shù)據(jù)科學(xué)時(shí),我們真正想要做的其實(shí)就是解釋除了數(shù)字之外,所有數(shù)據(jù)在現(xiàn)實(shí)世界中的實(shí)際含義。
為了提取潛藏在復(fù)雜數(shù)據(jù)集中的信息,數(shù)據(jù)科學(xué)家采用了許多工具和技術(shù),包括數(shù)據(jù)挖掘、數(shù)據(jù)可視化和數(shù)據(jù)建模等等。數(shù)據(jù)挖掘中常用的一類非常重要的數(shù)學(xué)技術(shù)是統(tǒng)計(jì)學(xué)。
在實(shí)際意義上,統(tǒng)計(jì)數(shù)據(jù)允許我們定義數(shù)據(jù)的具體數(shù)學(xué)摘要。我們可以使用統(tǒng)計(jì)信息來描述其中的一些屬性,而不是嘗試描述每個(gè)數(shù)據(jù)點(diǎn)。而這通常足以讓我們提取有關(guān)數(shù)據(jù)結(jié)構(gòu)和構(gòu)成的某些信息。
有些時(shí)候,當(dāng)人們聽到「統(tǒng)計(jì)」這個(gè)詞時(shí),往往會想到一些過于復(fù)雜的東西。也可能會有點(diǎn)抽象,但我們并非總是需要訴諸復(fù)雜的理論,來從統(tǒng)計(jì)中獲得某種價(jià)值。
量化金融分析師(簡稱AQF ,Analyst of Quantitative Finance)由量化金融標(biāo)準(zhǔn)委員會(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書。 >>>點(diǎn)擊咨詢AQF證書含金量
.png)
課程適合人群:
金融工程/數(shù)學(xué)專業(yè)背景的同學(xué)/工作人士,希望進(jìn)一步學(xué)習(xí)Python編程以及在量化投資的實(shí)戰(zhàn)應(yīng)用;
非金融工程專業(yè)背景的同學(xué)/工作人士,希望迅速成為寬客;
金融相關(guān)人員,希望學(xué)習(xí)如何系統(tǒng)的做量化策略;
個(gè)人投資者,希望系統(tǒng)學(xué)習(xí)掌握量化投資相關(guān)的實(shí)務(wù)技能,從模型開發(fā),回測,策略改進(jìn),搭建穩(wěn)定的量化交易系統(tǒng)。>>>點(diǎn)擊咨詢AQF課程相關(guān)問題
(點(diǎn)擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎(chǔ)》
主要涵蓋了量化投資領(lǐng)域的必備知識,包括:基本面分析、技術(shù)分析、數(shù)量分析、固定收益、資產(chǎn)組合管理、權(quán)益、另類投資等內(nèi)容。
2、《Python語言編程基礎(chǔ)》
包含了Python環(huán)境搭建、基礎(chǔ)語法、變量類型、基本函數(shù)、基本語句、第三方庫、金融財(cái)務(wù)實(shí)例等內(nèi)容。旨在為金融財(cái)經(jīng)人提供最需要的編程方法。
3、《基于Python的經(jīng)典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對交易模型、波動擴(kuò)張模型、Alpha模型、機(jī)器學(xué)習(xí)(隨機(jī)森林模型、主成分分析)、深度學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò))等內(nèi)容。
4、《量化交易系統(tǒng)設(shè)計(jì)》
旨在學(xué)習(xí)量化交易系統(tǒng)的具體知識,包括過濾器,進(jìn)入信號,退出信號,倉位管理等詳細(xì)內(nèi)容,并指導(dǎo)學(xué)員設(shè)計(jì)涵蓋個(gè)人交易哲學(xué)的量化交易系統(tǒng)。
5、《量化實(shí)盤交易》
旨在為解決實(shí)際量化交易策略搭建過程中的一些問題提供較優(yōu)解決方案。 >>>點(diǎn)擊咨詢AQF相關(guān)問題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國主要金融市場及交易產(chǎn)品的交易機(jī)制;
2、熟知國內(nèi)外期貨交易、股市交易的異同點(diǎn)和內(nèi)在運(yùn)行機(jī)制;
3、掌握經(jīng)典量化交易策略細(xì)節(jié)及其背后的交易哲學(xué);
4、掌握金融、編程和建模知識基礎(chǔ),擁有量化交易實(shí)盤操作能力;
5、具備獨(dú)立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設(shè)計(jì)的基本框架,以及風(fēng)險(xiǎn)管理和資產(chǎn)組合理論的實(shí)際運(yùn)用;
7、掌握從策略思想——策略編寫——策略實(shí)現(xiàn)餓完整量化投資決策過程;具備量化投資實(shí)戰(zhàn)交易能力。
統(tǒng)計(jì)學(xué)中最基本的部分通常是數(shù)據(jù)科學(xué)中最實(shí)用的部分。
今天,我們將分享 5 個(gè)對于數(shù)據(jù)科學(xué)有用的統(tǒng)計(jì)學(xué)方法。這些不是過分抽象的概念,而是相當(dāng)簡單、有長期適用性的技術(shù)。
一、集中趨勢(Central Tendency)
數(shù)據(jù)集或特征變量的集中趨勢是集的中心或典型值。其思想是,可能有一個(gè)單一的值可以(在某種程度上)較好地描述我們的數(shù)據(jù)集。
例如,假設(shè)你有一個(gè)以 x-y 位置(100,100)為中心的正態(tài)分布。那么點(diǎn)(100,100)是集中趨勢,因?yàn)樵谒锌蛇x擇的點(diǎn)中,它提供了對數(shù)據(jù)較好的總結(jié)。
對于數(shù)據(jù)科學(xué)來說,我們可以使用集中趨勢進(jìn)行度量,來快速簡單地了解我們數(shù)據(jù)集的整體情況。我們的數(shù)據(jù)的「中心」可以是非常有價(jià)值的信息,它告訴我們數(shù)據(jù)集究竟是如何偏置的,因?yàn)閿?shù)據(jù)所圍繞的任何值本質(zhì)上都是偏置。
在數(shù)學(xué)上有兩種選擇集中趨勢的常用方法。
平均數(shù)(Mean)
平均數(shù),也就是數(shù)據(jù)集的平均值,即整個(gè)數(shù)據(jù)圍繞其進(jìn)行散布的一個(gè)數(shù)字。在定義平均數(shù)時(shí),所有用于計(jì)算平均數(shù)的值的權(quán)重都是相等的。
例如,計(jì)算以下 5 個(gè)數(shù)字的平均數(shù):
(3 + 64 + 187 + 12 + 52)/ 5 = 63.6
平均數(shù)非常適合計(jì)算實(shí)際數(shù)學(xué)平均值,使用像 Numpy 這樣的 Python 庫計(jì)算速度也非???。
中位數(shù)(Median)
中位數(shù)是數(shù)據(jù)集的中間值,即我們將數(shù)據(jù)從最小值排序到最大值(或從最大值到最小值),然后取值集合中間的值:那就是中位數(shù)。
計(jì)算上一個(gè)例子中 5 個(gè)數(shù)字的中位數(shù):
[3,12,52,64,187]→ 52
中值與平均數(shù)完全不同。它們沒有對錯(cuò)優(yōu)劣之分,但我們可以根據(jù)我們的情況和目標(biāo)選擇一個(gè)。
計(jì)算中位數(shù)需要對數(shù)據(jù)進(jìn)行排序——如果數(shù)據(jù)集很大,這會有點(diǎn)兒不切實(shí)際。
另一方面,中位數(shù)對于異常值比平均數(shù)更穩(wěn)健,因?yàn)槿绻嬖谝恍┓浅8叩漠惓V?,則平均值將被拉向某一個(gè)方向。
平均數(shù)和中位數(shù)可以用簡單的numpy單行計(jì)算:
numpy.mean(array)numpy.median(array)
二、擴(kuò)散(Spread)
在統(tǒng)計(jì)學(xué)之下,數(shù)據(jù)的擴(kuò)散是指指數(shù)據(jù)被壓縮到一個(gè)或多個(gè)值的程度,這些值分布在更大的范圍內(nèi)。
參考下面的高斯概率分布圖——假設(shè)這些是描述真實(shí)世界數(shù)據(jù)集的概率分布。
藍(lán)色曲線的擴(kuò)散值最小,因?yàn)樗拇蟛糠謹(jǐn)?shù)據(jù)點(diǎn)都在一個(gè)相當(dāng)窄的范圍內(nèi)。紅色曲線的擴(kuò)散值最大,因?yàn)榇蠖鄶?shù)數(shù)據(jù)點(diǎn)所占的范圍要大得多。
圖例還顯示了這些曲線的標(biāo)準(zhǔn)偏差。

標(biāo)準(zhǔn)偏差(Standard Deviation)
標(biāo)準(zhǔn)偏差是定量數(shù)據(jù)擴(kuò)散程度的最常見的方式。計(jì)算標(biāo)準(zhǔn)偏差需要 5 個(gè)步驟:
找到平均數(shù)
對于每個(gè)數(shù)據(jù)點(diǎn),求其與平均值間的距離的平方
對步驟2中的值求和
除以數(shù)據(jù)點(diǎn)的數(shù)量
取平方根

值越大,意味著我們的數(shù)據(jù)從平均數(shù)「擴(kuò)散出去」的程度越高。值越小意味著我們的數(shù)據(jù)越集中于平均數(shù)。
計(jì)算 Numpy 的標(biāo)準(zhǔn)偏差:
numpy.std(array)
三、百分位數(shù)(Percentiles)
我們可以使用百分位數(shù)進(jìn)一步描述整個(gè)范圍內(nèi)每個(gè)數(shù)據(jù)點(diǎn)的位置。
百分位數(shù)根據(jù)數(shù)據(jù)點(diǎn)在值范圍中的位置高低來描述數(shù)據(jù)點(diǎn)的確切位置。
更正式地說,第 p 百分位數(shù)是數(shù)據(jù)集中的一個(gè)值,在該值處可以將數(shù)據(jù)集分為兩部分。下半部分包含 p% 個(gè)數(shù)據(jù),則稱其為第 p 百分位數(shù)。
例如以下 11 個(gè)數(shù)字的集合:
1,3,5,7,9,11,13,15,17,19,21
數(shù)字 15 就是是第 70 百分位數(shù),因?yàn)楫?dāng)我們在數(shù)字 15 處將數(shù)據(jù)集分成兩部分時(shí),有 70% 個(gè)數(shù)據(jù)小于 15。
百分位數(shù)與平均數(shù)和標(biāo)準(zhǔn)偏差相結(jié)合,可以讓我們很好地了解特定的點(diǎn)在數(shù)據(jù)集的擴(kuò)散/范圍內(nèi)的位置。如果它是一個(gè)異常值,那么它的百分位數(shù)將接近于終點(diǎn)——小于 5% 或大于 95%。另一方面,如果百分位數(shù)接近 50 那么我們就可以知道它非常接近集中趨勢。
數(shù)組的第 50 個(gè)百分位數(shù)在Numpy中計(jì)算:
numpy.percentile(array, 50)
四、斜度(Skewness)
數(shù)據(jù)的偏斜度衡量其不對稱性。
偏度為正值,表示值集中在數(shù)據(jù)點(diǎn)中心的左側(cè);負(fù)偏度表示值集中在數(shù)據(jù)點(diǎn)中心的右側(cè)。
下圖提供了一個(gè)很好的說明。

我們可以用以下等式計(jì)算偏斜度:

偏斜度可以讓我們知道數(shù)據(jù)分布與高斯分布的距離。偏斜度越大,我們的數(shù)據(jù)集離高斯分布越遠(yuǎn)。
這很重要,因?yàn)槿绻覀儗?shù)據(jù)的分布有一個(gè)粗略的概念,我們就可以為特定的分布定制我們要訓(xùn)練的 ML 模型。此外,并非所有 ML 建模技術(shù)都能對非高斯數(shù)據(jù)有效。
再次提醒大家,在我們開始建模之前,統(tǒng)計(jì)數(shù)據(jù)能夠帶給我們非常富有洞察力的信息!
如何在 Scipy 代碼中計(jì)算偏斜度:
scipy.stats.skew(array)
五、協(xié)方差(Covariance)和相關(guān)系數(shù)(Correlation)
協(xié)方差
兩個(gè)特征變量的協(xié)方差衡量它們之間的相關(guān)性。如果兩個(gè)變量有正協(xié)方差,那么當(dāng)一個(gè)變量增加時(shí),另一個(gè)也會增加;當(dāng)協(xié)方差為負(fù)時(shí),特征變量的值將向相反的方向變化。
相關(guān)系數(shù)
相關(guān)系數(shù)簡單來說就是標(biāo)準(zhǔn)化(縮放)的協(xié)方差,除以被分析的兩個(gè)變量的標(biāo)準(zhǔn)偏差的乘積即可得到。這有效地迫使關(guān)聯(lián)范圍始終在 -1.0 和 1.0 之間。
如果兩個(gè)特征變量的相關(guān)系數(shù)為 1.0,則兩個(gè)特征變量的相關(guān)系數(shù)為正相關(guān)。這意味著,如果一個(gè)變量的變化量是給定的,那么第二個(gè)變量就會按比例向相同的方向移動。

用于降維的PCA圖解
當(dāng)正相關(guān)系數(shù)小于 1 時(shí),表示正相關(guān)系數(shù)小于完全正相關(guān),且相關(guān)強(qiáng)度隨著數(shù)字趨近于 1 而增大。同樣的思想也適用于負(fù)相關(guān)值,只是特征變量的值在相反的方向變化,而不是在相同的方向變化。
了解相關(guān)性對于主成分分析(PCA)等降維技術(shù)非常有用。我們從計(jì)算一個(gè)相關(guān)矩陣開始——如果有兩個(gè)或兩個(gè)以上的變量高度相關(guān),那么它們在解釋我們的數(shù)據(jù)時(shí)實(shí)際上是冗余的,可以刪除其中一些變量以降低復(fù)雜性。
.png)
金程推薦: AQF培訓(xùn) AQF培訓(xùn)機(jī)構(gòu) AQF是什么意思
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號:量化金融分析師


.png)


