無論你在數(shù)據(jù)科學(xué)中是何種立場,你都無法忽視數(shù)據(jù)的重要性,數(shù)據(jù)科學(xué)家的職責(zé)就是分析、組織和應(yīng)用這些數(shù)據(jù)。
著名求職網(wǎng)站 Glassdoor 根據(jù)龐大的就業(yè)數(shù)據(jù)和員工反饋信息,將數(shù)據(jù)科學(xué)家排名為美國較佳的 25 個工作之首。雖然名頭不小,但毫無疑問,數(shù)據(jù)科學(xué)家所做的具體工作是不斷發(fā)展變化的。隨著機(jī)器學(xué)習(xí)等技術(shù)越來越普及,像深度學(xué)習(xí)這樣的新興領(lǐng)域在研究人員、工程師以及聘用他們的公司中成為新寵,數(shù)據(jù)科學(xué)家們將繼續(xù)在創(chuàng)新浪潮和技術(shù)進(jìn)步中嶄露頭角。 >>>如何成為一名數(shù)據(jù)分析師
盡管具有強(qiáng)大的編程能力很重要,但數(shù)據(jù)科學(xué)家不需要都是軟件工程師(實際上會用 Python 你就可以上路了)。數(shù)據(jù)科學(xué)家處于編程、統(tǒng)計學(xué)和批判性思維的交叉區(qū)域。正如 Josh Wills 所說:“數(shù)據(jù)科學(xué)家是這樣一種人,他比任何程序員都更懂統(tǒng)計,并且他比任何統(tǒng)計學(xué)家都更懂編程”。
我認(rèn)識很多想轉(zhuǎn)行數(shù)據(jù)科學(xué)家的軟件工程師,他們盲目地使用 TensorFlow 或者 Apache Spark 等機(jī)器學(xué)習(xí)框架去處理數(shù)據(jù),卻沒有深入理解背后的統(tǒng)計理論。因此本文要談一談統(tǒng)計學(xué)習(xí)( statistical learning ),它是源于統(tǒng)計學(xué)和泛函分析的一個機(jī)器學(xué)習(xí)理論框架。
為什么要學(xué)習(xí)統(tǒng)計學(xué)習(xí)?
首先,為了知道如何以及何時使用各種分析方法,理解各種分析方法背后的思想很重要。
要想掌握更精巧復(fù)雜的方法,你必須先理解較簡單的方法;其次,當(dāng)你想準(zhǔn)確地評估一種分析方法的效果時,你得知道其運行的多好或者多么不好;第三,這是一個令人興奮的研究領(lǐng)域,在科學(xué)、業(yè)界和金融領(lǐng)域有重要的應(yīng)用。最后,統(tǒng)計學(xué)習(xí)也是一名現(xiàn)代數(shù)據(jù)科學(xué)家的重要素養(yǎng)。一些統(tǒng)計學(xué)習(xí)的代表性問題包括:
找出前列腺癌的高危因素
根據(jù)對數(shù)周期圖對一個音位進(jìn)行分類
根據(jù)人口統(tǒng)計學(xué)資料、飲食和臨床測量數(shù)據(jù)預(yù)測某人是否會得心臟病
自定義一個垃圾郵件檢測系統(tǒng)
識別手寫的郵政編碼數(shù)字
確定一個組織樣本屬于哪一類癌癥
建立人口調(diào)查數(shù)據(jù)中工資和人口統(tǒng)計學(xué)變量之間的關(guān)系
在介紹這 10 個分析方法之前,我想先對統(tǒng)計學(xué)習(xí)和機(jī)器學(xué)習(xí)做一個區(qū)分。我曾經(jīng)寫過一篇關(guān)于機(jī)器學(xué)習(xí)的很受歡迎的文章,所以我相信我有專業(yè)能力來區(qū)分二者:
機(jī)器學(xué)習(xí)是人工智能的一個子領(lǐng)域,統(tǒng)計學(xué)習(xí)是統(tǒng)計學(xué)的一個子領(lǐng)域;
機(jī)器學(xué)習(xí)強(qiáng)調(diào)大規(guī)模應(yīng)用和預(yù)測準(zhǔn)確性,統(tǒng)計學(xué)習(xí)強(qiáng)調(diào)模型及其可解釋性(interpretability),精度(precision)和不確定性(uncertainty)。
但是這種區(qū)別已經(jīng)越來越模糊,并且存在大量交叉。此外,機(jī)器學(xué)習(xí)的市場營銷做的更好。
1、線性回歸
在統(tǒng)計學(xué)中,線性回歸是一種通過擬合因變量(dependent)和自變量(independent variable)之間較佳線性關(guān)系來預(yù)測目標(biāo)變量的方法。較佳擬合是通過確保每個實際觀察點到擬合形狀的距離之和盡可能小而完成的。較佳擬合指的是沒有其他形狀可以產(chǎn)生更小的誤差了。
線性回歸的兩種主要類型是:
簡單線性回歸(Simple Linear Regression):簡單線性回歸使用單一的自變量,通過擬合出較佳的線性關(guān)系來預(yù)測因變量。多元線性回歸(Multiple Linear Regression):多元線性回歸使用多個自變量,擬合出較佳的線性關(guān)系來預(yù)測因變量。

選擇任意兩個你日常生活中使用的相關(guān)的東西。比如,我有過去 3 年中自己每月開支、每月收入、每月旅行次數(shù)的數(shù)據(jù),現(xiàn)在我想回答下列問題:
明年我每月的開支會是多少?
哪個因素(每月收入還是每月旅行次數(shù))在決定我的每月開支時更重要?
每月收入、每月旅行次數(shù)是如何與每月支出相關(guān)的?
2、分類
分類是一種數(shù)據(jù)挖掘技術(shù),通過確定一組數(shù)據(jù)所屬的類別以實現(xiàn)更準(zhǔn)確的預(yù)測和分析。分類有時候也稱為決策樹,是對大型數(shù)據(jù)集進(jìn)行分析的利器之一。常用的分類方法有兩種:邏輯回歸和判別分析(Discriminant Analysis)。
邏輯回歸適合于因變量為二元變量時。像所有的回歸分析一樣,邏輯回歸是一種預(yù)測性分析。邏輯回歸用于描述數(shù)據(jù)并解釋一個二元因變量與一個或多個名義、序列、時間間隔或比率獨立變量之間的關(guān)系。邏輯回歸可以回答的問題有:
每增加一磅體重和每天吸煙的包數(shù)如何影響患肺癌的概率?
卡路里攝入、脂肪攝入和年齡是否對心臟病發(fā)作有影響?

在判別分析中,先驗知道兩個或多個分組或類別(clusters),然后基于已測量的特征將 1 個或多個新觀測對象分類到一個已知類別中去。判別分析在每個類別下分別對預(yù)測變量X的分布進(jìn)行建模,然后使用貝葉斯定理將這些變量轉(zhuǎn)換為給定X值的對應(yīng)類別的概率估計。這些模型可以是線性的或者二次方的:
線性判別分析(Linear Discriminant Analysis)為每個觀測值計算「判別分?jǐn)?shù)」來判斷它應(yīng)該屬于哪個類別。判別分?jǐn)?shù)是通過尋找自變量的線性組合得到的。它假設(shè)每個類別中的觀測值都來自于多元高斯分布,并且預(yù)測變量的協(xié)方差在響應(yīng)變量 Y 的所有 k 個水平上都相同。
二次判別分析(Quadratic Discriminant Analysis)提供了一個替代方法。與線性判別分析一樣,二次判別分析假設(shè)每個 Y 類別的觀察值都來自于高斯分布。然后,與線性判別分析不同的是,二次判別分析假設(shè)每個類都有自己的協(xié)方差矩陣。換句話說,預(yù)測變量并未假設(shè)在 Y 中的所有 k 個水平上都具有共同的方差。
3、重采樣方法(Resampling Methods)
重采樣是從原始數(shù)據(jù)中重復(fù)采集樣本的方法。這是一種非參數(shù)統(tǒng)計推斷方法。換句話說,重采樣方法不涉及使用通用分布表來計算近似的 p 概率值。

重采樣根據(jù)實際數(shù)據(jù)生成一個唯一的采樣分布。它使用實驗方法而不是分析方法來生成唯一的樣本分布。它產(chǎn)生的是無偏估計,因為它是基于研究人員研究的數(shù)據(jù)的所有可能結(jié)果生成的無偏樣本。為了理解重采樣的概念,你需要理解術(shù)語 Bootstrapping 和交叉驗證(Cross-Validation)。
Bootstrapping 在很多情況下是一種有用的方法,比如評估模型性能、模型集成(ensemble methods)、估計模型的偏差和方差等。它的工作機(jī)制是對原始數(shù)據(jù)進(jìn)行有放回的采樣,并將「沒被選上」的數(shù)據(jù)點作為測試用例。我們可以這樣操作多次,并計算平均得分作為模型性能的估計。
交叉驗證是評估模型性能的一種方法,它通過將訓(xùn)練數(shù)據(jù)分成 k 份,使用 k-1 份作為訓(xùn)練集,使用保留的那份作為測試集。以不同的方式重復(fù)整個過程 k 次。最終取 k 個得分的平均值作為模型性能的估計。
對于線性模型而言,普通最小二乘法是擬合數(shù)據(jù)的主要標(biāo)準(zhǔn)。不過,接下來的 3 種方法可以為線性模型提供更好的預(yù)測準(zhǔn)確性和模型可解釋性。
4、子集選擇(Subset Selection)
這種方法先確定與因變量相關(guān)的 p 個自變量的一個子集,然后使用子集特征的最小二乘擬合模型。

較優(yōu)子集法(Best-Subset Selection)對 p 個自變量的所有可能組合分別做最小二乘法回歸,查看最終的模型擬合效果。該算法分為 2 個階段:
擬合所有包含 k 個自變量的模型,其中 k 是模型的最大長度;
使用交叉驗證誤差來選出較佳模型。
使用測試誤差或者驗證誤差而不是訓(xùn)練誤差來評估模型很重要,因為 RSS 和 R2 會隨著變量的增加而單調(diào)增加。較好的方式是交叉驗證并選擇測試誤差上 R2 較高而 RSS 最低的模型。
向前逐步選擇(Forward Stepwise Selection)使用一個更小的自變量子集。它從一個不包含任何自變量的模型開始,將自變量逐個加入模型中,一次一個,直到所有自變量都進(jìn)入模型。每次只將能夠最大限度提升模型性能的變量加入模型中,直到交叉驗證誤差找不到更多的變量可以改進(jìn)模型為止。
向后逐步選擇(Backward Stepwise Selection)在開始時包含全部 p 個自變量,然后逐個移除最沒用的自變量。
混合方法(Hybrid Methods)遵循向前逐步選擇原則,但是在每次添加新變量之后,該方法也可能移除對模型擬合沒有貢獻(xiàn)的變量。
5、特征縮減(Shrinkage)
這種方法使用所有 p 個自變量擬合模型,但相對于最小二乘估計,該方法會讓一些自變量的估計系數(shù)向著0衰減。這種衰減又稱正則化(Regularization),具有減少方差的作用。根據(jù)所使用的縮減方法,一些系數(shù)可能被估計為 0。因此這個方法也用于變量選擇。最常用的兩種縮減系數(shù)方法是嶺回歸(Ridge regression)和 L1 正則化(Lasso)。

嶺回歸(Ridge regression)與最小二乘類似,但在原有項的基礎(chǔ)上增加了一個正則項。和最小二乘法一樣,嶺回歸也尋求使 RSS 最小化的參數(shù)估計,但當(dāng)待估參數(shù)接近于 0 時,它會有一個收縮懲罰。這個懲罰會促使縮減待估參數(shù)接近于 0。您無需深入數(shù)學(xué)海洋,僅需要知道嶺回歸通過減小模型方差來縮減特征就可以了。就像主成分分析一樣,嶺回歸將數(shù)據(jù)投影到 d 維空間,然后對比低方差(最小主成分)和高方差(最大主成分)的系數(shù)進(jìn)行剔除和篩選。
嶺回歸至少有一個缺點:它的最終模型中包含全部 p 個自變量。懲罰項會讓許多系數(shù)接近于 0 但永遠(yuǎn)不為 0。這一點通常對預(yù)測準(zhǔn)確性而言并不是問題,但它可能會使模型更難解釋。正則化克服了這個缺點,只要 s 足夠小,它能強(qiáng)迫某些系數(shù)為 0。S=1 就是常規(guī)的最小二乘法回歸,當(dāng) s 接近于 0 時,系數(shù)朝著 0 縮減。因此正則化也相當(dāng)于進(jìn)行了變量選擇。
6、降維(Dimension Reduction)
降維將估計 p+1 個系數(shù)減少為 M+1 個系數(shù),其中 M

可以將主成分回歸描述為從大量變量中導(dǎo)出低維特征集的方法。數(shù)據(jù)的第一主成分方向是觀測值變化最大的方向。換句話說,第一主成分是一條盡可能擬合數(shù)據(jù)的直線??梢詳M合 p 個不同的主成分。第二主成分是與第一主成分不相關(guān)的變量的線性組合,且方差最大。主成分分析的思想是使用正交方向的數(shù)據(jù)的線性組合來捕獲數(shù)據(jù)中的最大方差。通過這種方式可以組合相關(guān)變量的影響,從可用數(shù)據(jù)中提取更多信息,而在常規(guī)最小二乘中我們必須丟棄其中一個相關(guān)變量。
主成分分析法識別最能代表預(yù)測變量 X 的線性組合。這些組合(方向)以無監(jiān)督的方式被識別,響應(yīng)變量Y并未用于幫助確定主成分方向,因此不能保證最能解釋預(yù)測變量的方向在預(yù)測上也是較好的(盡管通常都這樣假定)。偏最小二乘法是主成分分析法的一種監(jiān)督學(xué)習(xí)替代方式。它也是一種降維方法,首先識別一個新的較小的特征集,這些特征是原始特征的線性組合,然后通過對新的 M 個特征最小二乘擬合成線性模型。與主成分分析法不同的是,偏最小二乘法會利用響應(yīng)變量來識別新特征。
7、非線性模型(Nonlinear Models)
在統(tǒng)計學(xué)中,非線性回歸是回歸分析的一種形式,觀測數(shù)據(jù)是通過一個或多個自變量的非線性組合函數(shù)來建模。數(shù)據(jù)用逐次逼近的方法進(jìn)行擬合,下面是一些處理非線性模型的重要方法。

如果一個實數(shù)域上的函數(shù)可以用半開區(qū)間上的指示函數(shù)的有限次線性組合來表示,則它被稱為階躍函數(shù)(step function)。換一種不太正式的說法就是,階躍函數(shù)是有限段分段常數(shù)函數(shù)的組合。
分段函數(shù)是由多個子函數(shù)定義的函數(shù),每個子函數(shù)應(yīng)用于主函數(shù)域的某一個區(qū)間上。分段實際上是表達(dá)函數(shù)的一種方式,而不是函數(shù)本身的特性,但是加上額外的限定條件,它也可以描述函數(shù)的性質(zhì)。例如,分段多項式函數(shù)是這樣一個函數(shù),它是每個子域上的多項式,但每個子域上可能是不同的函數(shù)。
樣條曲線(spline)是由多項式分段定義的特殊函數(shù)。在計算機(jī)圖形學(xué)中,樣條是指分段多項式參數(shù)曲線。因為它們的結(jié)構(gòu)簡單,擬合簡易而準(zhǔn)確,可以近似曲線擬合和交互式曲線設(shè)計中的復(fù)雜形狀,樣條曲線是很流行的曲線。
廣義可加模型(Generalized additive model)是一種廣義線性模型,其中線性預(yù)測變量依賴于某些預(yù)測變量的未知光滑函數(shù),側(cè)重于這些光滑函數(shù)的推理。
8、樹形方法(Tree-Based Methods)
樹形方法可以用于回歸和分類問題。這涉及到將預(yù)測空間分層或分割成若干簡單區(qū)域。由于用于分割預(yù)測空間的分裂規(guī)則集可以概括成樹形,因此這類方法被稱為決策樹方法。下面的方法都是先生成多棵樹,然后將這些樹組合在一起以產(chǎn)生單個共識預(yù)測。

Bagging 是一種通過從原始數(shù)據(jù)生成額外的訓(xùn)練數(shù)據(jù)從而減少預(yù)測方差的方法,它通過使用重復(fù)的組合來生成與原始數(shù)據(jù)相同的多樣性。通過增加訓(xùn)練集的大小,雖然不能提高模型的預(yù)測力,但可以減小方差,將預(yù)測調(diào)整到預(yù)期結(jié)果。
Boosting 是一種使用多個不同模型計算輸出的方法,然后使用加權(quán)平均法對結(jié)果進(jìn)行平均。通過改變加權(quán)公式,結(jié)合這些模型的優(yōu)點和缺陷,使用不同的微調(diào)模型,可以為更廣泛的輸入數(shù)據(jù)提供良好的預(yù)測力。
隨機(jī)森林算法非常類似于 Bagging。先采集訓(xùn)練集的隨機(jī) bootstrap 樣本,然后采集特征的隨機(jī)子集來訓(xùn)練單棵樹;而在 bagging 時是給每一棵樹全部特征。由于隨機(jī)特征選擇,與常規(guī) bagging 相比,樹彼此之間更加獨立,這通常會導(dǎo)致更好的預(yù)測性能(因為更好的方差偏差權(quán)衡),而且訓(xùn)練速度更快,因為每棵樹只從特征的一個子集學(xué)習(xí)。
9、支持向量機(jī)
支持向量機(jī)是一種分類技術(shù),屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)模型。通俗地說,它通過尋找超平面(二維中的線,三維中的平面和更高維中的超平面,更正式地,超平面是 n 維空間的 n-1 維子空間)以及最大邊界(margin)來劃分兩類點。從本質(zhì)上講,它是一個約束優(yōu)化問題,因為其邊界最大化受到數(shù)據(jù)點分布的約束(硬邊界)。

「支持」這個超平面的數(shù)據(jù)點被稱為「支持向量」。在上圖中,填充的藍(lán)色圓圈和兩個實心方塊是支持向量。對于兩類數(shù)據(jù)不能線性分離的情況,這些點將被投影到一個更高維的的空間中,在這個空間里可能會線性可分。多分類問題可以分解為多個一對一或者一對其余類的二分類問題。
10、無監(jiān)督學(xué)習(xí)
到目前為止,我們只討論了監(jiān)督學(xué)習(xí),即數(shù)據(jù)類別是已知的,算法的目標(biāo)是找出實際數(shù)據(jù)與它們所屬的類別之間的關(guān)系。當(dāng)類別未知時,我們使用另一種方法,叫做無監(jiān)督學(xué)習(xí),因為它讓學(xué)習(xí)算法自己去找出數(shù)據(jù)中的模式。聚類是無監(jiān)督學(xué)習(xí)的一個例子,其中不同的數(shù)據(jù)被聚類為密切相關(guān)的分組。下面是最廣泛使用的無監(jiān)督學(xué)習(xí)算法的列表。

主成分分析:通過識別一組具有最大方差和相互不相關(guān)的特征的線性組合來生成低維表示的數(shù)據(jù)集。這種方法有助于理解變量在無監(jiān)督環(huán)境下的潛在的相互作用。
k-Means 聚類:根據(jù)聚類中心點的距離將數(shù)據(jù)分為 k 個不同的聚蔟。
層次聚類:通過創(chuàng)建一棵聚類樹來構(gòu)建多級分層結(jié)構(gòu)。
以上是一些基本的統(tǒng)計技術(shù)概要,可以幫助數(shù)據(jù)科學(xué)項目經(jīng)理/執(zhí)行人員更好地理解他們的數(shù)據(jù)科學(xué)團(tuán)隊運作的內(nèi)容背后隱藏著什么。事實上,一些數(shù)據(jù)科學(xué)團(tuán)隊純粹通過 python 和 R 庫運行算法。他們中的大多數(shù)甚至不必考慮背后的數(shù)學(xué)原理。但是,理解統(tǒng)計分析的基礎(chǔ)知識可以為你的團(tuán)隊提供更好的方法。深入了解一小部分就可以更輕松地進(jìn)行操作和抽象。我希望這篇基礎(chǔ)的數(shù)據(jù)科學(xué)統(tǒng)計指南能給你一個不錯的理解!
量化金融分析師(簡稱AQF ,Analyst of Quantitative Finance)由量化金融標(biāo)準(zhǔn)委員會(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書。 >>>點擊咨詢AQF證書含金量
.png)
課程適合人群:
金融工程/數(shù)學(xué)專業(yè)背景的同學(xué)/工作人士,希望進(jìn)一步學(xué)習(xí)Python編程以及在量化投資的實戰(zhàn)應(yīng)用;
非金融工程專業(yè)背景的同學(xué)/工作人士,希望迅速成為寬客;
金融相關(guān)人員,希望學(xué)習(xí)如何系統(tǒng)的做量化策略;
個人投資者,希望系統(tǒng)學(xué)習(xí)掌握量化投資相關(guān)的實務(wù)技能,從模型開發(fā),回測,策略改進(jìn),搭建穩(wěn)定的量化交易系統(tǒng)。>>>點擊咨詢AQF課程相關(guān)問題
(點擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎(chǔ)》
主要涵蓋了量化投資領(lǐng)域的必備知識,包括:基本面分析、技術(shù)分析、數(shù)量分析、固定收益、資產(chǎn)組合管理、權(quán)益、另類投資等內(nèi)容。
2、《Python語言編程基礎(chǔ)》
包含了Python環(huán)境搭建、基礎(chǔ)語法、變量類型、基本函數(shù)、基本語句、第三方庫、金融財務(wù)實例等內(nèi)容。旨在為金融財經(jīng)人提供最需要的編程方法。
3、《基于Python的經(jīng)典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對交易模型、波動擴(kuò)張模型、Alpha模型、機(jī)器學(xué)習(xí)(隨機(jī)森林模型、主成分分析)、深度學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò))等內(nèi)容。
4、《量化交易系統(tǒng)設(shè)計》
旨在學(xué)習(xí)量化交易系統(tǒng)的具體知識,包括過濾器,進(jìn)入信號,退出信號,倉位管理等詳細(xì)內(nèi)容,并指導(dǎo)學(xué)員設(shè)計涵蓋個人交易哲學(xué)的量化交易系統(tǒng)。
5、《量化實盤交易》
旨在為解決實際量化交易策略搭建過程中的一些問題提供較優(yōu)解決方案。 >>>點擊咨詢AQF相關(guān)問題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國主要金融市場及交易產(chǎn)品的交易機(jī)制;
2、熟知國內(nèi)外期貨交易、股市交易的異同點和內(nèi)在運行機(jī)制;
3、掌握經(jīng)典量化交易策略細(xì)節(jié)及其背后的交易哲學(xué);
4、掌握金融、編程和建模知識基礎(chǔ),擁有量化交易實盤操作能力;
5、具備獨立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設(shè)計的基本框架,以及風(fēng)險管理和資產(chǎn)組合理論的實際運用;
7、掌握從策略思想——策略編寫——策略實現(xiàn)餓完整量化投資決策過程;具備量化投資實戰(zhàn)交易能力。
.png)
金程推薦: AQF培訓(xùn) AQF培訓(xùn)機(jī)構(gòu) AQF是什么意思
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號:量化金融分析師


.png)


