大數(shù)據(jù)文摘出品
來源:medium
編譯:王緣緣、蔡婕、小七
量化投資丨統(tǒng)計學(xué)是通過搜索、整理、分析、描述數(shù)據(jù)等手段,以達到推斷所測對象的本質(zhì),甚至預(yù)測對象未來的一門綜合性科學(xué)。
嗯,以上是統(tǒng)計學(xué)課本中對統(tǒng)計學(xué)的定義!
但是近日,一位來自谷歌的統(tǒng)計學(xué)家卻發(fā)長文表示“統(tǒng)計學(xué)很無聊。”
這位統(tǒng)計學(xué)家叫Cassie Kozyrkov,目前是Google的首席決策師。在這篇文章中,她提到:“別看我們平時都是在做一些看起來'高大上'的計算,其實核心都很單調(diào)的;另外,數(shù)據(jù)是很無聊的,人性化的事情才是難點。”
讓我們先普及一些統(tǒng)計學(xué)的入門級概念,然后跟著這位統(tǒng)計學(xué)家一起,看看她的邏輯證明。

總體
當一個普通人想到“population”這個詞時,他會想到什么?人,對嗎?不只是一兩個,而是很多,幾乎是所有的人!在我們的學(xué)科中,它更像是所有的事物的集合。總體可以是人、像素、南瓜、神奇寶貝,或者任何你喜歡的東西。
總體是我們感興趣的所有項目的集合。
先停一下,在總體的確定上是需要花點時間的,因為這是研究的基礎(chǔ)。
規(guī)則是這樣的:通過寫下你對總體的描述,你就確定了你的總體是什么,除此之外沒有任何東西可以影響你的決定。通過進一步閱讀,你就能接受這些術(shù)語和相應(yīng)的限定條件了。
提出你感興趣的總體并沒有聽起來那么令人望而生畏,請記住,是由你自己來選擇你想要感興趣的事物。沒有錯誤的選擇,只要它是具體和全面的就可以是一個總體。接下來我會講得很詳盡,并且建議以下圖中的樹木作為本文感興趣的總體?!?/p>

如果我的總體是這片森林中的樹木,那么 它們就代表了我所關(guān)心的關(guān)于這個決定的一切。我對這些樹感到很興奮。坦白地說,這種興奮是絕對真實的: 我非常喜歡這個圖形,因為我在自己的講座中使用它很多年了。請允許我再懷念它一次……當然,飛機上漂浮著一些樹木,從空間上來說是非常合理的。
由于這是我的總體,我應(yīng)該記住,我并沒有理由從自己的分析中得出我已經(jīng)從其他森林中的樹木了解到的結(jié)論。我的發(fā)現(xiàn)充其量只適用于這些樹木。最糟糕的是,嗯......我只想說數(shù)據(jù)科學(xué)家的生活中有時候是需要去構(gòu)建特征的,不只是描述表面特征。
這里有你看不到的樹嗎?這樣的研究沒意義。它不是我們總體的一部分。挑選任何一棵樹?同樣沒有意義,因為這不是你的整個總體。只有他們同時在一起對我們來說才是有意義的。這就是總體的概念。
(點擊上圖了解課程詳情)
樣本
來自總體中的任意項目集合的樣本。
樣本是你擁有的數(shù)據(jù),而總體是你“希望”擁有的數(shù)據(jù)。

這些橙色樹木集合中的任何一個都是樣本。我希望你們能有一些直覺知道哪個更好。在之后的文章中,我將告訴你如何使樣本成為一個好樣本。我將用這個例子的其余部分刺激專業(yè)人士來證明這一點。
觀測值
觀測值是對樣品中單個項目的測量。

我們在這個藍色標記的樹上進行的測量是一個觀測值。堅持使用精確語言的人會注意到,“sample”是一組觀察結(jié)果的集合名詞。從理論上講,“samples”作為復(fù)數(shù)并不表示“觀測到的多個值”,而是表示“多個觀測值的集合”。
統(tǒng)計數(shù)據(jù)
啊哈!統(tǒng)計數(shù)據(jù)!這當然是很重要的,因為我們在研究了這些數(shù)據(jù)之后命名了我們的學(xué)科!
統(tǒng)計數(shù)據(jù)是通過任意一種方法去獲得樣本數(shù)據(jù)。
那么什么是統(tǒng)計數(shù)據(jù)?這只是統(tǒng)計我們擁有的數(shù)據(jù)的一種方式。是不是很失望,不用失望,事實證明,統(tǒng)計和統(tǒng)計學(xué)科是兩碼事。

統(tǒng)計數(shù)據(jù)的示例:如果我們對樹的高度感興趣,那么看到所有這些橙色標記樹的平均高度等統(tǒng)計數(shù)據(jù)就不會感到驚訝。如果你愿意,你也可以采用那些樣本樹高,找到較高的前三個,把它們加起來,取對數(shù),加上最低的兩個樹高的差值的平方根,通過這樣的計算加工可以產(chǎn)生另一個統(tǒng)計數(shù)據(jù)!也許有用,也許不是那么有用,但也是一個統(tǒng)計數(shù)據(jù)。
如何證明統(tǒng)計學(xué)是無聊的
假設(shè)我們對樹的平均高度感興趣,對于這個樣本,樹的平均高度恰好是22.5米。這個數(shù)字對我們意義嗎?
讓我們回顧一下總體的概念:只對總體的研究是感興趣的。這個樣本是總體嗎?不是。因此,它對我們來說并不重要。我們從一些無聊的樹上取了一些無聊的測量值,然后我們把這些無聊的測量值進行加工計算……從這個過程中得出的結(jié)果也很無聊。
所以,我已經(jīng)向你們證明了你們心中一直知道的事實:統(tǒng)計學(xué)是無聊的!證明完畢。
用詞不當!
統(tǒng)計學(xué)家們瘋了嗎?為什么我們要用一些無聊的數(shù)字來命名我們的學(xué)科呢?實際上,這是用詞不當。
如今我們對這些術(shù)語進行深度剖析,分析的是關(guān)于計算統(tǒng)計數(shù)據(jù)的學(xué)科,但統(tǒng)計學(xué)不僅僅是研究那些數(shù)據(jù),而是要從那些數(shù)據(jù)中挖掘信息,從而實現(xiàn)對未知領(lǐng)域的探索,但也有可能這只是伊卡洛斯式的飛躍,最后得不到任何成果。
我們學(xué)科的真實名稱(這個名稱更能體現(xiàn)學(xué)科的含義)更加晦澀:統(tǒng)計數(shù)據(jù)的消化……但這聽起來有點惡心,所以我們把它簡化為平易近人的說法。
讓我來解釋一下。
參數(shù)
接下來講我們的主角:參數(shù)。這個東西太花哨太閃亮。是那種演出結(jié)束后會獲得一個花束的角色,它甚至有屬于自己的希臘字母(通常是θ)。你可以將參數(shù)看作是總體里的一個統(tǒng)計量,它是由所有我們感興趣的總體計算得來的,但是通常無法直接獲得。
參數(shù)總結(jié)了總體特征
我們承認這些樹木使我們深感興奮,現(xiàn)在要我總結(jié)一下你關(guān)心的一切。

參數(shù)值顯示:所有樹木的真實平均高度恰好是21.1米。
想象一下,這是周六早上,你站在這片森林的空地中間。你還沒測量過任何樹木,但你超想知道這個數(shù)字,這是你夢寐以求的一切。
知道參數(shù)需要什么?
你必須精確的測量所有樹!一旦做完了,你會有任何不確定的嗎?不,你擁有了所有的信息。你可以通過分析繼續(xù)計算平均值。因為你的樣本是總體,這樣統(tǒng)計量就是參數(shù)。你正在處理的純粹是事實問題。由于擁有準確和完整的數(shù)據(jù),因此無需進行復(fù)雜的計算。
我碰巧住在紐約市,盡可能遠離樹木。因此,當我面臨像“精確測量所有這些樹木”這樣令人生畏的任務(wù)時,惰性就開始了。我真心想知道這個參數(shù),但我反問自己:“我真的需要完全了解它還是只要測量一些樹木?也許我只需對整個畫面進行局部觀察,以形成對該參數(shù)的較佳猜測......這表面上就足以完成工作要求了。”
當我這么想的時候,我在用統(tǒng)計學(xué)的方式思考!我永遠不會知道答案。我的懶惰意味著我必須放棄獲取事實或確定答案,但希望我最終會得到一些仍然有助于做決策的結(jié)果。我仍然可以把它變成一個合理的行動。這就是統(tǒng)計學(xué)的精髓。
無中生有?
你們當中有些人希望我會說,“有了這個神奇的公式,你就可以將不確定的變成確定!”不,當然不會。沒有任何神奇的東西可以無中生有。
當我們不知道事實時,我們所能希望的是將數(shù)據(jù)與假設(shè)結(jié)合起來做出合理的決策。
假設(shè)
一個假設(shè)是描述宇宙可能的樣子,但它不一定是真的。我們需要搞清楚,我們的樣本是否使得之前的假設(shè)看上去很荒謬,以此判斷是否要改變我們的想法,但這超出了本篇博文的范圍,在這里提一下思路。

我在這里說了一些亂七八糟的話,如“所有樹木的真正平均高度不到20米。”這是一個假設(shè)。你知道真相(我錯了!)因為你在這個例子中無所不知......但我什么都不知道。我的陳述是一個完全有效的假設(shè),描述了潛在的真實性。我將會在得到一些數(shù)據(jù)后才能知道自己的假設(shè)是否合理。
估計和估計量
如果知道參數(shù),我們就不用做這些了。我們正在尋找事實,但不幸的是事實并不總能獲得準確結(jié)果。由于我們無法計算參數(shù),只能使用統(tǒng)計信息對其進行較佳猜測。
估計是對較佳猜測的一個華麗的表述
估計只是對參數(shù)真實值的較佳猜測的一個華麗表述。這是你的猜測值,而估計量是你用于獲得該數(shù)字的公式。
讓我告訴你,你在統(tǒng)計估計方面已經(jīng)非常了不起。準備好了嗎?
假設(shè)你只知道其中一棵樹高23米。你能告訴我對所有樹木的真實平均高度的估計嗎?
23米?對,我也這么覺得!
如果這是我們唯一的信息,我們只能猜測23米;如果我們猜測其他任何數(shù)字,我們就是在胡謅。23米是我們知道的全部,所以我們只能猜23米。為了得到別的東西,我們必須結(jié)合更多的信息(在這個例子中沒有)或者做出假設(shè)......這就又是另外的事情了。
好的,我們做另一個嘗試!假設(shè)我們有一個樣本,我們所知道的是它的高度平均為22.5米?,F(xiàn)在你較好的猜測是什么。

22.5米?
根據(jù)幾個教科書中的估計方法,包括矩法估計法,極大似然估計法等得到的最后答案和你的直覺是相同的!在現(xiàn)實生活中99%以上的案例表明,只需將你的樣本視為你的總體并隨意使用其中的任何內(nèi)容即可獲得較佳猜測。你不需要任何特殊課程。棒棒噠,我們完成了!
你總是需要統(tǒng)計學(xué),這是一個謊言;你不需要。如果你只是想得到較好的猜測而獲得靈感,分析是你的較佳選擇。擺脫p值,你不需要不必要的壓力。
相反,你可以選擇按照這些原則生活:越多(相關(guān))數(shù)據(jù)越好,并且你的直覺非常適合做出較好的猜測,但不知道這些猜測有多準確......所以要保持謙虛。
但是,請不要認為我在抨擊我的學(xué)科。我花了十多年的時間致力于統(tǒng)計學(xué),它并不是一門一無是處的學(xué)科。
所以,在合適的時候使用統(tǒng)計方法才是有用的,非常有用的。
最后,你什么時候真的需要統(tǒng)計學(xué)呢?Cassie也給出了這張決策圖,拿好不謝??

(22).png)
金程推薦: AQF難考嗎 AQF證書含金量 AQF量化金融分析師年薪
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號:量化金融分析師


.png)


