AV鲁丝无码久久久久久久久久久,久久久久成人免费视频,成人免费毛片色戒

1、引言

　　趁熱打鐵，本期再來聊聊它。特別的，我們把樸素貝葉斯大類中的高斯樸素貝葉斯和邏輯回歸比較比較~

　　邏輯回歸 vs 高斯樸素貝葉斯，這其實代表這兩類模型的 PK。邏輯回歸是判別模型(discriminative model)的代表，而樸素貝葉斯是生成模型(generative model)的代表。更有意思的是，通過一定的數(shù)學推導可以看出，高斯樸素貝葉斯在求解 P(Y|X) —— 其中 X 為 n 維特征向量、Y 為類別標識 —— 時具有和邏輯回歸一樣的數(shù)學表達式(當然僅僅是解析表達式一致，而它們背后對模型參數(shù)的求解方法完全不同)。

　　下文首先簡要回顧一下邏輯回歸，其次會推導高斯樸素貝葉斯的表達式。之后，通過對比這二者來解釋判別模型和生成模型的區(qū)別。從評價一個分類器在樣本外準確性的 generalization error 來說，判別模型和生成模型各有千秋。雖然學術界和業(yè)界普遍認為判別模型的精度更高，但 Ng and Jordan (2002) 通過理論和實證表明，在訓練集樣本數(shù)量很少的情況下，生成模型的效果往往優(yōu)于判別模型。

　　2、邏輯回歸

　　本節(jié)以二元分類為例簡要介紹邏輯回歸。

　　在二元邏輯回歸中，每個樣本點都屬于 0 或者 1 這兩類中的某一類?；貧w模型根據(jù)樣本點的特征計算該樣本點屬于每一類的條件概率，即 P(Y|X)。與樸素貝葉斯不同，邏輯回歸直接對 P(Y|X) 建模求解，而不需要先求出 P(X|Y) 和 P(Y)、再應用貝葉斯定理。

　　在求解 P(Y|X) 時，邏輯回歸假定了如下的參數(shù)化形式：

　　高斯樸素貝葉斯和邏輯回歸比較

　　其中，函數(shù) h(z) ≡ 1 / (1 + exp(-z)) 被稱為邏輯函數(shù)(logistic function)或sigmoid 函數(shù)(因為 h(z) 形如 S 曲線);它的取值范圍在 0 和 1 之間。邏輯回歸的目的是通過訓練集數(shù)據(jù)找到較優(yōu)的參數(shù) w 使得分類結果盡量同時滿足如下目標：

　　當一個樣本點的真實分類是 1 時，P(Y=1|X) 盡可能大;

　　當一個樣本點的真實分類是 0 時，P(Y=0|X) 盡可能大。

　　在樣本外分類時，邏輯回歸將新樣本點的特征向量 X 按照 w 進行線性組合得到標量 z，再將 z 放入邏輯函數(shù) h(z) 最終求出該樣本點屬于類別 1 以及 0 的概率，如果 P(Y=1|X) > P(Y=0|X)，則該樣本點被分為類別 1，反之為類別 0。

　　在決定較優(yōu)參數(shù) w 時，一個合理的目標是在訓練模型時最大化條件似然性。假設訓練集共有 m 對兒樣本 {(X_i, Y_i), i = 1, 2, …, m}，則較優(yōu)的 w* 應滿足：

　　高斯樸素貝葉斯和邏輯回歸比較

　　兩邊取對數(shù)(目的是將右側求積變成求和)、利用 Y_i 僅能取 0 或者 1 這個事實、并將 P(Y|X) 寫成邏輯回歸的邏輯函數(shù)，就可以得到求解 w 時的目標函數(shù) f(w)：

　　高斯樸素貝葉斯和邏輯回歸比較

　　其中 X_i^(j) 為第 i 個樣本的第 j 個特征的取值。該目標函數(shù)同時考慮了 1 和 0 兩類分類的準確性。使用訓練集對該模型訓練，找到較優(yōu)的 w*，使得該目標函數(shù) f(w*) 最大，這就是邏輯回歸模型的學習過程。較優(yōu)化 f(w) 可以采用梯度上升(gradient ascent)，為此只需要計算出 f 的梯度 ∇f(w)。由于 f(w) 是 w 的凹函數(shù)，該方法一定能保證找到全局較優(yōu)解。

　　3、高斯樸素貝葉斯分類器

　　樸素貝葉斯分類器是一類分類器的總稱，它們均利用了貝葉斯定理并假設特征之間的條件獨立性。高斯樸素貝葉斯(Gaussian Naïve Bayes，GNB)分類器是其中常見的一種?？紤]滿足如下假設的 GNB：

　　1. Y 是二元的，取值 0 或者 1，P(Y) 滿足 Bernoulli 分布：P(Y=1) = π，P(Y=0) = 1 - π;

　　2. X = {X_1, X_2, …, X_n} 為 n 維特征向量，每個 X_i 是一個連續(xù)隨機變量;

　　3. P(X_i|Y=y_k) 滿足正態(tài)分布 N(μ_ik, σ_i)，注意我們假設 σ_i 與類別 k 無關;

　　4. 特征之間滿足條件獨立性。

　　與邏輯回歸直接對 P(Y|X) 建模不同，高斯樸素貝葉斯對 P(X|Y) 和 P(Y) 建模，然后利用貝葉斯定理反推 P(Y|X)。以 Y = 1 為例有：

　　高斯樸素貝葉斯和邏輯回歸比較

　　在上式右側的分母中，我們將 P(X) 使用全概率公式(law of total probability)寫成了分解的形式，這是為了下面進一步的推導。將上式右側分子分母同時除以分子，并利用經(jīng)典的 exp 和 ln 配對變化可得：

　　高斯樸素貝葉斯和邏輯回歸比較

　　通過特征之間的條件獨立性(即“樸素”)，上式可以進一步變化得到：

　　高斯樸素貝葉斯和邏輯回歸比較

　　現(xiàn)在，P(Y=1|X) 的表達式已經(jīng)看著和邏輯回歸的表達式類似了，當然還有一些差異，這個差異就是分母上的那一坨求和項是概率的形式而不是 X_i 的線性組合的形式。好消息是利用條件正態(tài)分布的分布函數(shù)，這一坨求和可以輕松的轉變成 X_i 的線性組合(推導略)：

　　高斯樸素貝葉斯和邏輯回歸比較

　　將變換后的求和項帶入到 P(Y=1|X) 的表達式中，終于我們得到了想要的結果：

　　高斯樸素貝葉斯和邏輯回歸比較

　　我們看到，通過上面這一大串數(shù)學變換，高斯樸素貝葉斯下的 P(Y=1|X) 和P(Y=0|X) 的解析式和邏輯回歸完全一致。

　　但是，千萬不要誤解，雖然表達式一致，這二者求解較優(yōu)參數(shù)向量 w 的邏輯卻不同。在邏輯回歸中，通過最大化目標函數(shù) f(w) 直接求解較優(yōu)的參數(shù) w;而在 GNB 中，w 的形式是給定的，它由條件正態(tài)分布的均值和方差決定，而訓練集的作用是估計這些均值和方差，而非直接估計 w。這事實上引出了判別模型和生成模型的區(qū)別。

　　4、判別模型 vs 生成模型

　　在邏輯回歸中，我們根據(jù)樣本數(shù)據(jù)直接估計 P(Y|X)。利用給定的函數(shù)形式 —— 這里指的是邏輯函數(shù) 1 / (1 + exp(-z)) —— 找到較優(yōu)的參數(shù) w。而在高斯樸素貝葉斯中，我們有點“多此一舉”：首先估計 P(X|Y) 和 P(Y)，然后再利用貝葉斯定理反推 P(Y|X)。換句話說，雖然再這兩種方法中，P(Y|X) 的解析式一樣，但是樸素貝葉斯無疑比邏輯回歸多了中間一層，而且這層還使用了一個非常強的假設 —— 特征間的條件獨立性。因此，從直覺上來說，樸素貝葉斯確實“多此一舉”，我們傾向于認為它的分類效果不如純粹針對 P(Y|X) 建模的邏輯回歸。

　　先別急著下結論。

　　在樸素貝葉斯中，對 P(X|Y) 和 P(Y) 進行估計實際上是計算 X 和 Y 的聯(lián)合概率分布 P(X, Y)。有了這個聯(lián)合分布，我們就可以用它生成(generate)新的數(shù)據(jù)，解決更廣泛數(shù)據(jù)挖掘問題(當然就包括了推導出 P(Y|X))，特別是無監(jiān)督學習問題。這就是為什么這一類模型稱為生成模型(generative)。它對特征空間 X 和類別 Y 的聯(lián)合分類建模，從而利用 P(X, Y) 發(fā)現(xiàn) X 和 Y 之間更復雜的關系。典型的生成模型包括樸素貝葉斯、隱馬爾可夫等。

　　而在邏輯回歸(以及其他判別模型)中，我們僅僅關心條件概率 P(Y|X)，即在給定樣本點特征下 Y 的條件概率是什么樣，而非 P(X, Y)。因此它也就無法回答任何需要利用 P(X, Y) 來計算的問題。但是在分類和回歸這些通常不需要聯(lián)合分布 P(X, Y) 的領域，判別模型往往會取得更好的效果。大多數(shù)判別模型都是解決有監(jiān)督學習的問題，難以支持無監(jiān)督學習。常見的判別模型包括邏輯回歸、支持向量機、隨機森林等。

　　下面兩幅示意圖很好的說明了判別模型和生成模型的區(qū)別和聯(lián)系。假設紅色和藍色圓點表示屬于不同兩類的訓練集樣本。判別模型的目標是找到一個最能夠區(qū)分它們的邊界，而不在乎每一類中的樣本點是如何分布的;而生成模型首先對各類中樣本的分布建模，即求解 P(X|Y)。

　　高斯樸素貝葉斯和邏輯回歸比較

　　有了 P(X|Y) 以及 P(Y)，生成模型利用貝葉斯定理，反推出 P(Y|X)，從而找到分類的邊界，正如下圖中的綠色虛線。為了得到這個分類邊界，首先是求出了不同兩類的分布 P(X|Y)，如圖中的綠色實線和綠色空心線所示。反觀判別模型，它更直接、更純粹;直接根據(jù)樣本數(shù)據(jù)找到一條分類邊界，如圖中的紅色實線所示。

　　高斯樸素貝葉斯和邏輯回歸比較

　　再回到本文的對象 —— 高斯樸素貝葉斯和邏輯回歸?？梢宰C明，當特征之間確實滿足條件獨立性時，隨著訓練集樣本個數(shù)的增多，在極限情況下，高斯樸素貝葉斯和邏輯回歸求出的較優(yōu)參數(shù) w 是一致的。然而，當這個假設不成立時，樸素貝葉斯的這個假設就會對分類的準確性造成負面的影響。而邏輯回歸的最大化條件似然性求解則可以根據(jù)數(shù)據(jù)中非獨立性來調節(jié)較優(yōu)參數(shù) w。從這個角度來說，邏輯回歸優(yōu)于(高斯)樸素貝葉斯也就不足為奇。

　　關于判別模型和生成模型的比較，著名的人工智能專家 Andrew Ng(吳恩達)和比吳還要著名的 Michael I. Jordan(也叫喬丹，但不是打籃球的那位，那個是 Michael J. Jordan)寫過一篇影響深遠的文章(Ng and Jordan 2002)。該文以邏輯回歸和樸素貝葉斯為例對比了這兩種模型，并指出：

　　1. 兩種模型的收斂速度不同：邏輯回歸的收斂速度是 O(n);而樸素貝葉斯的收斂速度是 O(logn)。

　　2. 在極限情況下(即當二者都收斂后)，邏輯回歸的誤差小于樸素貝葉斯的誤差。

　　這兩點說明，隨著訓練集樣本數(shù)目的變化，邏輯回歸和樸素貝葉斯之間的孰優(yōu)孰劣會發(fā)生改變。當訓練集很小時(在很多問題中，訓練集數(shù)據(jù)非常稀缺)，樸素貝葉斯因為收斂的較快，它在樣本外的分類精度會高于邏輯回歸;而隨著訓練集樣本數(shù)的增多，由于邏輯回歸的極限誤差更小，因此它最終會戰(zhàn)勝樸素貝葉斯，取得更高的分類精度。

　　Ng and Jordan 2002 使用 15 個公開數(shù)據(jù)集對上述結論進行了驗證。下面每一幅圖代表了一個實驗，其橫坐標是訓練集樣本個數(shù)，縱坐標為樣本外的分類誤差;虛線表示邏輯回歸的結果、實線表示樸素貝葉斯的結果。從大部分實驗中可以觀察到，當訓練集樣本數(shù)較少時，實線處于虛線下方，說明樸素貝葉斯優(yōu)于邏輯回歸(它的極限誤差雖然高，但是它收斂的更快);而隨著樣本個數(shù)的增加，虛線最終會下穿實線，意味著邏輯回歸最終戰(zhàn)勝了樸素貝葉斯。

　　高斯樸素貝葉斯和邏輯回歸比較

　　最后，我們把邏輯回歸和樸素貝葉斯的區(qū)別匯總于下表。

　　高斯樸素貝葉斯和邏輯回歸比較

　　5、結語

　　判別模型和生成模型各有千秋。對于判別模型，由于參數(shù)個數(shù)較少，所需的樣本個數(shù)也要少一些。但是生成模型可以讓我們回答更復雜的問題，更深入的挖掘 X 和 Y 之間的關系。

　　“紙上得來終覺淺，絕知此事要躬行”。為了比較高斯樸素貝葉斯和邏輯回歸在選股上的效果，我們將在接下來用中證 500 的成分股做一些簡單的實證，并把結果匯總于今后的文章中。

　　最后，下面這張圖來自麻省理工學院的數(shù)據(jù)發(fā)掘課(不過要注意是 2003 年的)。它從不同的維度比較了一些常見的數(shù)據(jù)挖掘算法，這其中也包括今天的主角邏輯回歸和樸素貝葉斯。這些結果是針對大數(shù)據(jù)集的，但仍然可以作為一個選擇的參考，不過也僅僅是個參考。在實際問題中，只有充分了解了待分析的數(shù)據(jù)，才有可能選擇最適當?shù)哪Ｐ汀?/p>

　　高斯樸素貝葉斯和邏輯回歸比較

　　參考文獻

　　Ng, A. Y. and M. I. Jordan (2002). On Discriminative vs. Generative Classifiers: A comparison of logistic regression and naive Bayes. In T. G. Dietterich, S. Becker and Z. Ghahramani (Eds), Advances in Neural Information Processing Systems, Vol. 14, MIT Press, 841 – 848.

量化金融分析師(簡稱AQF，Analyst of Quantitative Finance)由量化金融標準委員會(Standard Committee of Quantitative Finance，SCQF)主考并頒證，是代表量化金融領域的專業(yè)水平證書。 >>>點擊咨詢AQF證書含金量

　　 AQF證書