A级片三级毛片中文字幕|97人人干人人爱|aaaaa毛片亚洲av资源网|超碰97在线播放|日本一a级毛片欧美一区黄|日韩专区潮吹亚洲AV无码片|人人香蕉视频免费|中文字幕欧美激情极品|日本高清一级免费不卡|国模大胆在线国产啪视频

AQF
首頁 備考指南 精品課程 名師團(tuán)隊 職業(yè)前景
您現(xiàn)在的位置:首頁職業(yè)前景行業(yè)動態(tài) 量化干貨 | 機(jī)器學(xué)習(xí)能否助力風(fēng)險投資?

量化干貨 | 機(jī)器學(xué)習(xí)能否助力風(fēng)險投資?

發(fā)表時間: 2019-05-08 11:59:36 編輯:tansy

近幾年,以機(jī)器學(xué)習(xí)、特別是深度學(xué)習(xí)為代表的人工智能(AI)得到了長足的發(fā)展,機(jī)器學(xué)習(xí)和人工智能也成為出現(xiàn)在街頭巷尾的高頻詞匯。今天我們把目光放在風(fēng)險投資(venture capital),看看機(jī)器學(xué)習(xí)能否在一級市場有所作為。

  一、引言

  近幾年,以機(jī)器學(xué)習(xí)、特別是深度學(xué)習(xí)為代表的人工智能(AI)得到了長足的發(fā)展,機(jī)器學(xué)習(xí)和人工智能也成為出現(xiàn)在街頭巷尾的高頻詞匯。今天我們把目光放在風(fēng)險投資(venture capital),看看機(jī)器學(xué)習(xí)能否在一級市場有所作為。

  寫本文的動機(jī)源自我最近讀到的一篇來自麻省理工的論文 Hunter and Zaman (2017)。該文提出了一個挑選優(yōu)秀早期創(chuàng)業(yè)公司的量化分析框架,利用機(jī)器學(xué)習(xí)算法進(jìn)行參數(shù)估計以及較優(yōu)投資組合的構(gòu)建,從而挑出那些最有可能成功的初創(chuàng)公司(成功的標(biāo)準(zhǔn)是風(fēng)險投資人因該公司上市或者被收購而退出)。

  因?yàn)槲恼潞苄?2017 年的),而且將機(jī)器學(xué)習(xí)應(yīng)用于了一個比較新的場景,讀來讓人耳目一新,因此希望把它介紹給關(guān)注公眾號的小伙伴,開闊大家的視野。最重要的是,它在樣本外挑出的創(chuàng)業(yè)公司的退出成功率高達(dá)驚人的 60%!

  這篇論文本身非常 technical,因?yàn)橐恍┙5募?xì)節(jié)問題,我還和作者進(jìn)行了郵件溝通,確保正確的領(lǐng)會了文章傳達(dá)的內(nèi)容。本文將避免涉及太多大數(shù)學(xué)公式(會有少量必要的),但會不吝篇幅、力爭把該分析框架的重點(diǎn) —— 包括如何構(gòu)建特征、如何對參數(shù)建模求解、以及選取什么樣的目標(biāo)函數(shù) —— 解釋清楚。文章最后是關(guān)于這個話題的思考。

  在介紹這個框架之前,首先來看看相較于二級市場,風(fēng)險投資為什么更適合機(jī)器學(xué)習(xí)。

  二、風(fēng)險投資更適合機(jī)器學(xué)習(xí)

  2016 年,AlphaGo 以無可爭議的優(yōu)勢戰(zhàn)勝了李世石;2017 年它的升級版更是風(fēng)卷殘云一般戰(zhàn)勝了以柯潔為代表的中方各路圍棋高手。AI 在圍棋領(lǐng)域的大獲全勝給了我們很大的啟發(fā),一個適合使用機(jī)器學(xué)習(xí)來解決的問題應(yīng)該包括以下三個性質(zhì):

  1. 信息邊界明確,狀態(tài)有限;

  2. 所有信息完全公開透明;

  3. 有明確的勝負(fù)判斷標(biāo)準(zhǔn)。

  我們來看看風(fēng)險投資是否滿足這三個條件。根據(jù)百度百科,風(fēng)險投資的定義如下:

  風(fēng)險投資主要是指向初創(chuàng)企業(yè)提供資金支持并取得該公司股份的一種融資方式。風(fēng)險投資公司為一專業(yè)的投資公司,由一群具有科技及財務(wù)相關(guān)知識與經(jīng)驗(yàn)的人所組合而成的,經(jīng)由直接投資被投資公司股權(quán)的方式,提供資金給需要資金者(被投資公司)。風(fēng)投公司的資金大多用于投資新創(chuàng)事業(yè)或是未上市企業(yè),并不以經(jīng)營被投資公司為目的,僅是提供資金及專業(yè)上的知識與經(jīng)驗(yàn),以協(xié)助被投資公司獲取更大的利潤為目的,所以是一追求長期利潤的高風(fēng)險高報酬事業(yè)。

  在一個創(chuàng)業(yè)公司融資的過程中,通常分為種子輪(seed)、A 輪、B 輪、……、F 輪(一般 IPO 前不超過 F 輪)、最后是 IPO。以 IPO 上市退出無疑會帶給投資人最大的收益;在上市無望的情況下,被收購也是一種比較好的退出方式。根據(jù)上面的定義,風(fēng)投的手段是投資有希望的早期創(chuàng)業(yè)公司,目的是在退出時為投資人牟取超高額收益。

  從機(jī)器學(xué)習(xí)問題的角度來說,我們需要挖掘初創(chuàng)公司具備的特征與該公司最終能否為投資人帶來了豐厚的報酬之間的關(guān)系:Y = f(X),即回答“什么樣的公司能在未來成為獨(dú)角獸”這個問題(X代表特征向量,Y 代表是否帶來了豐厚回報這件事兒)。訓(xùn)練這個模型是一個典型的有監(jiān)督學(xué)習(xí)問題。更重要的是,風(fēng)險投資比較好的滿足上面提到的三個條件:

  1. 一個初創(chuàng)公司是否能夠成功大概率受以下幾方面的影響:所處的行業(yè)是否是風(fēng)口行業(yè)、產(chǎn)品是否有核心競爭力、創(chuàng)始團(tuán)隊是否出色、是否有知名早期投資者扶持。與二級市場投資相比,風(fēng)險投資問題的邊界相對明確且狀態(tài)有限。

  2. 關(guān)于初創(chuàng)公司的團(tuán)隊和融資路徑數(shù)據(jù),雖然還遠(yuǎn)非盡善盡美,但是也有足夠多的數(shù)據(jù)(包括公開的和可花錢購買的)來建模。在美國,初創(chuàng)公司這方面數(shù)據(jù)的可得性(availability)可能更高一些,但是在國內(nèi)也有像鯨準(zhǔn)、IT 桔子、鉛筆道這樣的關(guān)于創(chuàng)業(yè)團(tuán)隊相關(guān)數(shù)據(jù)的提供方。

  3. 對于風(fēng)投來說,成功的標(biāo)準(zhǔn)比較明確,就是成功退出(包括 IPO 退出或者被收購?fù)顺?。更加發(fā)散一步,在建模和參數(shù)估計時,也可以使用創(chuàng)業(yè)公司完成了哪一輪的融資作為判別的依據(jù)。

  需要明確說明一下 Hunter and Zaman (2017) 研究的樣本對象。該文的樣本點(diǎn)僅考慮了 2000 年之后在美國創(chuàng)辦的、且從數(shù)據(jù)庫中可以獲得其可靠種子輪或 A 輪融資數(shù)據(jù)的公司;作者關(guān)注的是早期融資成功的那些公司中,哪些更有可能最終脫穎而出。滿足上述條件的公司超過 24,000 個。以它們?yōu)闃颖?,該文作者使用機(jī)器學(xué)習(xí)算法找到了最有可能在未來成功的創(chuàng)業(yè)公司應(yīng)具備的特質(zhì)。由于樣本中的公司都已完成了種子輪或 A 輪融資,因此早期投資人的背景和能力也成為對公司建模的一個特征維度。

  下面就來說說 Hunter and Zaman (2017) 考慮的特征。

  三、選擇特征

  上一節(jié)提到,創(chuàng)業(yè)公司的特征可以從以下四個方面考慮:

  1. 行業(yè)

  2. 產(chǎn)品

  3. 領(lǐng)導(dǎo)團(tuán)隊(包括高管和顧問)

  4. 早期投資者(首輪融資)的資源和經(jīng)驗(yàn)

  Hunter and Zaman (2017) 在構(gòu)建特征時并沒有獨(dú)立考慮產(chǎn)品這個維度(也沒有過多的加以說明)。我的猜想可能是行業(yè)已經(jīng)是產(chǎn)品的一個有效代理指標(biāo),話句話說,產(chǎn)品和行業(yè)維度比較相關(guān)。另外的原因就是在產(chǎn)品初期,能客觀定量評價它的指標(biāo)可能非常有限;產(chǎn)品本身太過細(xì)分,難以橫向比較。事實(shí)上,馬上我們將看到,Hunter and Zaman (2017) 考慮的行業(yè)已經(jīng)非常細(xì)致,這也暗示了無需再進(jìn)一步考慮產(chǎn)品這個維度了。接下來,分別從行業(yè)、領(lǐng)導(dǎo)團(tuán)隊以及早期投資者三個維度介紹特征。這些數(shù)據(jù)來自 Crunchbase 數(shù)據(jù)庫以及 Linkedin(領(lǐng)英)。

  3.1 行業(yè)

  Hunter and Zaman (2017) 考慮了如下這些行業(yè)。當(dāng)一個創(chuàng)業(yè)公司所屬于某個行業(yè)時,它對應(yīng)的行業(yè)特征取 1,否則為 0。這些行業(yè)包括:3D 打印、廣告、分析、動畫、Apps 應(yīng)用程序開發(fā)、人工智能、汽車、無人駕駛汽車、大數(shù)據(jù)、生物信息、生物技術(shù)、比特幣、商業(yè)智能、云計算、計算機(jī)、計算機(jī)視覺、約會交友、開發(fā)者 API、電子商務(wù)、線上學(xué)習(xí)、教育、線上虛擬體育、時尚、金融、金融服務(wù)、金融科技,健身、GPU、硬件、保健、健康診斷、醫(yī)院、保險業(yè)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、iOS 開發(fā)、生活方式、物流、機(jī)器學(xué)習(xí)、醫(yī)療、醫(yī)療設(shè)備、信息派送、移動通訊、納米技術(shù)、網(wǎng)絡(luò)安全、開放源碼、個人健康、寵物、照片共享、可再生能源、共享出行、機(jī)器人、搜索引擎、社交媒體、社交網(wǎng)絡(luò)、軟件、太陽能、體育、交通、視頻游戲、虛擬現(xiàn)實(shí)和虛擬化。

  3.2 領(lǐng)導(dǎo)團(tuán)隊

  領(lǐng)導(dǎo)團(tuán)隊籠統(tǒng)的包括高管(含創(chuàng)始人)以及顧問。主要考慮的角度包括,團(tuán)隊成員在過去是否有成功的創(chuàng)業(yè)經(jīng)驗(yàn)、團(tuán)隊成員之間工作和教育背景的相似性和互補(bǔ)性、團(tuán)隊和公司所處行業(yè)的符合度、以及團(tuán)隊的平均年齡。下面分別說明。

  首先,團(tuán)隊成員過去的創(chuàng)業(yè)經(jīng)驗(yàn)包括如下六個指標(biāo)。

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  其次,利用 Linkedin 的數(shù)據(jù),Hunter and Zaman (2017) 抓取了所有領(lǐng)導(dǎo)團(tuán)隊成員在成立/加入本公司之前的工作經(jīng)歷,并從中計算出了如下代表他們工作經(jīng)驗(yàn)和背景的特征。

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  在計算工作重合度時,Hunter and Zaman (2017) 采用了 Jaccard Index(一種評價兩個集合中元素相似度的常見方法)。具體方法為,領(lǐng)導(dǎo)團(tuán)隊成員兩兩配對,找出他們之前工作單位的交集和并集,用交集中成員的數(shù)量除以并集中成員的數(shù)量求出 Jaccard Index。這個指標(biāo)的取值在 0 到 1 之間,是工作重合度的度量,越高說明重合度越高。對于每個配對,都能得到一個 Jaccard Index,然后計算這些 Jaccard Index 的均值和標(biāo)準(zhǔn)差,作為工作重合度的均值和標(biāo)準(zhǔn)差。

  在領(lǐng)導(dǎo)團(tuán)隊的教育背景方面,Hunter and Zaman (2017) 考慮了較高學(xué)歷、是否畢業(yè)于名校、以及教育背景重合度等特征。這些特征包括:

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  在名校的表單中,Hunter and Zaman (2017) 僅考慮了美國的學(xué)校(這是個不足?),它們包括:伯克利、布朗大學(xué)、加州理工、卡耐基梅隆、哥倫比亞、康奈爾、達(dá)特茅斯、杜克大學(xué)、哈佛大學(xué)、約翰霍普金斯、麻省理工、西北大學(xué)、普林斯頓、斯坦福、芝加哥大學(xué)、賓夕法尼亞大學(xué)、以及耶魯大學(xué)。在計算教育背景重合度時,同樣采用的是 Jaccard Index,不再贅述。

  對于團(tuán)隊教育背景和公司所處行業(yè)的相似性,Hunter and Zaman (2017) 使用了 WordNet 詞匯數(shù)據(jù)庫,計算每個領(lǐng)導(dǎo)團(tuán)隊成員學(xué)術(shù)專業(yè)和公司所處行業(yè)之間的語義相似度(具體方法是 Palmer-Wu 相似度分?jǐn)?shù),見 Wu and Palmer 1994)。得到由每個成員計算出的相似度后,取它們的均值作為團(tuán)隊教育背景和公司行業(yè)的相似性的度量。

  最后一個關(guān)于創(chuàng)始團(tuán)隊的指標(biāo)是在成立該公司時,團(tuán)隊的平均年齡。出于年齡數(shù)據(jù)不全的考量,作者假設(shè)團(tuán)隊成員 18 歲高中畢業(yè)、22 歲本科畢業(yè),然后根據(jù)他們獲得相應(yīng)學(xué)位的年份和公司創(chuàng)辦的年份計算出目標(biāo)年齡。

  3.3 早期投資者

  在早期投資者這個維度,Hunter and Zaman (2017) 著實(shí)花了一番功夫,使用約 83,000 個公司和 48,000 個投資者數(shù)據(jù)構(gòu)建了一個公司和投資者關(guān)系的動態(tài)知識圖譜。該圖譜隨時間變化,對于任意給定的時間點(diǎn),圖譜中的給定節(jié)點(diǎn)表示在那個時刻某個投資者投資了某個公司。通過這個圖譜,作者計算了兩個評價早期投資者能力的指標(biāo):投資人的參與度和投資人的成功率。

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  以上介紹了從行業(yè)、團(tuán)隊和早期投資者這三個維度如何構(gòu)建創(chuàng)業(yè)公司的特征。其中的難點(diǎn)在于數(shù)據(jù)的抓取、數(shù)據(jù)的清洗(提高數(shù)據(jù)質(zhì)量)、以及投資人和公司關(guān)系圖譜的構(gòu)建。

  >>>點(diǎn)擊咨詢AQF課程相關(guān)問題

  量化金融分析師AQF實(shí)訓(xùn)項(xiàng)目

  (點(diǎn)擊上圖了解課程詳情)

  四、構(gòu)建參數(shù)模型

  有了特征之后,下一步就是要把特征和最終模型學(xué)習(xí)的目標(biāo)聯(lián)系起來。對于選擇優(yōu)秀的初創(chuàng)公司這件事兒,目標(biāo)應(yīng)該是什么呢?

  我們最終的目標(biāo)是找到最有希望 IPO 的公司。但是使用上述特征直接映射到創(chuàng)業(yè)公司能否 IPO (比如使用邏輯回歸)太過簡單粗暴了。下圖顯示了在 Hunter and Zaman (2017) 的樣本中,自 2000 年以來每年新成立的公司的數(shù)量以及每年處于各輪融資的公司的數(shù)量(從種子輪、A 輪、一直到被收購或者 IPO)。

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  從上面的右圖可見,能夠最終 IPO 的獨(dú)角獸公司鳳毛麟角。如果僅僅以一個公司是否 IPO 作為標(biāo)簽的話,這樣的樣本數(shù)據(jù)是非常不均衡的。以此來訓(xùn)練分類模型的話,常規(guī)的方法會過度的考慮對非 IPO 公司(占絕大多數(shù))分類的準(zhǔn)確性,而忽視對少數(shù) IPO 公司的準(zhǔn)確性。

  從直覺上來看,我們似乎應(yīng)關(guān)心對 IPO 公司預(yù)測的準(zhǔn)確率,并為此可以犧牲對該類預(yù)測的召回率,以及對非 IPO 公司預(yù)測的精度。但是不要忘記,IPO 的回報是非常高的 —— 不夸張的說,早期 VC 投 100 個公司,有一個能夠最終 IPO 就足夠覆蓋其他 99 個失敗造成的損失并給他帶來豐厚的收益了。這樣的收益特性稱為 top-heavy payoff structure?;诖?,我們似乎更應(yīng)該關(guān)注對 IPO 公司分類的召回率。

  無論如何,直接以是否 IPO 作為標(biāo)簽來訓(xùn)練一個有監(jiān)督分類問題是過于簡化了。更合理的建模思路應(yīng)該是什么呢?從業(yè)務(wù)上來考慮,一個創(chuàng)業(yè)公司在成功的歷經(jīng)各輪融資后,它的估值是在逐步提升的。因此,使用創(chuàng)業(yè)公司的特征來對它估值的變化建模似乎是一條可行并合理的路徑。Hunter and Zaman (2017) 正是這么做的。

  Hunter and Zaman (2017) 假設(shè)一個公司的估值 V(t) 隨時間的變化可以由一個布朗運(yùn)動描述,該布朗運(yùn)動的漂移率和擴(kuò)散率同樣為時間 t 的函數(shù),分別為 μ(t) 和 σ(t)。假設(shè)在成立時,公司的估值為 0,即 V(0) = 0,隨著時間的推移,V(t) 按布朗運(yùn)動波動。進(jìn)一步假設(shè)不同的融資輪對應(yīng)不同的估值閾值,當(dāng) V(t) 超過某輪閾值就意味著該公司成功完成該輪融資。經(jīng)過這樣的假設(shè),一個公司每完成新一輪融資所需要的時間就是這個布朗運(yùn)動的 first passage time(首達(dá)時間)。在進(jìn)一步的數(shù)學(xué)假設(shè)下,作者給出了布朗運(yùn)動首達(dá)時間的概率分布函數(shù) f 以及累計分布函數(shù) F(公式本身太“感人”了,因此我們僅僅給出它們的數(shù)學(xué)符號,具體表達(dá)式就不列出來了,感興趣的讀者請參考原文):

  機(jī)器學(xué)習(xí)能否助力量化投資

  其中 t_0 表示下一輪融資的起始時間、α 表示估值 V(t) 需要達(dá)到的閾值。結(jié)合創(chuàng)業(yè)公司的融資數(shù)據(jù),作者觀察到了如下特征,并將它們用于對 μ(t) 和 σ(t) 的建模中:

  1. 大多數(shù)成功的創(chuàng)業(yè)公司在早期幾輪融資中的間隔時間大致相同,這說明我們可以假設(shè)在一段時間內(nèi),μ(t) 和 σ(t) 保持不變;

  2. 很多公司雖然在前幾輪融資成功,但是隨著時間的推移,越來越多的不免走向失敗,無法繼續(xù)獲得融資。這意味著當(dāng)過一個公司發(fā)展了幾年后,布朗運(yùn)動的漂移率開始下降;

  3. 隨著時間進(jìn)一步推移,一個公司能夠成功(IPO 或者被收購)的可能性越來越低(說明其估值 V(t) 到達(dá)某個極限,很難繼續(xù)增長),這意味著 μ(t) 和 σ(t) 將隨著 t 的增大趨近于 0。

  考慮到這些特性,Hunter and Zaman (2017) 對 μ(t) 和 σ(t) 的表達(dá)式總結(jié)如下:

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  這表明當(dāng) t ≤ ν 時,μ(t) 和 σ(t) 為常數(shù);而當(dāng) t > ν 時,μ(t) 和 σ(t) 按指數(shù)衰減。ν、τ、μ_0 及 σ_0 需要根據(jù)訓(xùn)練集數(shù)據(jù)得到,其中 ν 和 τ 的取值對所有公司相同,而 μ_0 及 σ_0 是每個公司特有的參數(shù)。用什么來決定每個公司的 μ_0 和 σ_0 呢?你一定已經(jīng)猜到了:公司的特征!如此一來,公司特征就和上述布朗運(yùn)動有機(jī)的結(jié)合起來了。

  對于 μ_0 和 σ_0,分別考慮兩組參數(shù)向量 β 和 γ,并令 μ_0 和 σ_0 是特征向量 X 以 β 和 γ 分別為權(quán)重的線性組合:

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  此外,Hunter and Zaman (2017) 認(rèn)為外部環(huán)境的改變會影響公司特征對于公司能否成功的重要性。為此,他們假設(shè)同年成立的公司共享一組 β,但不同年份之間 β 向量是不同的(當(dāng)然不同年的 β 之間是不獨(dú)立的)。對于給定年份,所有在該年成立的創(chuàng)業(yè)公司使用該年的 β 向量和自身的特征向量 X 來求解漂移率 μ_0。

  最終需要根據(jù)訓(xùn)練集來估計的參數(shù)包括 β 和 γ,以及用來描述漂移率和擴(kuò)散率隨時間變化結(jié)構(gòu)的 ν 和 τ。對于給定的參數(shù),可以求出描述公司估值變化的布朗運(yùn)動的漂移率和擴(kuò)散率,即 μ(t) 和 σ(t),從而計算出估值 V(t) 到達(dá)各輪融資閾值的首達(dá)時間的概率分布;有了這個概率分布便能求出每個創(chuàng)業(yè)公司在個給定的時間內(nèi)是否能成功完成指定輪融資的概率。在參數(shù)估計中,目標(biāo)函數(shù)就是最大化所有訓(xùn)練集樣本點(diǎn)各輪融資發(fā)生的概率。

  為了計算概率,需要給定各輪融資的閾值。Hunter and Zaman (2017) 將這些閾值作為模型的超參數(shù)直接給定,但他們也強(qiáng)調(diào)模型對融資閾值的選擇并不敏感。由于在模型中融資閾值對所有公司都一樣,因此它們僅對 β 和 γ 參數(shù)的大小起縮放(scaling)作用,并不影響特征和目標(biāo)函數(shù)之間的內(nèi)在關(guān)系。

  由于目標(biāo)函數(shù)太復(fù)雜,作者采用了 Broyden-Fletcher-Goldfarb-Shanno 算法(一種求解無約束非線性優(yōu)化問題的迭代算法,見 Yuan 1991),它能比傳統(tǒng)的梯度法更快的找到較優(yōu)解。

  五、構(gòu)建較優(yōu)投資組合

  通過上述參數(shù)模型,作者構(gòu)建了公司特征和公司估值 V 變化之間的關(guān)系。但到了這一步還沒結(jié)束,僅僅有了這個關(guān)系,我們只能大致知道哪個公司可能更有希望獲得融資。為了從成千上萬的創(chuàng)業(yè)公司中找出獨(dú)角獸,我們最關(guān)心的是每個創(chuàng)業(yè)公司最終能夠在有限時間內(nèi)實(shí)現(xiàn) IPO 的概率。

  有了首達(dá)時間的概率分布函數(shù) F 和模型的參數(shù),很容易通過下式求出任何公司 i 最終 IPO 的概率,記為 p_i(其中 H 為實(shí)現(xiàn) IPO 所需要的閾值):

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  有了每個公司成功的概率 p_i,那么 VC 是不是只需要將有限的資金投入給成功概率較高的那些公司就可以了呢?答案并非那么簡單。假設(shè)一共有 m 個創(chuàng)業(yè)公司,由于資金有限制,VC 需要從中選出 k 個,目標(biāo)是這 k 個里面至少有一個最終會 IPO。這個問題類似背包問題(knapsack problem)或集合覆蓋問題(set covering problem),其目標(biāo)函數(shù)可以寫成:

  

機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  其中 [m] = {1, 2, …, m} 構(gòu)成了所有公司的集合,S 是 [m] 的子集、大小為 k,E_i 代表公司 i 成功 IPO(其概率為 p_i)。由于我們希望至少有一個 IPO 成功,因此只需要將不同的 E_i 求交集。U(S) 就是選出的 k 個公司中,至少有一個 IPO 成功的概率,所以我們希望最大化 U(S)。

  這個問題是 HP-hard,難以求解。但是,該問題具備一些不錯的數(shù)學(xué)性質(zhì)使得貪心算法(greedy)可以找到不錯的次優(yōu)解。使用貪心算法,每一輪從所有剩余公司中選擇一個,選出來的應(yīng)該是能夠最大化目標(biāo)函數(shù)的邊際增長,直到 k 輪后,一共選擇 k個公司構(gòu)成 S。

  如果令 S_G 和 S_W 分別表示貪心算法的解和全局較優(yōu)解,那么可以證明,目標(biāo)函數(shù)的準(zhǔn)確性是有下界的:

  機(jī)器學(xué)習(xí)能夠助力風(fēng)險投資

  當(dāng) E_i 之間獨(dú)立時 S_G 和 S_W 完全一致。在實(shí)際的求解中,Hunter and Zaman (2017) 假設(shè)公司之間能否 IPO 是獨(dú)立的。利用獨(dú)立性可以把目標(biāo)函數(shù)表示成 p_i 的形式(p_i 是公司 i 成功 IPO 的概率):

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  最后需要指出的一點(diǎn)是,在上一節(jié)的建模中,作者令系數(shù) β 隨時間變化。因此在計算目標(biāo)函數(shù) U(S) 的時候必須考慮 β 的變化引入的隨機(jī)性。這意味著 U(S) 實(shí)際是關(guān)于 β 的期望,即我們最終要最大化的是按照 β 的概率分布計算出來的至少有一家創(chuàng)業(yè)公司成功 IPO 的期望概率:

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  這個期望可以使用蒙特卡洛積分求解。這就是這個量化風(fēng)投框架的全部內(nèi)容。

  六、量化效果

  Hunter and Zaman (2017) 使用 2000 到 2010 年的數(shù)據(jù)作為訓(xùn)練集,之后的數(shù)據(jù)作為測試集,檢驗(yàn)了他們提出的量化框架。通過在訓(xùn)練集上訓(xùn)練模型,他們得到了每個公司估值布朗運(yùn)動的漂移率 μ_0 和擴(kuò)散率 σ_0。將所有公司按照其較高的融資輪次分組,并考察每組中公司的 μ_0 和 σ_0 的中位數(shù)有:

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  觀察這張圖可以得到如下啟發(fā):

  1. 表現(xiàn)較差的創(chuàng)業(yè)公司(較高融資輪止步于種子輪或者 A 輪)通常有較低的漂移率;

  2. 表現(xiàn)一般的創(chuàng)業(yè)公司(較高融資輪為 B 到 F 輪)通常有較高的漂移率,但是較低的擴(kuò)散率;

  3. 表現(xiàn)較好的公司(以 IPO 或者被收購?fù)顺?的漂移率僅僅是一般水平,但是卻有很大的擴(kuò)散率。

  這似乎說明足夠大的擴(kuò)散率是成功的必要條件。這讓我們自然的提出下一個問題:什么樣的公司特征可能帶來比較大的擴(kuò)散率(和漂移率)?

  作者給出了 2010 年對漂移率產(chǎn)生最大影響的五個行業(yè)和非行業(yè)特征及它們的系數(shù)(別忘了 β 每年是變的),以及對擴(kuò)散率產(chǎn)生最大影響的五個行業(yè)和非行業(yè)特征及它們的系數(shù):

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  從行業(yè)的角度來說,在 2010 年,影響漂移率的五大行業(yè)是線上學(xué)習(xí)、共享出行、開源、云計算以及生物信息學(xué);影響擴(kuò)散率的五大行業(yè)是社交媒體、信息派送、社交網(wǎng)絡(luò)、APPs 應(yīng)用程序開發(fā)以及云計算。這意味著這些行業(yè)的想象空間(波動)比較大。

  從非行業(yè)特征角度來說,無論是對于漂移率還是擴(kuò)散率,最重要的特征就是創(chuàng)始團(tuán)隊的經(jīng)驗(yàn),特別是管理團(tuán)隊成員是否在成立本公司之前有過成功的創(chuàng)業(yè)經(jīng)歷。除此之外,教育背景(是否畢業(yè)于名校),和早期投資者過往的成功率(maximum acquisition fraction)也尤為重要。

  根據(jù)訓(xùn)練模型和較優(yōu)投資組合的優(yōu)化函數(shù),作者分別在 2011 年和 2012 年構(gòu)建了兩個投資組合,每個里面包含 10 個創(chuàng)業(yè)公司。這兩個組合如下表所示,其中第二列為到 2016 年底每個公司最終的融資或退出情況,第三列為模型預(yù)測的退出概率 p_i,第四列為組合中依次加入每個公司之后目標(biāo)函數(shù) U(S) 的變化。

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  結(jié)果顯示,在 2011 年選出來的 10 個公司中,有 6 個如今已經(jīng)成功退出了(包括 1 個 IPO 和 5 個被收購);在 2012 年選出的 10 個公司中,有 4 個已經(jīng)退出了(均是被收購)。這可以說是令人稱奇的結(jié)果了。

  為了橫向比較,Hunter and Zaman (2017) 把他們的模型和頂級 VC 以及一個基準(zhǔn)模型比較?;鶞?zhǔn)模型采用了 ordered logistic regression 算法,它使用每個公司較高的融資輪作為標(biāo)簽,進(jìn)行有監(jiān)督分類。

  機(jī)器學(xué)習(xí)能否助力風(fēng)險投資

  上圖中,左側(cè)的為 2011 年的結(jié)果,右側(cè)為 2012 年的結(jié)果。橫坐標(biāo)表示所投公司數(shù)量,縱坐標(biāo)為成功退出公司的數(shù)量。其中紅線和藍(lán)線為基于 Hunter and Zaman (2017) 框架的兩個版本的模型的結(jié)果,它們的成功率遠(yuǎn)超基準(zhǔn)模型以及頂級 VC;在 2011 年的組合中,當(dāng)投資個數(shù)增加時,基準(zhǔn)模型 ordered logistic regression 也取得了不錯的效果,但是當(dāng)投資的創(chuàng)業(yè)公司較少時,Hunter and Zaman (2017) 的框架仍然是最出色的。

  七、啟發(fā)與思考

  終于把這個框架介紹完了,首先的感受是“給跪了”。Hunter 和 Zaman 在這個量化風(fēng)險投資框架中集成了大量的機(jī)器學(xué)習(xí)和數(shù)學(xué)優(yōu)化算法。對它們的梳理如下:

  1. 從創(chuàng)業(yè)公司數(shù)據(jù)庫(如作者采用的 Crunchbase)和 Linkedin 抓取創(chuàng)業(yè)公司和創(chuàng)業(yè)者、投資人的數(shù)據(jù);從行業(yè)、團(tuán)隊、早期投資人三個維度構(gòu)建特征;這其中運(yùn)用了知識圖譜的構(gòu)建以及語義分析等技術(shù);

  2. 使用帶漂移率和擴(kuò)散率的布朗運(yùn)動來建模創(chuàng)業(yè)公司估值的變化,以最大化訓(xùn)練集中所有公司各輪融資發(fā)生的概率為目標(biāo)訓(xùn)練模型參數(shù),這是一個有監(jiān)督學(xué)習(xí)問題,求解時采用了 BFGS 算法;

  3. 根據(jù)模型的參數(shù),使用布朗運(yùn)動首達(dá)時間的概率分布計算出每個公司實(shí)現(xiàn) IPO 的概率。

  4. 使用貪心算法和蒙特卡洛積分求解公司選取較優(yōu)化問題,較優(yōu)化的目標(biāo)是最大化選出來的公司中至少有一個能夠?qū)崿F(xiàn) IPO 的概率。

  一個優(yōu)秀的風(fēng)險投資公司必備的兩點(diǎn)是一套科學(xué)的方法論(來洞察投資熱點(diǎn)和評估創(chuàng)業(yè)團(tuán)隊),和豐富的資源(無論是募資能力還是社會資源)。沒有前者,它找不到好的項(xiàng)目;沒有后者,好的項(xiàng)目不找它。本文介紹的這個量化框架可以是這套科學(xué)方法論的有利助力。

  為什么這么說呢?因?yàn)槟呐率菕侀_該框架在樣本外的預(yù)測效果而言,它通過訓(xùn)練集建模得到的參數(shù)就能給 VC 們帶來很多非常有幫助的啟發(fā),這其中包括對熱點(diǎn)行業(yè)的追蹤以及對優(yōu)秀創(chuàng)業(yè)公司必備的特征的精準(zhǔn)定位。比如,通過模型的參數(shù)可以找出時下最熱門的行業(yè),并指出一個創(chuàng)業(yè)公司想要成功必備的特質(zhì)是創(chuàng)始人的工作經(jīng)歷和教育背景 —— 資本尤其青睞連續(xù)創(chuàng)業(yè)者。這些發(fā)現(xiàn)和國內(nèi)很多頂級 VC 的“投的是人,而不是項(xiàng)目”的理念不謀而合。

  當(dāng)然在現(xiàn)階段,純量化的風(fēng)投框架無法解決一個風(fēng)投公司的資源問題。換句話說,一個量化型風(fēng)投基金如果沒人脈沒資源、沒有足夠的募資能力,那即便是它找到了最具成功潛質(zhì)的公司,也很難得到股權(quán)投資的機(jī)會。但是對于那些已在市場中站穩(wěn)腳跟的 VC 們,掌握一套量化的科學(xué)評估體系(無論是對行業(yè)還是對創(chuàng)業(yè)公司) —— 即便該體系沒有本文介紹的這么復(fù)雜 —— 也都是大有裨益的。該體系一定會在當(dāng)下的風(fēng)投界為這些 VC 們贏得一定的 edge。

  如果有一天,機(jī)器學(xué)習(xí)(或更廣義的,人工智能)真的在投資界大有作為,那么一級市場的 VC 們恐怕會比二級市場的基金經(jīng)理們率先“淪陷”,而“干掉”他們的正是他們扶持起來的這些人工智能領(lǐng)域的獨(dú)角獸們。

  猶未可知。

  參考文獻(xiàn)

  Hunter, D. and T. Zaman (2017). Picking winners: a framework for venture capital investment. Working paper, Sloan School of Management, Massachusetts Institute of Technology.

  Wu, Z. and M. Palmer (1994). Verbs semantics and lexical selection. In Proceedings of the 32th annual meeting on association for computational linguistics, 133 – 138.

  Yuan, Y.X. (1991). A modified BFGS algorithm for unconstrained optimization. IMA Journal of Numerical Analysis, Vol. 11(3), 325 – 332.

量化金融分析師(簡稱AQF ,Analyst of Quantitative Finance)由量化金融標(biāo)準(zhǔn)委員會(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書。 >>>點(diǎn)擊咨詢AQF證書含金量

  AQF證書

  

  AQF試聽課

金程推薦: AQF培訓(xùn) AQF培訓(xùn)機(jī)構(gòu) AQF是什么意思

咨詢電話:400-700-9596

AQF考友群:760229148

  金融寬客交流群:801860357

  微信公眾號:量化金融分析師

  >>>返回首頁

  作者:石川,量信投資創(chuàng)始合伙人,清華大學(xué)學(xué)士、碩士,麻省理工學(xué)院博士;精通各種概率模型和統(tǒng)計方法,擅長不確定性隨機(jī)系統(tǒng)的建模及優(yōu)化。轉(zhuǎn)載自公眾號“川總寫量化”

吐槽

對不起!讓你吐槽了

/500

上傳圖片

    可上傳3張圖片

    2001-2025 上海金程教育科技有限公司 All Rights Reserved. 信息系統(tǒng)安全等級:三級
    中央網(wǎng)信辦舉報中心 上海市互聯(lián)網(wǎng)舉報中心 不良信息舉報郵箱:law@gfedu.net
    滬ICP備14042082號 滬B2-20240743 通過ISO9001:2015 國際質(zhì)量管理體系認(rèn)證 滬公網(wǎng)安備31010902103762號 出版物經(jīng)營許可證 電子營業(yè)執(zhí)照

    掃描二維碼登錄金程網(wǎng)校

    請使用新版 金程網(wǎng)校APP 掃碼完成登錄

    登錄即同意金程網(wǎng)校協(xié)議及《隱私政策》