核心觀點(diǎn):
●借力研報(bào),打造開(kāi)放的量化選股模型
傳統(tǒng)的多因子量化選股模型是封閉的,缺乏捕捉市場(chǎng)熱點(diǎn)的能力,通過(guò)大數(shù)據(jù)技術(shù),從財(cái)經(jīng)媒體和分析師研報(bào)中捕捉熱點(diǎn)和政策的變化,可以打造開(kāi)放的量化選股模型。
分析師個(gè)股類研報(bào)每年大約5萬(wàn)份,相比財(cái)經(jīng)媒體,分析師研報(bào)在專業(yè)度、可信度、規(guī)范度、實(shí)時(shí)度等方面有明顯優(yōu)勢(shì),是大數(shù)據(jù)AQF量化投資的重要數(shù)據(jù)來(lái)源之一。
●熱詞庫(kù)建設(shè)是構(gòu)建量化選股模型的關(guān)鍵
通過(guò)對(duì)歷史研報(bào)的統(tǒng)計(jì),我們建立了基本面類、情緒面類、概念主題類三大熱詞庫(kù),其中基本面類和情緒類細(xì)分為正面詞庫(kù)和負(fù)面詞庫(kù)。我們統(tǒng)計(jì)了單個(gè)熱詞在近4年的選股效果,總體勝率比較高,相對(duì)滬深300有明顯超額收益。
●“基本面+情緒面”熱詞庫(kù)選股策略表現(xiàn)穩(wěn)定
2011-2014年,策略相對(duì)滬深300、中證500的年化超額收益為21.29%、14.84%,月度勝率大約70%。
●“概念主題”熱詞庫(kù)選股策略令人驚喜
以“油價(jià)下跌”和“一帶一路”為例,截止12月19日,“油價(jià)下跌”熱詞概念股平均超額收益27.78%,“一帶一路”熱詞概念股平均超額收益21.48%,其中表現(xiàn)較好的是中國(guó)交建,超額收益達(dá)93.28%、絕對(duì)收益達(dá)101.55%。
●“銀河大數(shù)據(jù)量化投資”體系
我們將逐步建立起“銀河大數(shù)據(jù)量化投資”體系,數(shù)據(jù)來(lái)源包括財(cái)經(jīng)媒體、分析師研報(bào)、行情財(cái)務(wù)三大部分。我們認(rèn)為,通過(guò)對(duì)投資者情緒、行業(yè)政策輿論、概念主題輿論和個(gè)股輿論進(jìn)行大數(shù)據(jù)分析,可以構(gòu)建擇時(shí)、行業(yè)配置、選股和組合管理等量化投資模型。
傳統(tǒng)的多因子量化選股模型是封閉的,缺乏捕捉市場(chǎng)熱點(diǎn)的能力,通過(guò)大數(shù)據(jù)技術(shù),從財(cái)經(jīng)媒體和分析師研報(bào)中捕捉熱點(diǎn)和政策的變化,可以打造開(kāi)放的量化選股模型。
分析師個(gè)股類研報(bào)每年大約5萬(wàn)份,相比財(cái)經(jīng)媒體,分析師研報(bào)在專業(yè)度、可信度、規(guī)范度、實(shí)時(shí)度等方面有明顯優(yōu)勢(shì),是大數(shù)據(jù)量化投資的重要數(shù)據(jù)來(lái)源之一。>>>點(diǎn)擊咨詢AQF量化金融分析師實(shí)訓(xùn)項(xiàng)目

一、銀河大數(shù)據(jù)量化投資體系
近兩年來(lái),大數(shù)據(jù)和互聯(lián)網(wǎng)金融發(fā)展迅猛,各大基金公司和券商紛紛加入大數(shù)據(jù)量化投資研究行列,甚至一些互聯(lián)網(wǎng)公司已經(jīng)布局,未來(lái)大數(shù)據(jù)量化投資研究將精彩紛呈。
國(guó)內(nèi)已經(jīng)有成功的案例,比如廣發(fā)基金聯(lián)合百度公司、中證指數(shù)公司開(kāi)發(fā)百發(fā)100指數(shù),南方基金則攜手新浪財(cái)經(jīng)、深證信息公司推出了i100指數(shù)和i300指數(shù)。
我們構(gòu)建了銀河大數(shù)據(jù)量化投資體系。理論上,大數(shù)據(jù)研究的引入,可以把量化投資各個(gè)領(lǐng)域重新建模,包括擇時(shí)、行業(yè)配置、選股和組合管理等。

二、分析師研報(bào)是重要的數(shù)據(jù)來(lái)源
(一)信息的傳導(dǎo)路徑
傳統(tǒng)的多因子量化選股模型依賴財(cái)報(bào)數(shù)據(jù),其信息是非常滯后的,其封閉性讓其無(wú)法跟上市場(chǎng)節(jié)奏,通過(guò)財(cái)經(jīng)媒體和分析師研報(bào),有助于量化選股模型捕捉到更加前沿的信息。

(二)分析師研報(bào)數(shù)量龐大
近4年來(lái),個(gè)股類的分析師研報(bào)每年大約有5萬(wàn)分,是大數(shù)據(jù)量化投資的重要數(shù)據(jù)來(lái)源。

(三)簡(jiǎn)單的文本挖掘策略回顧
我們團(tuán)隊(duì)對(duì)分析師研報(bào)的應(yīng)用有著深厚的積累。2013年我們推出了《事件投資,有效的研報(bào)標(biāo)題關(guān)鍵字130521》。
該策略在 014年總體上還是有效的,但呈現(xiàn)一個(gè)特點(diǎn),基本面相關(guān)的關(guān)鍵字效果在下降,而情緒類相關(guān)的關(guān)鍵字效果要更好一些。

簡(jiǎn)單的研報(bào)標(biāo)題信息量非常有限,下文我們將進(jìn)一步從研報(bào)摘要中挖掘更加有效、準(zhǔn)確的信息。
三、文本挖掘技術(shù)介紹與熱詞庫(kù)建設(shè)
首先,我們簡(jiǎn)單介紹一下文本挖掘的技術(shù)。
(一)VSM 模型與 LSA 模型
文本挖掘是信息挖掘的一個(gè)研究分支,用于基于文本信息的知識(shí)發(fā)現(xiàn)。文本挖掘利用智能算法,如神經(jīng)網(wǎng)絡(luò)、基于案例的推理、可能性推理等,并結(jié)合文字處理技術(shù),分析大量的非結(jié)構(gòu)化文本源,抽取或標(biāo)記關(guān)鍵字概念、文字間的關(guān)系,并按照內(nèi)容對(duì)文檔進(jìn)行分類,獲取有用的知識(shí)和信息。文本挖掘涵蓋了多種技術(shù),包括數(shù)據(jù)挖掘技術(shù)、信息抽取、信息檢索,機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算語(yǔ)言學(xué)、統(tǒng)計(jì)數(shù)據(jù)分析、線性幾何、概率理論甚至還有圖論。
語(yǔ)義分析最經(jīng)典的模型是向量空間模型(VSM:Vector Space Model)由 Salton 等人于20世紀(jì)70年代提出。它將文檔表示成特征元素(主要是文檔中出現(xiàn)的詞語(yǔ))的集合,即D(t1,t2,……tn)。最簡(jiǎn)單的計(jì)算詞權(quán)重的方式是:如果詞出現(xiàn)在文檔中,則權(quán)值為1;沒(méi)有出現(xiàn),則權(quán)值為0。這種方法的缺點(diǎn)在于,它沒(méi)有體現(xiàn)詞語(yǔ)在文檔中出現(xiàn)的頻率。
VSM 模型的基本概念包括:
文檔(document): 通常是文章中具有一定規(guī)模的字符串。文檔通常我們也叫文本。
特征項(xiàng) (feature term):是VSM中最小的不可分的語(yǔ)言單元,可以是字、詞、詞組、短語(yǔ)等。一個(gè)文檔內(nèi)容可以被看成是它含有的特征項(xiàng)的集合。表示為一個(gè)向量:(t1,t2,……tn),其中it是特征項(xiàng)。
特征項(xiàng)權(quán)重 (term weight): 對(duì)于含有n個(gè)特征項(xiàng)的文檔(t1,t2,……tn),,每一個(gè)特征項(xiàng)ti都依據(jù)一定的原則被賦予了一個(gè)權(quán)重ωi,表示該特征項(xiàng)在文檔中的重要程度。這樣一個(gè)文檔D可用它含有的特征項(xiàng)及其特征項(xiàng)所對(duì)應(yīng)的權(quán)重所表示:D=(ωi,t2=……ω2,tn=ωn),簡(jiǎn)記為D(ω1,ω2,……ωn),其中ωi就是特征項(xiàng)it的權(quán)重。
1990 年,Deerwester 等人于提出了潛在語(yǔ)義分析(LatentSemanticAnalysis)模型,用于挖掘文檔與詞語(yǔ)之間隱含的潛在語(yǔ)義關(guān)聯(lián)。LSA的理論基礎(chǔ)是數(shù)學(xué)中的奇異值矩陣分解(SVD)技術(shù)。LSA(latentsemantic analysis)潛在語(yǔ)義分析,也被稱為 LSI(latent semanticindex)。該方法和傳統(tǒng)向量空間模型(vectorspacemodel)一樣使用向量來(lái)表示詞(terms)和文檔(documents),并通過(guò)向量間的關(guān)系(如夾角)來(lái)判斷詞及文檔間的關(guān)系,不同的是,LSA將詞和文檔映射到潛在語(yǔ)義空間,從而去除了原始向量空間中的一些“噪音”,提高了信息檢索的精確度。
關(guān)于模型更多的細(xì)節(jié)可以參考專業(yè)的學(xué)術(shù)論文,在此不展開(kāi)論述。
(二)熱詞庫(kù)建設(shè)是構(gòu)建量化選股模型的關(guān)鍵
文本挖掘的技術(shù)已經(jīng)日臻成熟,互聯(lián)網(wǎng)類的公司有非常成熟的技術(shù),那么在證券領(lǐng)域如何運(yùn)用呢?熱詞庫(kù)的建設(shè)是關(guān)鍵,我們認(rèn)為,無(wú)論是財(cái)經(jīng)媒體的文本挖掘還是分析師研報(bào)的文本挖掘,都依賴于熱詞庫(kù)的積累。
我們把詞庫(kù)建設(shè)分成三類:基本面類、情緒面類和概念主題類。

(三)基本面、情緒熱詞效果分析
研報(bào)摘要反應(yīng)了研報(bào)的核心內(nèi)容,大券商分析師的研報(bào)摘要表述清晰、簡(jiǎn)潔、準(zhǔn)確,通過(guò)對(duì)研報(bào)摘要文本挖掘提煉關(guān)鍵信息,可以起到事半功倍的效果。后文的熱詞挖掘都是針對(duì)研報(bào)摘要進(jìn)行。




從熱詞在 2011-2014年的表現(xiàn)來(lái)看,單個(gè)熱詞是不穩(wěn)定的,但熱詞庫(kù)整體的勝率和超額是比較好的,因此,我們用整個(gè)熱詞庫(kù)構(gòu)建量化選股模型。>>>點(diǎn)擊咨詢AQF證書(shū)含金量
四、“基本面+情緒面”熱詞庫(kù)選股策略
(一)策略凈值
對(duì)研報(bào)標(biāo)題和摘要進(jìn)行文本挖掘,通過(guò)基本面熱詞庫(kù)、情緒面熱詞庫(kù)兩個(gè)角度進(jìn)行篩選,成分股持倉(cāng)30個(gè)交易日,每5個(gè)交易日滾動(dòng)調(diào)倉(cāng)一次,雙邊手續(xù)費(fèi)取千分五,策略凈值如圖4 所示,可見(jiàn),策略能夠穩(wěn)定戰(zhàn)勝中證500指數(shù)和滬深300指數(shù)。

策略每年的超額收益是比較穩(wěn)定的,如表 9 所示。

(二)相對(duì)優(yōu)勢(shì)分析


(三)案例分析

東華軟件在2014年的第一份研究報(bào)告是《東華軟件-002065-前瞻布局,再創(chuàng)優(yōu)勢(shì)-140122》,改報(bào)告出現(xiàn)的熱詞有:并購(gòu)、龍頭、加速、增長(zhǎng)、提升等,符合熱詞庫(kù)選股條件,之后的一個(gè)月內(nèi),股價(jià)大幅上升。
2014年8月 24日,某分析師發(fā)布《浙江眾成-002522-公司深度研究:募投項(xiàng)目及新品投放,業(yè)績(jī)望迎來(lái)拐點(diǎn)-140824》,研報(bào)中出現(xiàn)的熱詞有:翻番、拐點(diǎn)、超預(yù)期等,符合熱詞庫(kù)選股條件,之后的一個(gè)月內(nèi),股價(jià)大幅上升。
五、“概念主題”熱詞庫(kù)選股策略
除了“基本面+情緒面”兩個(gè)熱詞庫(kù)篩選之外,我們?cè)黾拥谌悷嵩~庫(kù)的篩選——“概念主題”,打破了傳統(tǒng)多因子量化選股模型的封閉性,有利于量化模型捕捉市場(chǎng)熱點(diǎn)和政策的變化。
以當(dāng)前最熱門的兩個(gè)概念——“油價(jià)下跌”和“一帶一路”為例,我們統(tǒng)計(jì)了入選成分股的表現(xiàn)。
(一) “油價(jià)下跌”概念
截止2014年12月19日,入選成分股相對(duì)滬深300平均超額收益為27.78%。

(二) “一帶一路”概念
截止2014年12月19日,入選成分股相對(duì)滬深300平均超額收益為21.48%。

六、風(fēng)險(xiǎn)提示
本報(bào)告中的所有模型都是根據(jù)歷史數(shù)據(jù)建立和測(cè)算的,圖表中展示的效果亦是基于歷史數(shù)據(jù),并不必然保證未來(lái)有同樣好的收益。本報(bào)告中的所有模型和結(jié)論只供投資者參考,并不能完全排除未來(lái)的風(fēng)險(xiǎn)。
.jpg)
金程推薦: AQF就業(yè)前景 AQF年薪 量化金融分析師年薪
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號(hào):量化金融分析師
聲明:內(nèi)容轉(zhuǎn)自量化俠,版權(quán)歸原作者所有。若有所侵權(quán),請(qǐng)加QQ:2304691076進(jìn)行處理,感謝合作!




