數(shù)據(jù)科學(xué)職位的面試過程會(huì)有很多輪,其中通常會(huì)涉及理論概念,目的是確定應(yīng)聘者是否了解機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)。在這篇文章中,我想總結(jié)一下我所有的面試經(jīng)歷(面試or被面試)并提出了160多個(gè)數(shù)據(jù)科學(xué)理論問題的清單。其中包括以下主題:
線性回歸
模型驗(yàn)證
分類和邏輯回歸
正則化
決策樹
隨機(jī)森林
GBDT
神經(jīng)網(wǎng)絡(luò)
文本分類
聚類
排序:搜索和推薦
時(shí)間序列
這篇文章中的問題數(shù)量似乎遠(yuǎn)遠(yuǎn)不夠,請(qǐng)記住,面試流程是根據(jù)公司的需求和你的工作經(jīng)歷而定的。因此,如果你的工作中沒有用過時(shí)間序列模型或計(jì)算機(jī)視覺模型,就不會(huì)收到類似的問題。
提示:如果不知道某些面試問題的答案,不要灰心。為了簡化起見,我根據(jù)難度將問題分為三類:
簡單
中等
專家
「開始吧!」
有監(jiān)督的機(jī)器學(xué)習(xí)
什么是有監(jiān)督學(xué)習(xí)
線性回歸
什么是回歸?哪些模型可用于解決回歸問題
什么是線性回歸?什么時(shí)候使用它
什么是正態(tài)分布?為什么要重視它
如何檢查變量是否遵循正態(tài)分布
如何建立價(jià)格預(yù)測模型?價(jià)格是否正態(tài)分布?需要對(duì)價(jià)格進(jìn)行預(yù)處理嗎
解決線性回歸的模型有哪些
什么是梯度下降?它是如何工作的
什么是正規(guī)方程
什么是SGD-隨機(jī)梯度下降?與通常的梯度下降有何不同
有哪些評(píng)估回歸模型的指標(biāo)
什么是MSE和RMSE
驗(yàn)證方式
什么是過擬合
如何驗(yàn)證模型
為什么需要將數(shù)據(jù)分為三個(gè)部分:訓(xùn)練,驗(yàn)證和測試
解釋交叉驗(yàn)證的工作原理
什么是K折交叉驗(yàn)證
如何在K折交叉驗(yàn)證中選擇K?你最喜歡的K是什么
分類
什么是分類?哪些模型可以解決分類問題
什么是邏輯回歸?什么時(shí)候需要使用它
Logistic回歸是線性模型嗎?為什么
什么是Sigmoid?它有什么作用
如何評(píng)估分類模型
什么是準(zhǔn)確性
準(zhǔn)確性始終是一個(gè)好的指標(biāo)嗎
什么是混淆表?表中的單元格表示什么
什么是精度,召回率和F1分?jǐn)?shù)
準(zhǔn)確率和召回率的權(quán)衡
什么是ROC曲線?什么時(shí)候使用
什么是AUC(AU ROC)?什么時(shí)候使用
如何解釋AU ROC分?jǐn)?shù)
什么是PR曲線
PR曲線下的面積是多少?這個(gè)指標(biāo)有用嗎
在哪種情況下AU PR比AU ROC好
如何處理分類變量
為什么需要one-hot編碼
正則化
如果的數(shù)據(jù)中包含三列:x,y,z,其中z是x、y的和,那么線性回歸模型會(huì)怎樣
如果數(shù)據(jù)中的z列是x和y列之和加上一些隨機(jī)噪聲,那么的線性回歸模型會(huì)怎樣
什么是正則化?為什么需要它
有哪些正則化技術(shù)
什么樣的正則化技術(shù)適用于線性模型
L2正則化在線性模型中是什么樣的
如何選擇正確的正則化參數(shù)
L2正則化對(duì)線性模型的權(quán)重有什么影響
L1正則化在線性模型中是什么樣的
L2和L1正則化有什么區(qū)別
可以在線性模型中同時(shí)具有L1和L2正則化嗎
如何解釋線性模型中的常數(shù)項(xiàng)
如何解釋線性模型中的權(quán)重
如果一個(gè)變量的權(quán)重高于另一個(gè)變量的權(quán)重,那么可以說這個(gè)變量更重要嗎
什么時(shí)候需要對(duì)線性模型進(jìn)行特征歸一化?什么情況下可以不做歸一化
特征選擇
什么是特征選擇?為什么需要它
特征選擇對(duì)線性模型重要嗎
有哪些特征選擇技術(shù)
可以使用L1正則化進(jìn)行特征選擇嗎
可以使用L2正則化進(jìn)行特征選擇嗎
決策樹
什么是決策樹
如何訓(xùn)練決策樹
決策樹模型的主要參數(shù)是什么
如何處理決策樹中的分類變量
與更復(fù)雜的模型相比,單個(gè)決策樹有什么好處
如何知道哪些特征對(duì)決策樹模型更重要
隨機(jī)森林
什么是隨機(jī)森林
為什么需要在隨機(jī)森林中進(jìn)行隨機(jī)化
隨機(jī)森林模型的主要參數(shù)是什么
如何選擇隨機(jī)森林中樹的深度
如何知道隨機(jī)森林需要多少棵樹
隨機(jī)森林的訓(xùn)練并行化容易?該怎么做
隨機(jī)森林中過多的樹有什么潛在問題
是否可以不找到較佳分割,而是隨機(jī)選擇幾個(gè)分割,然后從中選擇較佳分割?可行嗎
數(shù)據(jù)中存在相關(guān)特征時(shí)會(huì)怎樣
梯度提升
什么是梯度增強(qiáng)樹
隨機(jī)森林和梯度提升之間有什么區(qū)別
是否可以并行化梯度提升模型的訓(xùn)練?怎么做
梯度增強(qiáng)樹中的特征重要性-有哪些可能的選擇
梯度提升模型的特征重要性,連續(xù)變量和離散變量之間是否有區(qū)別
梯度提升模型中的主要參數(shù)是什么
如何在XGBoost或LightGBM中調(diào)整參數(shù)
如何在梯度提升模型中選擇樹的數(shù)量
參數(shù)調(diào)整
你大致了解哪些參數(shù)調(diào)整策略
網(wǎng)格搜索參數(shù)調(diào)整策略和隨機(jī)搜索有什么區(qū)別?什么時(shí)候使用一個(gè)或另一個(gè)
神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)可以解決哪些問題
通常的全連接前饋神經(jīng)網(wǎng)絡(luò)如何工作
為什么需要激活功能
sigmoid 為激活函數(shù)有什么問題
什么是ReLU?它比sigmoid 或tanh好嗎
如何初始化神經(jīng)網(wǎng)絡(luò)的權(quán)重
如果將神經(jīng)網(wǎng)絡(luò)的所有權(quán)重都設(shè)置為0會(huì)怎樣
神經(jīng)網(wǎng)絡(luò)中有哪些正則化技術(shù)
什么是1.1Dropout?為什么有用?它是如何工作的
神經(jīng)網(wǎng)絡(luò)的優(yōu)化
什么是反向傳播?它是如何工作的?為什么需要它
你知道哪些訓(xùn)練神經(jīng)網(wǎng)絡(luò)的優(yōu)化技術(shù)
如何使用SGD(隨機(jī)梯度下降)訓(xùn)練神經(jīng)網(wǎng)絡(luò)
學(xué)習(xí)率是多少
學(xué)習(xí)率太大時(shí)會(huì)發(fā)生什么?太小
如何設(shè)置學(xué)習(xí)率
什么是Adam?Adam和SGD之間的主要區(qū)別是什么
什么時(shí)候使用Adam和SGD
要保持學(xué)習(xí)率不變還是在訓(xùn)練過程中改變它
如何確定何時(shí)停止訓(xùn)練神經(jīng)網(wǎng)絡(luò)
什么是ModelCheckpoint
講一下你是如何進(jìn)行模型訓(xùn)練的
用于計(jì)算機(jī)視覺的神經(jīng)網(wǎng)絡(luò)
如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行計(jì)算機(jī)視覺
什么是卷積層
為什么需要卷積?不能使用全連接層嗎
CNN中的pooling是什么?為什么需要它
Max pooling如何工作?還有其他池化技術(shù)嗎
CNN是否抗旋轉(zhuǎn)?如果旋轉(zhuǎn)圖像,CNN的預(yù)測會(huì)怎樣
什么是數(shù)據(jù)增強(qiáng)?為什么需要它們?你知道哪種增強(qiáng)
如何選擇要使用的增強(qiáng)
你知道什么樣的CNN分類體系
什么是遷移學(xué)習(xí)?它是如何工作的
什么是目標(biāo)檢測?你知道有哪些框架嗎
什么是對(duì)象分割?你知道有哪些框架嗎 >>>點(diǎn)擊咨詢關(guān)于機(jī)器學(xué)習(xí)
文字分類
如何使用機(jī)器學(xué)習(xí)進(jìn)行文本分類
什么是詞袋模型?如何將其用于文本分類
詞袋模型的優(yōu)缺點(diǎn)是什么
什么是N-gram?如何使用它們
使用N-gram時(shí),詞袋模型中N應(yīng)該是多少
什么是TF-IDF?它對(duì)文本分類有什么用
你用過哪種模型對(duì)帶有詞袋特征的文本進(jìn)行分類
使用詞袋進(jìn)行文本分類時(shí),你希望使用梯度提升樹模型還是邏輯回歸
什么是詞嵌入?為什么有用?你知道Word2Vec嗎
你還知道其他詞嵌入的方法嗎
如果你的句子包含多個(gè)單詞,則可能需要將多個(gè)單詞嵌入組合為一個(gè)。你會(huì)怎么做
在進(jìn)行帶有嵌入的文本分類時(shí),使用梯度提升樹模型還是邏輯回歸
如何使用神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類
如何使用CNN進(jìn)行文本分類
聚類
什么是無監(jiān)督學(xué)習(xí)
什么是聚類?什么時(shí)候需要它
K-means是如何工作的嗎
如何為K均值選擇K
你還知道其他哪些聚類算法
你知道DBScan如何工作嗎
何時(shí)選擇K-means,何時(shí)選擇DBScan
降維
維度災(zāi)難是什么?為什么要關(guān)心它
你知道降維技巧嗎
什么是奇異值分解?它通常如何用于機(jī)器學(xué)習(xí)
排序和搜索
什么是排序問題?可以使用哪些模型來解決它們
文本信息檢索任務(wù)重,什么是好的無監(jiān)督baselines
如何評(píng)估排序算法?使用哪些離線指標(biāo)
k的精度和召回率是多少
k的平均精度均值是多少
如何使用機(jī)器學(xué)習(xí)進(jìn)行搜索
如何獲得訓(xùn)練算法的排序數(shù)據(jù)
可以將搜索問題表述為分類問題嗎
如何將點(diǎn)擊數(shù)據(jù)用作訓(xùn)練數(shù)據(jù)以進(jìn)行排序算法
如何使用梯度提升樹進(jìn)行排序
如何在線評(píng)估新的排序算法
推薦系統(tǒng)
什么是推薦系統(tǒng)
建立推薦系統(tǒng)時(shí)有什么好的 baseline
什么是協(xié)同過濾
如何將隱式反饋(點(diǎn)擊等)納入推薦系統(tǒng)
什么是冷啟動(dòng)問題
解決冷啟動(dòng)問題的可能方法
時(shí)間序列
什么是時(shí)間序列
時(shí)間序列與通常的回歸問題有何不同
用于解決時(shí)間序列問題的有哪些模型
如果序列中有趨勢,如何消除它?為什么要這么做
在時(shí)間t處測得只有一個(gè)變量“y”的序列。如何在時(shí)間t + 1預(yù)測“y”?使用哪種方法
有一個(gè)帶有變量“y”和一系列特征的序列。如何預(yù)測t + 1時(shí)的“y”?使用哪種方法
使用樹來解決時(shí)間序列問題有什么問題
以上!希望它對(duì)各位有用,祝面試愉快!
量化金融分析師(簡稱AQF,Analyst of Quantitative Finance)由量化金融標(biāo)準(zhǔn)委員會(huì)(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書。 >>>點(diǎn)擊咨詢AQF證書含金量
.png)
課程適合人群:
金融工程/數(shù)學(xué)專業(yè)背景的同學(xué)/工作人士,希望進(jìn)一步學(xué)習(xí)Python編程以及在量化投資的實(shí)戰(zhàn)應(yīng)用;
非金融工程專業(yè)背景的同學(xué)/工作人士,希望迅速成為寬客;
金融相關(guān)人員,希望學(xué)習(xí)如何系統(tǒng)的做量化策略;
個(gè)人投資者,希望系統(tǒng)學(xué)習(xí)掌握量化投資相關(guān)的實(shí)務(wù)技能,從模型開發(fā),回測,策略改進(jìn),搭建穩(wěn)定的量化交易系統(tǒng)。
(點(diǎn)擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎(chǔ)》
主要涵蓋了量化投資領(lǐng)域的必備知識(shí),包括:基本面分析、技術(shù)分析、數(shù)量分析、固定收益、資產(chǎn)組合管理、權(quán)益、另類投資等內(nèi)容。
2、《Python語言編程基礎(chǔ)》
包含了Python環(huán)境搭建、基礎(chǔ)語法、變量類型、基本函數(shù)、基本語句、第三方庫、金融財(cái)務(wù)實(shí)例等內(nèi)容。旨在為金融財(cái)經(jīng)人提供最需要的編程方法。
3、《基于Python的經(jīng)典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對(duì)交易模型、波動(dòng)擴(kuò)張模型、Alpha模型、機(jī)器學(xué)習(xí)(隨機(jī)森林模型、主成分分析)、深度學(xué)習(xí)(人工神經(jīng)網(wǎng)絡(luò))等內(nèi)容。
4、《量化交易系統(tǒng)設(shè)計(jì)》
旨在學(xué)習(xí)量化交易系統(tǒng)的具體知識(shí),包括過濾器,進(jìn)入信號(hào),退出信號(hào),倉位管理等詳細(xì)內(nèi)容,并指導(dǎo)學(xué)員設(shè)計(jì)涵蓋個(gè)人交易哲學(xué)的量化交易系統(tǒng)。
5、《量化實(shí)盤交易》
旨在為解決實(shí)際量化交易策略搭建過程中的一些問題提供較優(yōu)解決方案。 >>>點(diǎn)擊咨詢AQF相關(guān)問題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國主要金融市場及交易產(chǎn)品的交易機(jī)制;
2、熟知國內(nèi)外期貨交易、股市交易的異同點(diǎn)和內(nèi)在運(yùn)行機(jī)制;
3、掌握經(jīng)典量化交易策略細(xì)節(jié)及其背后的交易哲學(xué);
4、掌握金融、編程和建模知識(shí)基礎(chǔ),擁有量化交易實(shí)盤操作能力;
5、具備獨(dú)立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設(shè)計(jì)的基本框架,以及風(fēng)險(xiǎn)管理和資產(chǎn)組合理論的實(shí)際運(yùn)用;
7、掌握從策略思想——策略編寫——策略實(shí)現(xiàn)餓完整量化投資決策過程;具備量化投資實(shí)戰(zhàn)交易能力。
.png)
更多內(nèi)容推薦閱讀:
2019年量化金融分析師(AQF)全國統(tǒng)一考試報(bào)名簡章
Wind、Excel和Python三大金融技能兼修,下一個(gè)金融分析大神就是你
金程推薦: AQF培訓(xùn) AQF培訓(xùn)機(jī)構(gòu) AQF是什么意思
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號(hào):量化金融分析師
完善下表,48小時(shí)內(nèi)查收aqf備考資料
(如果沒收到資料,可以點(diǎn)我咨詢)
來自公眾號(hào):機(jī)器學(xué)習(xí)算法與Python實(shí)戰(zhàn)(ID:tjxj666)



.png)


