數(shù)據(jù)科學職位的面試過程會有很多輪,其中通常會涉及理論概念,目的是確定應聘者是否了解機器學習的基礎知識。在這篇文章中,我想總結(jié)一下我所有的面試經(jīng)歷(面試or被面試)并提出了160多個數(shù)據(jù)科學理論問題的清單。其中包括以下主題:
線性回歸
模型驗證
分類和邏輯回歸
正則化
決策樹
隨機森林
GBDT
神經(jīng)網(wǎng)絡
文本分類
聚類
排序:搜索和推薦
時間序列
這篇文章中的問題數(shù)量似乎遠遠不夠,請記住,面試流程是根據(jù)公司的需求和你的工作經(jīng)歷而定的。因此,如果你的工作中沒有用過時間序列模型或計算機視覺模型,就不會收到類似的問題。
提示:如果不知道某些面試問題的答案,不要灰心。為了簡化起見,我根據(jù)難度將問題分為三類:
簡單
中等
專家
「開始吧!」
有監(jiān)督的機器學習
什么是有監(jiān)督學習
線性回歸
什么是回歸?哪些模型可用于解決回歸問題
什么是線性回歸?什么時候使用它
什么是正態(tài)分布?為什么要重視它
如何檢查變量是否遵循正態(tài)分布
如何建立價格預測模型?價格是否正態(tài)分布?需要對價格進行預處理嗎
解決線性回歸的模型有哪些
什么是梯度下降?它是如何工作的
什么是正規(guī)方程
什么是SGD-隨機梯度下降?與通常的梯度下降有何不同
有哪些評估回歸模型的指標
什么是MSE和RMSE
驗證方式
什么是過擬合
如何驗證模型
為什么需要將數(shù)據(jù)分為三個部分:訓練,驗證和測試
解釋交叉驗證的工作原理
什么是K折交叉驗證
如何在K折交叉驗證中選擇K?你最喜歡的K是什么
分類
什么是分類?哪些模型可以解決分類問題
什么是邏輯回歸?什么時候需要使用它
Logistic回歸是線性模型嗎?為什么
什么是Sigmoid?它有什么作用
如何評估分類模型
什么是準確性
準確性始終是一個好的指標嗎
什么是混淆表?表中的單元格表示什么
什么是精度,召回率和F1分數(shù)
準確率和召回率的權(quán)衡
什么是ROC曲線?什么時候使用
什么是AUC(AU ROC)?什么時候使用
如何解釋AU ROC分數(shù)
什么是PR曲線
PR曲線下的面積是多少?這個指標有用嗎
在哪種情況下AU PR比AU ROC好
如何處理分類變量
為什么需要one-hot編碼
正則化
如果的數(shù)據(jù)中包含三列:x,y,z,其中z是x、y的和,那么線性回歸模型會怎樣
如果數(shù)據(jù)中的z列是x和y列之和加上一些隨機噪聲,那么的線性回歸模型會怎樣
什么是正則化?為什么需要它
有哪些正則化技術(shù)
什么樣的正則化技術(shù)適用于線性模型
L2正則化在線性模型中是什么樣的
如何選擇正確的正則化參數(shù)
L2正則化對線性模型的權(quán)重有什么影響
L1正則化在線性模型中是什么樣的
L2和L1正則化有什么區(qū)別
可以在線性模型中同時具有L1和L2正則化嗎
如何解釋線性模型中的常數(shù)項
如何解釋線性模型中的權(quán)重
如果一個變量的權(quán)重高于另一個變量的權(quán)重,那么可以說這個變量更重要嗎
什么時候需要對線性模型進行特征歸一化?什么情況下可以不做歸一化
特征選擇
什么是特征選擇?為什么需要它
特征選擇對線性模型重要嗎
有哪些特征選擇技術(shù)
可以使用L1正則化進行特征選擇嗎
可以使用L2正則化進行特征選擇嗎
決策樹
什么是決策樹
如何訓練決策樹
決策樹模型的主要參數(shù)是什么
如何處理決策樹中的分類變量
與更復雜的模型相比,單個決策樹有什么好處
如何知道哪些特征對決策樹模型更重要
隨機森林
什么是隨機森林
為什么需要在隨機森林中進行隨機化
隨機森林模型的主要參數(shù)是什么
如何選擇隨機森林中樹的深度
如何知道隨機森林需要多少棵樹
隨機森林的訓練并行化容易?該怎么做
隨機森林中過多的樹有什么潛在問題
是否可以不找到較佳分割,而是隨機選擇幾個分割,然后從中選擇較佳分割?可行嗎
數(shù)據(jù)中存在相關(guān)特征時會怎樣
梯度提升
什么是梯度增強樹
隨機森林和梯度提升之間有什么區(qū)別
是否可以并行化梯度提升模型的訓練?怎么做
梯度增強樹中的特征重要性-有哪些可能的選擇
梯度提升模型的特征重要性,連續(xù)變量和離散變量之間是否有區(qū)別
梯度提升模型中的主要參數(shù)是什么
如何在XGBoost或LightGBM中調(diào)整參數(shù)
如何在梯度提升模型中選擇樹的數(shù)量
參數(shù)調(diào)整
你大致了解哪些參數(shù)調(diào)整策略
網(wǎng)格搜索參數(shù)調(diào)整策略和隨機搜索有什么區(qū)別?什么時候使用一個或另一個
神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡可以解決哪些問題
通常的全連接前饋神經(jīng)網(wǎng)絡如何工作
為什么需要激活功能
sigmoid 為激活函數(shù)有什么問題
什么是ReLU?它比sigmoid 或tanh好嗎
如何初始化神經(jīng)網(wǎng)絡的權(quán)重
如果將神經(jīng)網(wǎng)絡的所有權(quán)重都設置為0會怎樣
神經(jīng)網(wǎng)絡中有哪些正則化技術(shù)
什么是1.1Dropout?為什么有用?它是如何工作的
神經(jīng)網(wǎng)絡的優(yōu)化
什么是反向傳播?它是如何工作的?為什么需要它
你知道哪些訓練神經(jīng)網(wǎng)絡的優(yōu)化技術(shù)
如何使用SGD(隨機梯度下降)訓練神經(jīng)網(wǎng)絡
學習率是多少
學習率太大時會發(fā)生什么?太小
如何設置學習率
什么是Adam?Adam和SGD之間的主要區(qū)別是什么
什么時候使用Adam和SGD
要保持學習率不變還是在訓練過程中改變它
如何確定何時停止訓練神經(jīng)網(wǎng)絡
什么是ModelCheckpoint
講一下你是如何進行模型訓練的
用于計算機視覺的神經(jīng)網(wǎng)絡
如何使用神經(jīng)網(wǎng)絡進行計算機視覺
什么是卷積層
為什么需要卷積?不能使用全連接層嗎
CNN中的pooling是什么?為什么需要它
Max pooling如何工作?還有其他池化技術(shù)嗎
CNN是否抗旋轉(zhuǎn)?如果旋轉(zhuǎn)圖像,CNN的預測會怎樣
什么是數(shù)據(jù)增強?為什么需要它們?你知道哪種增強
如何選擇要使用的增強
你知道什么樣的CNN分類體系
什么是遷移學習?它是如何工作的
什么是目標檢測?你知道有哪些框架嗎
什么是對象分割?你知道有哪些框架嗎 >>>點擊咨詢關(guān)于機器學習
文字分類
如何使用機器學習進行文本分類
什么是詞袋模型?如何將其用于文本分類
詞袋模型的優(yōu)缺點是什么
什么是N-gram?如何使用它們
使用N-gram時,詞袋模型中N應該是多少
什么是TF-IDF?它對文本分類有什么用
你用過哪種模型對帶有詞袋特征的文本進行分類
使用詞袋進行文本分類時,你希望使用梯度提升樹模型還是邏輯回歸
什么是詞嵌入?為什么有用?你知道Word2Vec嗎
你還知道其他詞嵌入的方法嗎
如果你的句子包含多個單詞,則可能需要將多個單詞嵌入組合為一個。你會怎么做
在進行帶有嵌入的文本分類時,使用梯度提升樹模型還是邏輯回歸
如何使用神經(jīng)網(wǎng)絡進行文本分類
如何使用CNN進行文本分類
聚類
什么是無監(jiān)督學習
什么是聚類?什么時候需要它
K-means是如何工作的嗎
如何為K均值選擇K
你還知道其他哪些聚類算法
你知道DBScan如何工作嗎
何時選擇K-means,何時選擇DBScan
降維
維度災難是什么?為什么要關(guān)心它
你知道降維技巧嗎
什么是奇異值分解?它通常如何用于機器學習
排序和搜索
什么是排序問題?可以使用哪些模型來解決它們
文本信息檢索任務重,什么是好的無監(jiān)督baselines
如何評估排序算法?使用哪些離線指標
k的精度和召回率是多少
k的平均精度均值是多少
如何使用機器學習進行搜索
如何獲得訓練算法的排序數(shù)據(jù)
可以將搜索問題表述為分類問題嗎
如何將點擊數(shù)據(jù)用作訓練數(shù)據(jù)以進行排序算法
如何使用梯度提升樹進行排序
如何在線評估新的排序算法
推薦系統(tǒng)
什么是推薦系統(tǒng)
建立推薦系統(tǒng)時有什么好的 baseline
什么是協(xié)同過濾
如何將隱式反饋(點擊等)納入推薦系統(tǒng)
什么是冷啟動問題
解決冷啟動問題的可能方法
時間序列
什么是時間序列
時間序列與通常的回歸問題有何不同
用于解決時間序列問題的有哪些模型
如果序列中有趨勢,如何消除它?為什么要這么做
在時間t處測得只有一個變量“y”的序列。如何在時間t + 1預測“y”?使用哪種方法
有一個帶有變量“y”和一系列特征的序列。如何預測t + 1時的“y”?使用哪種方法
使用樹來解決時間序列問題有什么問題
以上!希望它對各位有用,祝面試愉快!
量化金融分析師(簡稱AQF,Analyst of Quantitative Finance)由量化金融標準委員會(Standard Committee of Quantitative Finance,SCQF)主考并頒證,是代表量化金融領(lǐng)域的專業(yè)水平證書。 >>>點擊咨詢AQF證書含金量
.png)
課程適合人群:
金融工程/數(shù)學專業(yè)背景的同學/工作人士,希望進一步學習Python編程以及在量化投資的實戰(zhàn)應用;
非金融工程專業(yè)背景的同學/工作人士,希望迅速成為寬客;
金融相關(guān)人員,希望學習如何系統(tǒng)的做量化策略;
個人投資者,希望系統(tǒng)學習掌握量化投資相關(guān)的實務技能,從模型開發(fā),回測,策略改進,搭建穩(wěn)定的量化交易系統(tǒng)。
(點擊上圖了解課程詳情)
量化金融分析師AQF核心課程體系:
1、《量化投資基礎》
主要涵蓋了量化投資領(lǐng)域的必備知識,包括:基本面分析、技術(shù)分析、數(shù)量分析、固定收益、資產(chǎn)組合管理、權(quán)益、另類投資等內(nèi)容。
2、《Python語言編程基礎》
包含了Python環(huán)境搭建、基礎語法、變量類型、基本函數(shù)、基本語句、第三方庫、金融財務實例等內(nèi)容。旨在為金融財經(jīng)人提供最需要的編程方法。
3、《基于Python的經(jīng)典量化投資策略》
包含了最富盛名,最基本的量化交易思想和交易策略。例如:海龜交易模型、Logistics模型、配對交易模型、波動擴張模型、Alpha模型、機器學習(隨機森林模型、主成分分析)、深度學習(人工神經(jīng)網(wǎng)絡)等內(nèi)容。
4、《量化交易系統(tǒng)設計》
旨在學習量化交易系統(tǒng)的具體知識,包括過濾器,進入信號,退出信號,倉位管理等詳細內(nèi)容,并指導學員設計涵蓋個人交易哲學的量化交易系統(tǒng)。
5、《量化實盤交易》
旨在為解決實際量化交易策略搭建過程中的一些問題提供較優(yōu)解決方案。 >>>點擊咨詢AQF相關(guān)問題
掌握Python及量化投資技能,我們能做什么?
1、熟悉中國主要金融市場及交易產(chǎn)品的交易機制;
2、熟知國內(nèi)外期貨交易、股市交易的異同點和內(nèi)在運行機制;
3、掌握經(jīng)典量化交易策略細節(jié)及其背后的交易哲學;
4、掌握金融、編程和建模知識基礎,擁有量化交易實盤操作能力;
5、具備獨立自主地研發(fā)新量化交易策略的能力;
6、掌握量化交易模型設計的基本框架,以及風險管理和資產(chǎn)組合理論的實際運用;
7、掌握從策略思想——策略編寫——策略實現(xiàn)餓完整量化投資決策過程;具備量化投資實戰(zhàn)交易能力。
.png)
更多內(nèi)容推薦閱讀:
2019年量化金融分析師(AQF)全國統(tǒng)一考試報名簡章
Wind、Excel和Python三大金融技能兼修,下一個金融分析大神就是你
金程推薦: AQF培訓 AQF培訓機構(gòu) AQF是什么意思
咨詢電話:400-700-9596
AQF考友群:760229148
金融寬客交流群:801860357
微信公眾號:量化金融分析師
完善下表,48小時內(nèi)查收aqf備考資料
(如果沒收到資料,可以點我咨詢)
來自公眾號:機器學習算法與Python實戰(zhàn)(ID:tjxj666)



.png)


