徐同學(xué)
2023-05-01 18:16老師11題在EDA過程中,在特征選擇時 ,是不是應(yīng)該關(guān)注high chi-square和high mutual information values?
所屬:CFA Level II > Quantitative Methods 視頻位置 相關(guān)試題
來源: 視頻位置 相關(guān)試題
1個回答
愛吃草莓的葡萄助教
2023-05-03 22:24
該回答已被題主采納
同學(xué)你好。十一題考查的是三個方法用于什么地方。題目說的是擔心噪音特征,即擔心無用特征,選用frequency 是可以解決的。
卡方是用于檢驗兩個事件是不是獨立的。具有最高卡方檢驗統(tǒng)計值的token在與特定類別相關(guān)的文本中出現(xiàn)得更頻繁,因此由于具有更高的歧視性潛力,可以選擇用作ML模型訓(xùn)練的特征;
互信息是特征與標簽類相互依賴程度的度量。特征與標簽類的互信息越大,特征與標簽“相關(guān)性越強”,這個特征更有可能屬于此類標簽。
卡方與互信息這兩個無法解決題目提出的擔憂,因此選擇C選項。
同學(xué)如果回答解決了您的疑惑,請給回答給予采納。祝早日持證!
