金程問(wèn)答log likelihood是怎么計(jì)算的呀
第六題的最小值不是0.4嗎,請(qǐng)寫(xiě)一下正確的過(guò)程
extraction和conversion的區(qū)別,filitrartion和selection的區(qū)別?
Q7,題目只用significant variables,那么根據(jù)5%的門(mén)檻來(lái)看,我們具體是用z-statistics還是p-value呢?是否會(huì)出現(xiàn)z符合顯著但是p不顯著的情況?如果二者矛盾的情況我們?cè)趺刺幚恚?
Q4,請(qǐng)問(wèn)一下計(jì)算過(guò)程,為什么是Ln(P/1-P)= -0.7667?原函數(shù)的因變量形式是什么樣的?為什么?
第二大題的三小題沒(méi)聽(tīng)太懂,老師能不能再解釋一下sampling error和model error?什么情況下會(huì)有sampling error?這里為什么說(shuō)sf和model error是相等的?
結(jié)構(gòu)化數(shù)據(jù)wrangling中的兩步,第一步是transformation、第二步是scaling,分別什么意思?分別代表怎么操作?如何理解?
Q2, 請(qǐng)問(wèn)答案中除了Serials Correlation之外的,另兩個(gè)結(jié)論是怎么判斷的?請(qǐng)老師解惑,謝謝!
Q3,A選項(xiàng),independence of errors,這方面怎么理解呢?我選的這個(gè),是因?yàn)椋吹缴Ⅻc(diǎn)圖的離散趨勢(shì)隨著自變量的增大而增大,所以得出errors并不是獨(dú)立的 這個(gè)結(jié)論。請(qǐng)老師指正
Q3,題目中表格內(nèi)的文本數(shù)據(jù),并沒(méi)有/number/正確處理的痕跡,導(dǎo)致關(guān)于loan的判斷其實(shí)是出問(wèn)題的,我做題時(shí)候是根據(jù)這一點(diǎn),第一個(gè)排除了numbers這一項(xiàng),因?yàn)榈玫降慕Y(jié)果并不是accurate的。請(qǐng)老師幫助解答一下,這個(gè)題目到底是什么意思,怎么解答,謝謝!
Q3, 文本數(shù)據(jù)的處理有哪些步驟?預(yù)處理和整理階段有什么不同,分別包括哪幾項(xiàng)?文本清洗屬于哪個(gè)環(huán)節(jié)?以上問(wèn)題麻煩老師幫助梳理解答一下,謝謝
Q2, 原文“Miller says he is concerned that while the analysis may look attractive on paper, it could be 【inaccurate】 in making predictions. Specifically, Miller wants to 【avoid the scenario where the model incorrectly identifies a company as a target】.” 同時(shí)提到了inaccurate和FP(第一類(lèi)錯(cuò)誤),那應(yīng)該選擇F1 Score呀,為什么只需要Precision呢?
Q2,在文本數(shù)據(jù)處理和清洗過(guò)程中,優(yōu)先級(jí)高的應(yīng)該是white space和html tags呀,而numbers和標(biāo)點(diǎn)應(yīng)該是可選的處理方式。這個(gè)題目答案為什么是numbers呢?
數(shù)量的第4題計(jì)算庫(kù)克距離到底是怎么回事,資料答案是自變量個(gè)數(shù)K=6,觀測(cè)值為180;而老師講的是K=2,觀測(cè)值為300(12X15)?需要再補(bǔ)充講解下
老師,請(qǐng)問(wèn)數(shù)量里面,多元回歸的應(yīng)用要考嗎?
程寶問(wèn)答