數 理 人 文 11 28 學領域學者竟然也有許多疑問,似乎非常沒道理。 但事實上,底下他們所提的幾個問題,相當大聲的 呼應了50 多年前,杜奇(John Tukey)1962 年發 表在《數理統計年報》(Annals of Mathematical Statistics) 的 文 章〈 數 據 分 析 的 未 來 〉(The future of data analysis):
1. 在美國甚至全世界的所有統計系,有多少統計教 授在處理實際的數據時肯扮演「黑手」的角色? 2. 有多少統計學家除了統計期刊之外,也在真正的 科學期刊發表過論文? 3. 有多少統計學家會與自己研究主題的科學家經常 保持聯繫? 4. 有多少統計學家真的解決過統計學以外任何一個 實際的科學問題? 對於這些提問,這群數理統計學家所提供的訊息 和答案相當令人憂慮。他們不但自許為數理統計學 界的明日之星,還認為自己對這些數據分析的污名 問題自動免疫。如果有人這樣問:數理統計學家是 否理所當然有資格做「數據分析」?面對這種權利 問題,他們的反應直白得令人意外:「當然有」。 這很容易讓我們想起杜奇。他原本認為自己是統計 學家,但在看到許多數理統計學家的以及他們對科 學的態度以後,他改變了心意,而且在1962 年的 那篇文章的第一段,就開宗明義表明自己對數據分 析的興趣。 在這個網際網路與大數據的時代,回頭研究一下 杜奇為何這麼想,會是相當耐人尋味的事,這類反 思也有助於說明數據科學的迅速竄紅。我們先用一 在與幾位年輕數理統計學家的閒聊聚會裡,有人 問了一個似乎很難理解的問題:為什麼數據科學 (Data Science,或譯資料科學)的重要性現在才 冒出來呢?對許多專業統計學家來說,這個問題始 終被忽視,因而從未被好好提問過,但這是個錯 誤,而且有嚴重的後果。 為了回答這個問題,我們要先思考一個「子問 題」:數據科學的專業學科目前設在哪裡?現在數 據科學的大部分課程都設在社會科學院或商學院, 跟統計系幾乎八竿子打不著甚至形同陌路。統計學 這樣一個專門處理與分析數據的學門,怎麼落到如 此處境,許多人都感到不解,不管是圈內人還是圈 外人。從科學史的角度來說,這問題的答案既有趣 又重要,對統計學的整體未來更是如此。 前述子問題的首要答案就是:「錢,一切都是 錢」。當數學、統計、物理、化學以外的所有非 核心科學開始盲目或雄心勃勃的蒐集數據,而變得 越來越量化,這些領域的科學家就有了金錢上的誘 因,讓他們把所有的研究工作及成果,連同學生所 有修課學分都掌握在自己手上。他們無意與統計學 家分享自己的研究,儘管統計學家認為自己才是數 據分析的「合法專家」。顯然在當下此刻,許多科 學家並不認為統計學家是唯一的專家。 下一輪的討論變成了指責,譬如:「這些人不曉 得怎麼正確處理數據」、「缺乏紮實的訓練,甚至 不知道怎麼正確使用統計方法」、「他們只是試遍 所有的套裝軟體,只求做出自己想要的結果」、「他 們一點也不清楚怎麼進行合宜的統計推論,遑論發 展出自己的方法」。 在這幾位數理統計學家看來,如果這些非核心科