• 沒有找到結果。

邀請作品: 淺談大數據中的統計分析

在文檔中 作品集 (頁 177-181)

香港大學統計及精算學系 楊良河博士

隨著近年科技不斷發展,例如社交網路的出現,與日常生 活有關的資訊日趨電腦化,電郵、網誌、微博等非結構化 的信息量高速增長,大數據(Big Data)的概念應運而生。

難怪財爺於 2014 年初宣讀財政預算案中,亦提及「資訊科 技的迅速發展,將世界帶到指尖。處理和分析資訊的能 力,成為現代大型企業競爭優勢的重要一環。……政府會 研究進一步使用物聯網(Internet of Things)、感應器(sensors) 和大數據分析(big data analytics)技術,更有效地管理我們的 城市。」

其實早在2012 年初,美國政府已宣佈一項“大數據研究與開 發倡議”(Big Data Research and Development Initiative)計 劃。可以說現今社會已邁進大數據時代。在大數據時代 中,掌握大數據就是掌握機遇,關鍵是能否從大數據中挖 掘出潛在的有效訊息。

以下是一個真實個案。事件講述一位父親走進一間美國巨 型連鎖超級市場 Target,嚷著要見經理。他緊握著一封信 件,非常生氣地說道:「我的女兒收到了這推廣郵件!她還 在唸高中,而你們竟然寄給她嬰兒服裝和嬰兒床的優惠 券!你們是否要鼓勵她懷孕呢?」

超市經理見那位父親來勢洶洶,便立即向他口頭道歉。幾

169

天後,經理再遇到這位父親時,對方一反其氣焰,羞愧地 告訴經理:「我已跟女兒詳談,原來有些家事我還未知道,

那就是她將於幾個月後分娩。我應向你道歉才是。」原來 女兒所收的郵件,是總公司憑大數據分析,預測某客人將會分 娩, 而自動寄出推銷有關產品的郵件!

處理大數據的核心其實是懂得正確運用分析數據的工具。

分析數據的過程離不開兩大步驟:(1) 數據搜集及處理;(2) 數據建模及測試。以Target 為例,超市的統計師先識別孕婦 經常購買的產品,並且收集每一位女客戶的個人資料及購 物數據,跟著建立最有效的模型來進行分析,試圖找出懷 孕者的消費購物規律,例如確立婦女在懷孕初期傾向於購 買鈣,鎂或鋅的補充劑,以及無味的潤膚露。最後模型會 為每位女客戶計算出一個“懷孕預測”的得分及估計她的預產 日期。Target 就根據這些預測,在預測懷孕的某階段(如六個 月後) 發送有關優惠券,鼓勵她們消費。

那麼Target 是如何建立模型來預測懷孕?筆者相信 Target 是 使 用 某 一 種 分 類 方 法(classification method)來預測誰是孕 婦,並同時利用變項選取法(variable selection)找出哪些產品 是最有預測懷孕的能力。常用的分類方法包括 Logistic 回 歸,神經網絡,支持向量機器(SVM)和隨機森林(random forest) 等。Target 實際上用那一種方法來識別懷孕的客戶,

這當然是商業機密。

170

另一項分析大數據的工具是數據視覺化(Data visualization)。

由於數據變量的數目相當龐大,我們常常無法或無暇去理 解枯燥的數據和複雜的分析結果。在這種情況下,數據視 覺化就是傳達信息最快捷便利的方法。

最 簡 單 的 數 據 視 覺 化 即 為 傳 統 的 統 計 圖 表 (statistical chart),比如散點圖(scatter plot)、直方圖(histogram)、圓 形圖(pie chart)、折線圖(line chart)等。這些圖都只能表 述一至兩個變量的數據。當變量數目很多時,我們如何能 用圖去表示它呢? 早在 1973 年,統計學家 Herman Chernoff 就提出了利用類似人的面孔的 Chernoff 臉譜圖(Chernoff face)來呈現多維數據的方法。

我們以泰國考古隊發掘出的史前狗( prehistoric dog)骨頭為 例。為了找出史前狗(prehistoric dog )的類別,研究員就搜集 現存六種的犬科動物標本,然後量度每個標本的多维數據, 例如下顎部位的大小,下顎骨的闊度和高度等。圖一是根 據每個品種下顎數據的平均值所繪制的 Chernoff 臉譜圖 (Chernoff faces), 其中(g) 為史前狗, (a) 到(f) 是已知品種 。

171

圖一. 七種犬科動物標本中下顎數據的 Chernoff 臉譜圖

(a) (b) (c)

(d) (e) (f) (g)

臉上的每個特徵就代表一個下顎變量的平均值。例如眼的 大小代表下顎骨闊度的大小,鼻就代表下顎骨的高度,而 面形就代表第一只臼齒的闊度等。由圖一可見史前狗(g)最 類似(a),即是泰國現今農村可見的村狗。

以上只是簡單介紹一些分析大數據的重要技術,而大數據 產業才剛剛起步,相信未來會有更多創新的大數據分析技 術應運而生,令大數據分析百花齊放。

172

在文檔中 作品集 (頁 177-181)