• 沒有找到結果。

舉辦國際比賽,吸引全球 專家參與解決難題,可能成為

N/A
N/A
Protected

Academic year: 2022

Share "舉辦國際比賽,吸引全球 專家參與解決難題,可能成為"

Copied!
1
0
0

加載中.... (立即查看全文)

全文

(1)

32

 科學人 2011 . 12

網路普及的今天,短時間內獲 得大量資料已非難事,如何利 用這些龐大的資料,也成為重要議 題。應運而生的研究領域「知識發 現與資料探勘」(knowledge discovery and data mining, KDD),目的在於設 計智慧型程式,自動從大量資料中找 出有用的資訊與知識。近年來,資料 探勘技術已廣泛應用在相關產業:例 如推薦系統,能經由蒐集並分析使用 者購買行為的資料,來推薦使用者有 興趣的產品;又如歧異點探測技術,

已被銀行用來偵測信用卡盜刷行為。

對於資料探勘這樣的應用學科而 言,評斷某個技術成敗最直接的方 式,就是測試它能否真的從資料中找 出有用的知識。為了建立公平的評比 機制,並吸引更多人從事相關研究,

美國電腦學會(ACM)的資料探勘小 組(SIGKDD)從1997年開始,規劃 了一年一度的資料探勘大賽—KDD Cup。競賽的主題都是當下非常熱門 的議題,吸引學界與業界數百甚至上 千個團隊參加。KDD Cup 不僅有學術 上的挑戰性,背後更擁有龐大的商業 應用價值。參賽者必須結合理論發展 與程式撰寫,在約四個月的比賽期間 內開發智慧型探勘技術與系統。

KDD Cup 跟很多運動比賽一樣,每 年都由不同單位競逐舉辦權,舉辦單 位可根據自己的需求設計主題並提

供資料。例如2008年由西門子公司 獲得舉辦權,由於西門子設有醫療資 訊研究部門,當年的主題即為醫療資 料探勘,參賽者必須設計出能夠由胸 腔影像資料判別患者是否可能罹患乳 癌的方法。2009年由歐洲最大的電 信公司 Orange主辦,參賽隊伍要找出 忠誠度低或是傾向選擇高價位服務 的顧客。2010年的主軸是教育資料 探勘,參賽者要利用線上學習的資

料,判斷學生是否已經學會某種知 識。2011年則由Yahoo!主辦,要利用 Yahoo Music 的資料進行音樂推薦。台 灣大學資工系團隊在2008 ~ 11年間的 KDD Cup比賽中獲得三次冠軍,已成 為世界知名的資料探勘競賽團隊。

KDD Cup 的初衷在於提供平台,讓 不同的方法與技術一較長短。但是近 年來許多相關企業發現,舉辦這類國 際比賽有助於解決當前面臨的重要問 題,而且遠比投入研究經費給相關學 者來得有效益。舉辦比賽的獎金以及 行政支出雖然不低,但相較於長期聘 僱專業研究人員,仍屬九牛一毛;若 與學界合作,因經費有限,只能讓少 數幾個研究團隊參與,舉辦國際資料

探勘大賽動輒吸引數百甚至數千隊伍 參與,效益之懸殊不言可喻。

於是,在KDD Cup之外,近年來各 式各樣的資料探勘競賽如雨後春筍般 增加。最有名的當屬2006年美國著 名的線上電影出租公司 Netflix舉辦的

「百萬美元電影推薦系統」比賽,目 標是推薦消費者可能喜歡的電影。顯 而易見的,這樣的系統準確度對於 出租公司的市佔率影響很大,這個比 賽歷時三年,吸引了全球上萬支隊伍 報名參加。至今獎金最高的,則是加 州的醫療服務公司 Heritage Provider Network 今年舉辦的比賽,獎金高達 300萬美元。參賽者必須利用病患醫 療相關資料,預測每個病患未來一年 是否會住院以及住院的日數。如果能 夠精確預測,該公司就能夠提早進行 治療以及病房管理等規劃,不僅可以 提升醫療品質,也能節省醫療成本。

資料探勘比賽已經蔚為風潮,越來 越多公司希望藉由這樣的比賽讓全球 專家幫忙解決問題。根據專門協助 公司舉辦資料探勘比賽的團隊Kaggle 表示,目前已有上千家公司向他們表 示希望舉辦比賽,而資料探勘競賽將 會如網球或高爾夫等體育競賽一般蓬 勃,甚至可能出現世界排名以及邀請 賽等賽制。資料探勘領域利用競賽加 速其貢獻的時代,於焉展開。

林守德是台灣大學資訊工程系副教授。

重賞之下必有奇謀

越來越多的資料探勘競賽,邀請全球專家一起解決問題!

撰文/林守德

舉辦國際比賽,吸引全球 專家參與解決難題,可能成為

企業新一代的研發模式。

影像來源:林守德

P032-SA118.indd 32 2011/11/24 上午12:32

參考文獻

相關文件

Glimm 教授自稱大學成績中等, 直到研究所才專攻數學, 但他對研究課題的 專注, 對問題的無懼與知識面的寬廣, 使他 能在多個領域都有深刻且重要的工作。 有多 方面興趣的 Glimm 教授年輕時曾以詩作得

文字:各組利用 PPT 組織資料重 點,呈現其主題人物的背景、事 蹟及正反面觀點等,並嘗試提出 評價。 (封面、綱要、內容、資料

定義問題 統整資訊 概念圖【行動版】.

當在蒐集資料時,研究團隊把自己當成一般用戶,既不屬於任何 特定的團體,也沒有與任何樣本用戶有連接的設定;檢索到的資訊都

由於較大型網路的 規劃必須考慮到資料傳 輸效率的問題,所以在 規劃時必須將網路切割 成多個子網路,稱為網 際網路。橋接器是最早

另外我們還可以觀察到,在 1930 年以後的一段時間,人口

動態時間扭曲:又稱為 DTW(Dynamic Time Wraping, DTW) ,主要是用來比

2 難易度:中間偏難,與去年比較難度略增。計算量大的題目,如選填 C、非選 二,若無採用到好的解題策略,計算量就會偏大。預估各標略降為頂標 65 分、前 標 53 分、均標 39 分、後標 25