第二章 文獻回顧
第一節 資料運用與資料科學
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第二章 文獻回顧
本研究將文獻回顧脈絡安排如下:第一節說明資料的定義、運用流程與效益,
了解資料從無到有、從雜亂無章到發揮價值的歷程,衍生出新興領域-資料科學;
第二節則是闡述在資料作為驅動力的時代,政府如何運用資料以改善機關決策模 式或行政流程,呼應現今公共行政趨勢-循證,然而公部門對於資料科學的陌生、
知識與技術的不足,衍生公私協力的資料專案協作模式;第三節針對政府與企業 通常在資料治理過程中碰到的困難進行理解與彙整;第四節則是以協力觀點切入,
說明公私協力相關概念與理論,並論述政府角色從傳統契約委外轉變至公私協力 的過程,並釐清其協力成敗的成敗因素為何;最後第五節彙整前述文獻,筆者針 對資料公益專案的資料治理挑戰、協力過程中影響因素進行綜合分析。
第一節 資料運用與資料科學 壹、資料概念與運用歷程
國際標準化組織(International Organization for Standardization, ISO)認為資料 的特性在於可以重新形式化與再次詮釋,資料指無整理的原始紀錄,分類多以有 無結構來區別-依序是結構性資料(structured data)、半結構性資料(semi-structured data)與非結構性資料(undata)、半結構性資料(semi-structured data):如具有固定欄位、格式與順 序的資料稱為結構化資料;半結構性資料具有固定欄位但並無法保證其資料具有 一致性,多用以便利交換資料;非結構性資料包括文字、影片圖像甚至是聲音檔 案未經整理脈絡化的資料,資料亦可視為具有潛在價值的資訊資產(Khatri &
Brown, 2010)。由於資料處理技術能力提升,資料蒐集設備普及且傳輸更為快速,
大數據隨之形成,尤其是非結構資料增長速度更為驚人(Singh et al, 2014)。
大數據起初因資料量過大難以用現有電腦技術儲存甚至分析,故發展相關資 料技術以便管理,關於大數據定義與特性各有學者論述(Gartner, 2015; Höchtl et al, 2016;林俊宏 譯,2003;蕭乃沂等,2015),描述大數據資料的特性整理如下:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
(1)大量;(2)時效性-資料即時蒐集且隨時間推移而快速累積;(3)多樣性
-資料形式多元分歧;(4)真實性-強調資料品質才能讓資料精確符合真實;(5)
多變性;(6)價值。隨著資通訊技術快速進步,資料儲存成本的降低,累積出大 量且雜亂、形式多元的資料,然而,面對資料量日益龐大,如何處理資料使其發 揮價值亦同重視。
資料挖掘(data mining)亦為重要,如何將資料轉換為有用的資訊並發揮其 效益?以 1996 年 Fayyed 等學者提出的資料庫知識發現階段(Knowledge Discovery in Database, KDD)(參見圖2)最為著名,強調將雜亂資料轉換非顯而 易見、未知的且可能有用的知識的過程,描述資料被整合、處理、建模與分析詮 釋的循環過程(Kum, Stewart, Rose & Duncan, 2015),起初企業用以挖掘商機,
亦運用如社會福利等(Kum, Stewart, Rose & Duncan, 2015),KDD 模型說明如下:
一、選擇(selection):針對特定目標選擇對應的資料。
二、預處理(preprocessing):針對目標資料中錯誤之處進行清理。
三、轉換(transform):資料經過清理後,必須轉為可分析且格式化結構。
四、資料挖掘:應用技術分析資料。
五、詮釋與評估(interpretation/evaluation):對於資料分析後結果進行說明與闡述 其意義,並評估過程有無再修正之處。
圖2:資料庫知識發現階段(KDD)
資料來源:Fayyad et al (1996).
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
當然,資料處理流程各有說法,大致分為資料蒐集/擷取、準備/轉換、分 析與成果運用(視覺化/決策制定)四大步驟(Bizer et al, 2011; Janssen et al, 2017;
SPSS, 2000; IBM, 2016; IBM, 2018),且依據其問題需求進行資料處理。其中跨領 域資料挖掘過程標準(Cross-industry Standard Process for Data Mining, CRISP-DM)
的應用最為廣泛,資料挖掘必須歷經六個階段(參見圖3):界定業務問題(business understanding)、釐清資料(data understanding)、準備資料(data preparation)、建 立模型(modeling)、評估與詮釋(evaluation)、佈署執行(deployment),此為動 態且得以靈活變換的過程(IBM, 2018),而業務問題的釐清與分析目的更時時緊 扣在各階段,針對CRISP-DM 模型進行說明(SPSS, 2000;IBM, 2018):
一、界定業務問題:以組織觀點釐清問題需求,擬定資料分析初步方案,如組織 脈絡、資料挖掘範疇與目的、所需成本、預期效益、評估準則、分析技術等。
二、釐清資料:針對欲解決的問題蒐集相關初步資料,試圖描述資料樣態與探索 其中關連性與因果順序,並確保資料品質得以運用到下階段的資料分析。
三、準備資料:資料並非越多越好,而是要依據資料有用程度作理性取捨,須經 過清理,並整合資料且重新格式化(reformate)。
四、建立模型:資料處理後依據資料格式與樣態選擇適合的分析工具與建模技術,
挑選關鍵要素建立模型,經由反覆測試、修正模型並針對產生模型,評估模 型是否最佳化,當模型不佳時,適時檢視資料處理階段是否有所遺漏或錯誤。
五、評估詮釋:依據模型結果詮釋資料意義或潛在問題,適時檢視建模流程有無 出現錯誤或遺漏,確認未來如何應用結果或列出可能方案以便後續決策。
六、佈署執行:針對分析結果實施行動方案,並定期監測實施結果與後續影響,
並產出專案成果報告。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖3:跨領域資料挖掘標準過程(CRISP-DM)
資料來源:SPSS (2000).
繼 CRISP-DM 模型推出,IBM 在 2016 年提出資料挖礦統一分析解決方法
(Analytics Solutions Unified Method, ASUM-DM),從分析(analyze)、設計(design)、
建立規格(configure & build)、操作優化(operate & optimize)、佈署(deploy)與 專案管理(project management),大致步驟與 CRISP-DM 模型相似,從問題釐清、
界定分析範疇與標的、經由資料處理後建立模型呈現結果,並將成果落實在業務 流程或決策參考,但 ASUM-DM 著重在不斷優化操作的反饋,以專案管理觀點 來看整體流程與資源投入有無須調整、並定期監測與維護。
圖4:資料挖礦統一分析解決方案(ASUM-DM)
資料來源:IBM (2016).
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
處理資料的過程整理如列表 1,描述資料如何從蒐集到詮釋分析並實際應用:
表 1:資料處理流程
學者 模型 流程
Fayyed et al
(1996) KDD 選擇、預處理、轉換、資料挖掘、詮釋與評估
SPSS (2000) CRISP-DM
界定業務問題、釐清資料、準備資料、建立模型、
評估與詮釋、佈署建置
IBM (2016) ASUM-DM
分析、設計、建立規格、操作優化、佈署、專案 管理
Bizer et al
(2011)
擷取(capture)、儲存(storage)、搜尋(searching)、 共 享 (sharing )、 分 析 (analysis) 與 視 覺 化
(visualization)
Janssen et al
(2017)
資 料 蒐 集(collecting) 、 準 備 (preparing) 、 分 析 (analysis)、決策制定(decision-making)
資料來源:本研究自行整理。
組織希冀透過資料探索價值且更為了解現實尋求解答(見圖 5),資料從蒐 集、分析詮釋到應用的過程,以嚴謹態度清理資料與修正模型進行分析,並透過 領域專家詮釋資料,最後實際應用各領域並發揮影響力(Janssen & Kuk, 2016),
可見資料處理具跨學科性;另外,由於資料龐大且日益複雜,分析技術快速更迭,
大數據運用案例層出,故提升資料科學的關注。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖5:資料與現實的關聯概念圖
資料來源:Janssen & Kuk (2016).
貳、資料科學與資料驅動
資料科學為跨領域知識集合體,包括數學、統計、資訊科學等基本學科,美 國國家標準技術研究所(National Institute of Standards and Technology, NIST)將 資料科學譽為繼理論科學、實驗科學與計算科學的第四個科學典範,指從原始無 整理的資料轉化成有脈絡且具行動意義的知識綜合體,亦可視作資料從蒐集、分 析到運用的動態過程(Zugura, DiSalvo & Meng, 2018),所衍伸之職位-資料科 學家(data scientist)美稱 21 世紀最性感的職業(Davenport & Patl, 2012),資料 科學家所需的職能為前段的資料挖掘、資料分析、資料集管理甚至是後段的資料 視覺化(Davenport & Patl, 2012; Kim et al, 2014;Kontokosta, 2017;劉宗熹,2016)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
然而,資料科學往往與大數據、資料驅動決策的概念混淆(Provost & Fawcett, 2013),其概念圖可以參照圖 6。大數據技術必須運用資料工程與資料處理的基 礎學科知識,可謂是資料科學與資料驅動決策的根基,並未涉及到知識交換與決 策層次;然而,資料科學的目的是為了追求更為精準的決策或發現潛藏在資料堆 中的需求,結合跨領域的知識與技術去理解問題脈絡與分析價值;最為上層的資 料驅動決策,強調作為管理者並非僅是仰賴直覺或多年經驗來決定,而是應該以
「有多少證據,說多少話」的謹慎態度來面對問題並提出解決方案,呼應公共行 政追求循證政策(evidence-based policy)的核心理念(Janssen & Kuk, 2016; Höchtl, Parycek & Schöllhammer, 2016)。
圖6:資料科學、大數據與資料趨動決策的概念圖
資料來源:Provost & Fawcett (2013).
綜上,簡述資料定義、運用流程與資料科學,並佐以文獻爬梳資料科學與大 數據、資料驅動決策的關係。接著,下一節聚焦組織如何運用資料科學,尤其是 以資料作為驅動力試圖影響政府治理進行闡述,包括各國資料政策舉措、資料驅 動政府治理的效益討論與強調與公私部門協力的資料公益專案。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
第二節 資料驅動政府治理