資料運用與資料科學 - 文獻回顧 - 以資料治理與協力觀點探究資料公益專案－以D4SG資料英雄計畫為例

第二章文獻回顧

第一節資料運用與資料科學

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻回顧

本研究將文獻回顧脈絡安排如下：第一節說明資料的定義、運用流程與效益，

了解資料從無到有、從雜亂無章到發揮價值的歷程，衍生出新興領域－資料科學；

第二節則是闡述在資料作為驅動力的時代，政府如何運用資料以改善機關決策模式或行政流程，呼應現今公共行政趨勢－循證，然而公部門對於資料科學的陌生、

知識與技術的不足，衍生公私協力的資料專案協作模式；第三節針對政府與企業通常在資料治理過程中碰到的困難進行理解與彙整；第四節則是以協力觀點切入，

說明公私協力相關概念與理論，並論述政府角色從傳統契約委外轉變至公私協力的過程，並釐清其協力成敗的成敗因素為何；最後第五節彙整前述文獻，筆者針對資料公益專案的資料治理挑戰、協力過程中影響因素進行綜合分析。

第一節資料運用與資料科學 壹、資料概念與運用歷程

國際標準化組織（International Organization for Standardization, ISO)認為資料的特性在於可以重新形式化與再次詮釋，資料指無整理的原始紀錄，分類多以有無結構來區別－依序是結構性資料（structured data）、半結構性資料（semi-structured data）與非結構性資料（undata）、半結構性資料（semi-structured data)：如具有固定欄位、格式與順序的資料稱為結構化資料；半結構性資料具有固定欄位但並無法保證其資料具有一致性，多用以便利交換資料；非結構性資料包括文字、影片圖像甚至是聲音檔案未經整理脈絡化的資料，資料亦可視為具有潛在價值的資訊資產（Khatri &

Brown, 2010）。由於資料處理技術能力提升，資料蒐集設備普及且傳輸更為快速，

大數據隨之形成，尤其是非結構資料增長速度更為驚人（Singh et al, 2014）。

大數據起初因資料量過大難以用現有電腦技術儲存甚至分析，故發展相關資料技術以便管理，關於大數據定義與特性各有學者論述（Gartner, 2015; Höchtl et al, 2016；林俊宏譯，2003；蕭乃沂等，2015），描述大數據資料的特性整理如下：

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

（1）大量；（2）時效性－資料即時蒐集且隨時間推移而快速累積；（3）多樣性

－資料形式多元分歧；（4）真實性－強調資料品質才能讓資料精確符合真實；（5）

多變性；（6）價值。隨著資通訊技術快速進步，資料儲存成本的降低，累積出大量且雜亂、形式多元的資料，然而，面對資料量日益龐大，如何處理資料使其發揮價值亦同重視。

資料挖掘（data mining）亦為重要，如何將資料轉換為有用的資訊並發揮其效益？以 1996 年 Fayyed 等學者提出的資料庫知識發現階段（Knowledge Discovery in Database, KDD）（參見圖2）最為著名，強調將雜亂資料轉換非顯而易見、未知的且可能有用的知識的過程，描述資料被整合、處理、建模與分析詮釋的循環過程（Kum, Stewart, Rose & Duncan, 2015），起初企業用以挖掘商機，

亦運用如社會福利等（Kum, Stewart, Rose & Duncan, 2015），KDD 模型說明如下：

一、選擇（selection）：針對特定目標選擇對應的資料。

二、預處理（preprocessing）：針對目標資料中錯誤之處進行清理。

三、轉換（transform）：資料經過清理後，必須轉為可分析且格式化結構。

四、資料挖掘：應用技術分析資料。

五、詮釋與評估（interpretation/evaluation）：對於資料分析後結果進行說明與闡述其意義，並評估過程有無再修正之處。

圖2：資料庫知識發現階段（KDD）

資料來源：Fayyad et al (1996).

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

當然，資料處理流程各有說法，大致分為資料蒐集／擷取、準備／轉換、分析與成果運用（視覺化／決策制定）四大步驟（Bizer et al, 2011; Janssen et al, 2017;

SPSS, 2000; IBM, 2016; IBM, 2018），且依據其問題需求進行資料處理。其中跨領域資料挖掘過程標準（Cross-industry Standard Process for Data Mining, CRISP-DM）

的應用最為廣泛，資料挖掘必須歷經六個階段（參見圖3）：界定業務問題（business understanding）、釐清資料（data understanding）、準備資料（data preparation）、建立模型（modeling）、評估與詮釋（evaluation）、佈署執行（deployment），此為動態且得以靈活變換的過程（IBM, 2018），而業務問題的釐清與分析目的更時時緊扣在各階段，針對CRISP-DM 模型進行說明（SPSS, 2000；IBM, 2018）：

一、界定業務問題：以組織觀點釐清問題需求，擬定資料分析初步方案，如組織脈絡、資料挖掘範疇與目的、所需成本、預期效益、評估準則、分析技術等。

二、釐清資料：針對欲解決的問題蒐集相關初步資料，試圖描述資料樣態與探索其中關連性與因果順序，並確保資料品質得以運用到下階段的資料分析。

三、準備資料：資料並非越多越好，而是要依據資料有用程度作理性取捨，須經過清理，並整合資料且重新格式化（reformate）。

四、建立模型：資料處理後依據資料格式與樣態選擇適合的分析工具與建模技術，

挑選關鍵要素建立模型，經由反覆測試、修正模型並針對產生模型，評估模型是否最佳化，當模型不佳時，適時檢視資料處理階段是否有所遺漏或錯誤。

五、評估詮釋：依據模型結果詮釋資料意義或潛在問題，適時檢視建模流程有無出現錯誤或遺漏，確認未來如何應用結果或列出可能方案以便後續決策。

六、佈署執行：針對分析結果實施行動方案，並定期監測實施結果與後續影響，

並產出專案成果報告。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖3：跨領域資料挖掘標準過程（CRISP-DM）

資料來源：SPSS (2000).

繼 CRISP-DM 模型推出，IBM 在 2016 年提出資料挖礦統一分析解決方法

（Analytics Solutions Unified Method, ASUM-DM），從分析（analyze）、設計（design)、

建立規格（configure & build)、操作優化（operate & optimize)、佈署（deploy)與專案管理（project management)，大致步驟與 CRISP-DM 模型相似，從問題釐清、

界定分析範疇與標的、經由資料處理後建立模型呈現結果，並將成果落實在業務流程或決策參考，但 ASUM-DM 著重在不斷優化操作的反饋，以專案管理觀點來看整體流程與資源投入有無須調整、並定期監測與維護。

圖4：資料挖礦統一分析解決方案（ASUM-DM）

資料來源：IBM (2016).

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

處理資料的過程整理如列表 1，描述資料如何從蒐集到詮釋分析並實際應用：

表 1：資料處理流程

學者模型流程

Fayyed et al

(1996) KDD 選擇、預處理、轉換、資料挖掘、詮釋與評估

SPSS (2000) CRISP-DM

界定業務問題、釐清資料、準備資料、建立模型、

評估與詮釋、佈署建置

IBM (2016) ASUM-DM

分析、設計、建立規格、操作優化、佈署、專案管理

Bizer et al

（2011）

擷取（capture）、儲存（storage）、搜尋（searching）、共享（sharing ）、分析 (analysis) 與視覺化

（visualization）

Janssen et al

（2017）

資料蒐集(collecting) 、準備 (preparing) 、分析 (analysis)、決策制定(decision-making)

資料來源：本研究自行整理。

組織希冀透過資料探索價值且更為了解現實尋求解答（見圖 5），資料從蒐集、分析詮釋到應用的過程，以嚴謹態度清理資料與修正模型進行分析，並透過領域專家詮釋資料，最後實際應用各領域並發揮影響力（Janssen & Kuk, 2016），

可見資料處理具跨學科性；另外，由於資料龐大且日益複雜，分析技術快速更迭，

大數據運用案例層出，故提升資料科學的關注。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖5：資料與現實的關聯概念圖

資料來源：Janssen & Kuk (2016).

貳、資料科學與資料驅動

資料科學為跨領域知識集合體，包括數學、統計、資訊科學等基本學科，美國國家標準技術研究所（National Institute of Standards and Technology, NIST）將資料科學譽為繼理論科學、實驗科學與計算科學的第四個科學典範，指從原始無整理的資料轉化成有脈絡且具行動意義的知識綜合體，亦可視作資料從蒐集、分析到運用的動態過程（Zugura, DiSalvo & Meng, 2018），所衍伸之職位－資料科學家（data scientist）美稱 21 世紀最性感的職業（Davenport & Patl, 2012），資料科學家所需的職能為前段的資料挖掘、資料分析、資料集管理甚至是後段的資料視覺化（Davenport & Patl, 2012; Kim et al, 2014；Kontokosta, 2017；劉宗熹，2016）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

然而，資料科學往往與大數據、資料驅動決策的概念混淆（Provost & Fawcett, 2013），其概念圖可以參照圖 6。大數據技術必須運用資料工程與資料處理的基礎學科知識，可謂是資料科學與資料驅動決策的根基，並未涉及到知識交換與決策層次；然而，資料科學的目的是為了追求更為精準的決策或發現潛藏在資料堆中的需求，結合跨領域的知識與技術去理解問題脈絡與分析價值；最為上層的資料驅動決策，強調作為管理者並非僅是仰賴直覺或多年經驗來決定，而是應該以

「有多少證據，說多少話」的謹慎態度來面對問題並提出解決方案，呼應公共行政追求循證政策（evidence-based policy）的核心理念（Janssen & Kuk, 2016; Höchtl, Parycek & Schöllhammer, 2016）。

圖6：資料科學、大數據與資料趨動決策的概念圖

資料來源：Provost & Fawcett (2013).

綜上，簡述資料定義、運用流程與資料科學，並佐以文獻爬梳資料科學與大數據、資料驅動決策的關係。接著，下一節聚焦組織如何運用資料科學，尤其是以資料作為驅動力試圖影響政府治理進行闡述，包括各國資料政策舉措、資料驅動政府治理的效益討論與強調與公私部門協力的資料公益專案。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節資料驅動政府治理

在文檔中以資料治理與協力觀點探究資料公益專案－以D4SG資料英雄計畫為例 - 政大學術集成 (頁 17-24)

資料運用與資料科學

第二章 文獻回顧

第一節 資料運用與資料科學

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章 文獻回顧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻回顧

第一節資料運用與資料科學

立政治大學

第二章文獻回顧

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學