• 沒有找到結果。

第一章 緒論

第四節 論文架構

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二節 研究目的

本研究系統藉由彙整區域地方資料,理論假設資料經盤點轉換為可反覆再 用的區域智慧資本,並透過工具分析讓決策者可以洞察區域與產業的競爭者與 效率,以達區域治理創新系統的效用。本論文將聚焦於商業智慧系統的實作,

期望藉由資料視覺化的方式,與提升使用者經驗考量,提供高擴充性的商業智 慧探勘分析的平台,更可滿足使用者一次購足的統計資料查詢環境。

第三節 研究貢獻

目前大多數的商業智慧應用都僅限於企業經營與管理方面,而非提升社會 經濟福祉,分析範疇較為狹義,且商業智慧軟體多數皆需付費使用,更無法自 由擴充功能,在促進社會福利上仍有其礙難之處。本論文以公開資訊與前端技 術框架為基礎,建構出適用性、擴充性以及整合性皆備的商業智慧平台,並以 宜蘭治理創新的個案加以探討與印證,為本研究之主要貢獻價值。

第四節 論文架構

本論文的架構如圖 1.1 所示,第一章說明研究動機,第二章針對資料科學及 區域治理相關文獻進行探討,並對相關之商業智慧工具進行綜合比較,表中之

「RIC-GIS」乃本系統簡稱,意為區域智慧資本(Regional Intellectual Capital,RIC)

與治理創新系統(Governance Innovation System,GIS),將於本章文獻探討說明 其內涵。第三章為本研究實作之系統架構說明,將介紹前端框架技術如 Bootstrap、

D3、AngularJS,以及分析工具如競爭者辨識、投入產出分析之數學模型,並針 對整體系統應用資料與模組架構進行詳細闡述;第四章則應用本系統於宜蘭治理 創新產業之個案探討,將以文創、觀光、環境三個產業面向的資料進行應用分析。

第五章則為本研究之結論以及未來可進一步研究的方向。

• 資料科學(Data Science)文獻

• 區域治理(Reginal Governance)文獻

• 商業智慧(Business Intelligence)工具評估

第三章

• RIC-GIS系統技術說明

• RIC-GIS系統設計

• 研究資料說明

• RIC-GIS系統功能架構

第四章

可以作非常多元的應用,例如大家可以在網路上查詢 YouBike(台北市公共自行 車)於各站借還車數量,增加生活的便利性。透過資料的統計分析,Wal-Mart 依 據顧客購買行為決定啤酒放置的位置,壽險業依據人口與疾病等資料設計保單條 款,大選選票也可以用過去該地區的投票行為去分析如何訂定有效的選舉政策。

資訊技術越來越走向資料導向,如何處理資料並透過資料產生有用的資訊,甚至 是到智慧的產生,這些都是屬於資料科學(Data Science)的範疇。

2.1.1 資料科學的發展

資料科學是從結構化或非結構化的資料格式中,洞察或萃取知識的過程與系 統化方法,這是一門跨領域的科學,包含資料分析(Data Analytics)、資料整合

(Data Integration)至資料呈現(Data Visualization),也牽涉如資料運算處理、

機率模式、電腦程式、資料管理、整合資訊呈現等技術。其中,資料分析包含統 計學(Statistics)、資料探勘(Data Mining)和預測分析(Predictive Analytics),

此範疇與資料庫知識探索(Knowledge Discovery in Databases,KDD)相似。

1962 年美國統計家 John Tukey 於《The Future of Data Analysis》[42]中提到,

統計應該是科學而非數學,資料分析的特性在本質上是一門經驗科學。1977 年 Tukey 提出探索式資料分析(Exploratory Data Analysis,EDA)的基本框架[43],

所強調的是資料分析應如何進行的方式及觀念,著重於以數據來驗證假設與進行

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

測試。1974 年丹麥科學家 Peter Naur 提出以「資料學(Datalogy)」來替代「計算 機科學(Computer Science)」,說明此領域是圍繞著資料和資料處理,而不一定要 涉及電腦。1996 年國際分類社團聯盟(International Federation of Classification Societies, IFCS ) 會 議 中 , 資 料 科 學 一 詞 首 次 出 現 在 會 議 ( Data Science, Classification, and Related Methods)標題裡,正式使用並定義為研究自資料中萃

(提)取知識之科學。

1996 年 Fayyad 等學者提出 KDD 的定義為:從數據集中識別出有效的、新 穎的、潛在有用的,以及最終可理解的模式的非平凡過程[18]。圖 2.1 說明如何 將原始資料轉換為可用的知識,資料探勘為其中一個步驟,應用特定演算法尋找 隱藏在資訊中的訊息,如趨勢、特徵及資料間的相關性,而 KDD 過程的其他步 驟,如數據準備、數據選擇、數據清洗和挖掘結果的適當解釋,是必要不可缺少 的項目,以確保從數據導出的知識是有用的。Fayyad 並指出盲目使用統計方法挖 掘數據是危險的,容易導致無意義和無效模式發現。

圖 2.1 Fayyad(1996)資料庫知識發現流程概述[引用自[18]]

1997 年美國華裔統計學者 C. F. Jeff Wu(吳建福教授),認為統計分析乃是 資料蒐集、分析、模組化等過程,最終達到問題解決與制定決策,因此建議將統 計學改稱資料科學。2001 年 Cleveland 出版《Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics》[10],這是一項擴大統計學

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

的技術領域計畫,推動資料科學為一門獨立學科,包含以下六項領域:跨學門調 查(Multidisciplinary Investigations)、模式與資料分析法(Models and Methods for Data)、資料運算(Computing with Data)、資料教育學(Pedagogy)、評估工具(Tool Evaluation)、資訊科學理論(Theory)。

學術期刊《Data Science Journal》及《The Journal of Data Science》分別於 2002 年與 2003 年發行。2005 年 Thomas 等學者發表《Competing on Analytics》[15],

描述了新的競爭模式廣泛應用分析、數據與基於事實的決策,而非傳統的競爭因 素,企業開始運用統計和數量分析預測建模作為競爭的主要元素。

2010 年 Drew Conway[16]提出資料科學為以下三領域的專業知識技術綜合:

(一)駭客技能(Hacking Skills):如 R 軟體、Python 語言等,或是電腦科學的 知能,也有學者將此領域稱為電腦科學;(二)數學與統計知識(Math & Statistics Knowledge):如數學、應用數學或機率與統計能力,以及面對資料與圖表的結構、

解讀能力;(三)實務知識(Substantive Expertise):如銀行、行銷等產業的實務 能力,有學者將此領域稱為領域知識(Domain Knowledge)或是專業知識(Subject Matter Expertise),如圖 2.2 所示。

圖 2.2 Drew Conway(2010)資料科學文氏圖

際數據資訊)統計,2013 年數位世界資料量已達 4.4ZB(Zetabyte,1ZB=10 的 21 次方),預估 2020 年數據產出量,將超過 2013 年的 10 倍至 44ZB。然而,人類 分析資料的能力已經遠遠落後於取得資料的能力。2012 年 3 月,美國政府發布

《Big Data Research and Development Initiative》[33],提出「透過收集、處理龐大 而複雜的資料資訊,從中獲得知識和洞見,提升能力,加快科學、工程領域的創 其重要。(Hartwig & Dearing, 1979)[22]提出 EDA 的兩大原則是透明的(Openness)

以及懷疑論的(Skepticism)。(Velleman & Hoaglin, 1981)[45]提出 EDA 的四個 基本要素為(一)方法的耐抗性(Resistance Procedures):對數據局部不良的不 敏感性,如中位數的耐抗性勝於平均值;(二)殘差分析(Residual Analysis):觀 察值與預測值之間的「差」;(三)數據轉換或降維(Data Transformation or Re-expression):將觀察值從輸入空間通過線性或非線性變換映射到一個低維空間,

從而獲得關於原數據集的低維表示;(四)資料視覺化(Data Visualization):將統 計結果作視覺化的呈現。

EDA 與驗證性資料分析方法(Confirmatory Data Analysis,CDA)的差別在 於 CDA 由問題出發,收集資料後,先假設模型如常態分配模型或線性迴歸模型,

再去透過統計分析方法作檢定,最後作出結論。相對地,EDA 並不事先假設資料 模型,盡量使用全部的資料,以圖形化的工具輔助分析,著重在資料的結構、異

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

常值(Outlier)和資料所建議的模型,其分析流程如圖 2.3 所示。

圖 2.3 Schutt(2013)探索式資料分析流程[引用自[37]]

2.1.3 資料視覺化(Dataviz)

EDA 的本質可視為交談式的沙盤推演,一個新的發現,形成一個新的假設,

導致進一步的探索,以此模式反覆探索瞭解資料,更進一步挖掘隱藏在大量資料 中的知識。在資料探索的過程中,視覺化藉助於人眼快速的視覺感知和人腦的智 慧認知能力,可以清晰有效地傳達、溝通與輔助資料分析的作用。視覺化技術結 合電腦圖學、影像處理、人機互動等技術,將資料轉為可識別的圖形符號、視訊 或動畫,使用者透過對視覺化的感知,使用視覺化互動工具進行資料分析、取得 知識,並協助作出更好的決策,以及預測長期目標作為其短期行動方案[46]。

資料視覺化不應與藝術混淆,相較於美學設計,圖表的清晰度、實用性與使 用者友善程度都相對重要。(Tufte, 1983)[41]提出「資訊墨水比率」強調有用資 訊最大化,認為圖表應刪除非必要的裝飾、細節,專注於排列呈現數據。(Abela1, 1983)[3]歸納了依據分析需求可採用的統計視覺化方法,如圖 2.4。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.4 Abela(2009)基本的統計圖表視覺化方法和適用規則[引用自[3]]

人們理解視覺化的訊息較原始數據更快速,然而不同的圖表所陳列的視覺特 徵也會影響讀圖者推論量化訊息的表現[11],不同視覺特徵傳達的精準度可排序 如下:位置,如散佈圖(Scatter Chart);長度,如柱狀圖(Bar Chart);角度與傾 斜度,如圓餅圖(Pie Chart);面積與體積,如泡泡圖(Bubble Chart);密度、色 彩飽和度,如熱度分佈圖(Heat Map, Choropleth Map);色調,如新聞圖(News Map)。實際上視覺感知能力仍因人而異。

(Keim, 2008)[24]等學者提出視覺化資料分析的標準流程,如圖 2.5,以輸 入資料為起點,提煉知識為終點,從資料到知識有兩個途徑:互動的視覺化方法 和自動的資料探勘方法。兩個途徑之間以模型建置與模型視覺化交流。使用者可 以對視覺化結果進行互動修正,也可以調整參數以修正模型。

在視覺化分析的流程中,人是核心的要素。機器智能可部分替代所承擔的工 作,而且在很多場合比人的效率高。但另一方面,人是最後的決策者,是知識的

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

加工和使用者,因此視覺化工具的目標是加強人的能力,而非取代人的角色。如 果可以設計一個全自動的方案,不需要人的判斷,那麼視覺化也就失去了意義。

建置視覺化工具加強日常作業的效率,或在制定決策前需要人進行細化、驗證其 正確性,可利用視覺化工具監控和偵錯,此即為資料視覺化的意義。

圖 2.5 Keim(2008)視覺化資料分析流程[引用自[24]]

圖 2.5 Keim(2008)視覺化資料分析流程[引用自[24]]

相關文件