• 沒有找到結果。

公務人員善用巨量資料分析所需知識技能之探討 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "公務人員善用巨量資料分析所需知識技能之探討 - 政大學術集成"

Copied!
163
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學公共行政學(系)研究所 碩士學位論文. 公務人員善用巨量資料分析所需知識技能 之探討. 治 政 Knowledge and Skills for Big Data Analytics 大 Apply by Civil 立 ‧. ‧ 國. 學. Servants. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 指導教授:蕭 乃 沂 博士. 研究生:李 海 莉 撰. 中 華 民 國 106 年 7 月.

(2) National Chengchi University Department of Public Administration Master Thesis. 治 政 大 Analytics apply Knowledge and Skills for Big Data 立 ‧. ‧ 國. 學. by Civil Servants. n. er. io. sit. y. Nat. al. Ch. en chi. i n U. v. Advisor: NaiyigHsiao, Ph. D. Graduate Student: Hai-Li, Lee. July, 2017.

(3) 謝誌 研究所的酸甜苦辣我用三年的時間來品嘗,終於…要邁入到人生另一個酸甜 苦辣了。在研究所中遇到了許多人事物也經歷很多屬於我的第一次,感謝讓我加 入 NY Studio 和擔任我的論文指導教授的蕭乃沂老師,身為一個後天努力又稍嫌 不足型的學生,老師總是能夠打開我腦中千千個結,在論文上給我幫助、給我意 見,也讓我思考;在擔任研究助理時包容我,給我學習、讓我嘗試,也讓我知道 我是有能力做好很多事;而在做為學生時,教導我,關心我。也感謝在論文上助 我一臂之力的口試委員傅凱若老師和謝宗震知識長,謝謝老師們在論文上提供許 多建議和給予我很多的幫忙,不管是提供許多實例和介紹受訪者,甚至提醒我一 些可能沒有注意到論文上的小問題,都是給我最大的幫助。而論文的完成如果沒. 治 政 謝廖洲棚老師不管在大學時或是研究所時教導我和幫助我,還有謝謝徐東海老師 大 立 在我剛進政大時帶著我逛校園鼓勵著我。謝謝在研究所中所遇到的每一位,您們 有這些願意接受我訪談的受訪者也無法這麼順利地結束,謝謝您們。此外,也謝. ‧ 國. 學. 都是我生命中的導師。. 我也很幸運在研究所中遇到了許多朋友和夥伴,感謝在研究案的學長姐,宜. ‧. 樺學姐、建憶學長、政豪學長和芃葦學姐,謝謝你們包容和幫助不足的我,讓我. y. Nat. 學習到很多事情。感謝 NYStudio 的夥伴們文涵和威志,因為有你們可以一起分. sit. 擔,一起加油打氣。感謝三劍客婕妤跟國莼,能夠認識你們真好,約定好下次旅. al. er. io. 行再出發。感謝莊九女孩們韻涵、敬庭、汎琪,因為你們在莊九度過的每一天都. v i n Ch 棟 11 樓出沒的同學們莞婷、品諭、思涵,研究生還是可戀的啦!還有一直在我 engchi U 身邊鼓勵我的朋友:師父、小斑、蔡蔡、佳慈、偲喬,謝謝你們也一起陪著我度 n. 是幸福的日子。感謝維茜、騏瑋、子豪,跟大家一起吃吃喝喝最棒了。感謝在南. 過研究所的生涯。如果要說在研究所我最不後悔的事情,就是能遇到我真心感謝 和陪伴在身邊幫助我的你們,與你們相遇我好幸運。 還有總是默默支持我接收我所有不好情緒的家人,在我每次受挫折難過時鼓 勵我安慰我,感謝我爸媽不管我做什麼都支持著我出錢出力又出心,當我的心靈 支柱跟李老師。感謝我姐姐和翁肥,在我論文上有困難時不管多忙都是衝第一的 幫我解決問題卻又不求回報。感謝我那兩個弟妹,包容有時歇斯底里的姐姐。謝 謝我的家人,我愛你們!最後,我想要偷偷地感謝我自己戰勝了曾經大哭說要休 學的自卑莉,你終於畢業啦! 2017/7/7 李海莉 謹致.

(4) 摘要 隨著巨量資料時代的來臨,不管公部門或私部門都期望透過巨量資料創造出 新的價值,因此巨量資料分析者除了需要具備資料處理和分析能力外,也應該要 擁有業務領域的專業知識,才能夠去理解資料背後的意義。雖然部分文獻在探討 巨量資料分析人才時提出了巨量資料科學家並且提出公部門對於巨量資料分析 人才的需求,但對於政府公務人員在運用巨量資料分析時應該具備怎樣的知識和 技能,卻未進一步探討。因此,本研究以深度訪談法為資料蒐集方式,訪談資料 科學家、巨量資料分析專家學者和有運用過巨量資料分析的政府單位人員,以了 解巨量資料對於政府的價值、所面臨的困難與挑戰,以及在面對巨量資料分析時 所需的知識和技能。. 政 治 大 以及兼具了文本分析來輔助傳統民意調查分析做為施政參考、推動政策,並期望 立. 研究結果發現首先從巨量資料的價值來看,巨量資料擁有大量和即時的特性,. 能進行預測性分析,提升資料分析的效益。然而,政府在面對巨量資料分析時,. ‧ 國. 學. 可能會有法規面、行政面、資料品質面以及人員培訓方面的困難與挑戰。從所需 的知識和技能來看,由於政府在面對巨量資料分析時政府業務單位會組成工作小. ‧. 組,包含政府資訊單位或是政府外部技術支援者和專家學者一同執行分析,因此. y. Nat. 對於政府業務單位所需的知識和技能中,比較著重在知識上的需求,對於技能方. sit. 面則是以一般管理的技能為主,而政府資訊單位比較著重在電腦資訊和資料科學. al. er. io. 的技能。從實務面來看,創新和前瞻性思考、業務背景、溝通能力是業務單位已. v i n Ch 單位已經具備還是有不足的知識和技能;而對巨量資料認知、系統定義的理解、 engchi U 系統化專案管理和資訊視覺化能力則是欠缺的知識和技能。 n. 經具備的知識和技能;資訊素養、問題擬定、系統和平台操作和統計能力是業務. 根據政府運用的情況、困難與挑戰以及所需的知識和技能來看,本研究認為 政府業務單位首先要加強資訊素養才能夠進行問題擬定並且有效的與協辦單位 和政府外部的協助者溝通;再者,部分政府資訊單位人員應拓展成擁有資料科學 家的知識和技能或是修正公務人員考試制度和從外部招募符合資料科學家的素 質的人才;此外,亦可從資料品質上加入第三方驗證機制以降低資料品質精確性 疑慮。對於後續研究建議,本研究建議對於政府運用巨量資料分析的參與人員和 隸屬機關範圍應該更細且增加分類探討,以及透過問卷調查的方式,使政府單位 對於巨量資料知識和技能應然面和實然面能夠進一步進行驗證。 關鍵字:巨量資料、大數據、知識技能、核心能力.

(5) Abstract The importance of Big Data Analytics (BDA) has been emphasized for both private and public sectors. Particularly, public officials need different professional knowledge and skills to analyze the data to create new value. The investigation is conducted by in-depth interviews with data scientists, domain experts, and civil servants who have applied BDA in their professions. The research purposes include (1) understanding the value of BDA for government, (2) collecting and exploring difficulties and challenges of implementing BDA in government, and (3) providing. 政 治 大. knowledge and skills of BDA application for civil servants.. 立. The results indicate that properly adopting BDA can gain insights that lead to. ‧ 國. 學. better decisions and predictions for uncertain events confronting government. While. ‧. applying BDA, government should organize a cross-unit team composed of business. sit. y. Nat. units with domain knowledge as well as IT units with computing and data science skills.. io. er. In addition, there are four aspects of challenges when applying BDA in government, including regulation, administration, data quality and personnel training. This study. al. n. v i n C h officials in business accordingly recommends that public units should enhance their engchi U. computing and data literacy and a part of IT units personnel should be equipped with knowledge and skills of data scientists. The study also suggests relevant future studies that conduct comprehensive questionnaire surveys to identify and design BDA competencies for future civil servants in the age of big data.. Keywords: Big Data, Knowledge and Skills, Core Competencies.

(6) 目次 目次................................................................................................................................ I 表目錄........................................................................................................................... II 圖目錄.......................................................................................................................... III 第一章 緒論............................................................................................................ 1 第一節 研究背景............................................................................................ 1 第二節 研究動機與目的................................................................................ 2 第三節 研究問題............................................................................................ 6 第四節 解釋名詞............................................................................................ 6 第五節 研究範圍與研究流程...................................................................... 10 第二章 文獻檢閱與探討...................................................................................... 13 第一節 巨量資料(Big Data) ................................................................... 14 第二節 組織運用巨量資料分析的經驗...................................................... 20 第三節 巨量資料分析的困難與挑戰.......................................................... 27 第四節 公務人員核心能力.......................................................................... 33 第五節 小結.................................................................................................. 39 第三章 研究設計.................................................................................................. 43 第一節 研究架構.......................................................................................... 43 第二節 研究方法與研究對象...................................................................... 45 第三節 訪談提綱.......................................................................................... 50 第四節 研究倫理與資料分析品質.............................................................. 58 第四章 巨量資料分析實務與運用...................................................................... 61 第一節 巨量資料對政府的價值.................................................................. 61 第二節 目前政府單位所面臨的困難與挑戰.............................................. 71 第三節 巨量資料分析者所需要的知識與技能.......................................... 89 第四節 政府單位人員善用巨量資料分析具備知識與技能的情形........ 120 第五節 小結................................................................................................ 128 第五章 結論........................................................................................................ 133 第一節 政府運用巨量資料分析的情形.................................................... 133 第二節 政府單位人員在巨量資料分析知識和技能應然和實然面........ 137 第三節 實務建議........................................................................................ 141 第四節 研究限制與後續研究建議............................................................ 144 參考文獻.................................................................................................................... 147 附錄一 各類受訪者訪談提綱.................................................................................. 154. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. I. i n U. v.

(7) 表目錄 表 1 公務人員各官等核心能力整理表.................................................................... 36 表 2 巨量資料科學家與公務人員知識和技能之比對............................................ 39 表 3 深度訪談受訪者名單........................................................................................ 50 表 4 訪談提綱之比對................................................................................................ 54 表 5 在分析過程中,參與人員所需不同的知識和技能........................................ 95 表 6 資料科學家與政府運用巨量資料分析所需知識和技能之比對.................. 115. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(8) 圖目錄 圖 1 研究流程............................................................................................................. 12 圖 2 網路輿情分析流程圖........................................................................................ 16 圖 3 研究架構............................................................................................................ 45 圖 4 受訪者訪談順序................................................................................................ 57 圖 5 巨量資料分析程序參與的人員........................................................................ 90 圖 6 研究架構(未包含公務人員核心能力)...................................................... 117 圖 7 政府單位與資料科學家知識和技能比對之研究架構.................................. 119. 治 政 圖 8 修正後的研究架構.......................................................................................... 126 大 立 圖 9 政府單位面對巨量資料分析所需知識和技能重視程度.............................. 131 ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. III. i n U. v.

(9) 第一章. 緒論. 第一節 研究背景 隨著 1990 年代資訊通訊科技(Information and Communication Technologies, ICTs)快速發展,政府透過 ICTs 來強化民眾意見的表達,並提升公民在政治或 公共政策的參與度(吳濟安,2004;陳敦源、李仲彬、黃東益,2007)。資訊開 放和網際網路的發展及普及,巨量資料(Big Data)也隨之出現,公部門和私部. 政 治 大. 門開始思考如何處理巨量資料所帶來的 Volume (數據資料的大量) ,以及 Velocity. 立. (資料分析的時效)和 Variety(資料格式的多樣化)這 3V 特質的巨量資料分析. ‧ 國. 學. 能力,後者又加上了 Variability(資料結構上的變化)和 Value(創造價值),形 成 5V 的巨量資料分析特性(Fan, W., & Bifet, A., 2013;蕭乃沂、陳敦源、廖洲. ‧. 棚,2015)。不管是公部門或是私部門都運用巨量資料分析為企業利益或是公共. y. Nat. sit. 利益帶來新的里程碑,舉例來說臺南市政府與成功大學團隊合作運用政府巨量資. n. al. er. io. 料建立登革熱疫情巨量資料平台,來協助臺南市政府預防登革熱(黃德潔,2017) ,. i n U. v. 而其他國家例如英國政府亦透過巨量資料來提升醫療保健和降低犯罪率發生. Ch. engchi. (John Manzoni,2017)。另外 Google 也透過巨量資料對流感趨勢進行預測,都一再 的證明巨量資料對公部門或是私部門的重要性,尤其是當這些資料是組織內部本 身就具有的時候(林俊宏 譯,2013)。 巨量資料的特性與發展使傳統的紙本文件逐漸由數據檔案取代,不管是將紙 本資料轉換成數據資料,或是將數據資料進一步轉換成對公部門或私部門有用的 價值,擁有對數據資料進行基本的操作能力已經是工作者或是公務人員必須要具 備工作技能之一,尤其是需要將巨量資料分析進一步加值運用。公部門或是私部 門在對於巨量資料分析時,都期望能夠有效回收有用的資料,並將這些資料整理 創造成資訊、知識的價值,以回應快速變化的環境,也因此許多組織都積極地在 1.

(10) 巨量資料分析的過程中,建立資料價值鏈的各種人才,才能夠有效分工發揮所長 (黃建邦,2014)。公部門與私部門在巨量資料分析上多半都會將其注意力放在 有關資料蒐集上,但卻忽略了後端在資料處理上是另一個更重要的面向(曾新穆、 張勵德,2014)。在面對巨量資料解讀與分析上,除了對於資料有很強大的解讀 能力之外,以分析並解讀這些結果產生的原因之外,更需要對於這些問題提出相 對應的方案,也因此對於在解讀與分析上時,通常就需要對於這些領域有相當的 知識背景,才能夠深入的去瞭解這些問題或是呈現的結果產生的原因,簡單來說, 對於巨量資料不僅需要具備很強的分析能力外,也需要很強的領域知識。也因此,. 政 治 大 人員能夠擁有巨量資料專業的知識及技能,並著重在培育人才上。 立. 近年來公部門與私部門開始設立巨量資料的課程或是講座等,期望員工或是公務. ‧ 國. 學. 研究動機. ‧. 壹、. 第二節 研究動機與目的. y. Nat. sit. 公部門和私部門為了能夠有效地將巨量資料能夠進一步的加值運用,透過適. n. al. er. io. 當的技術與演算法將這些具有 Volume(數據資料的大量),以及 Velocity(資料. i n U. v. 分析的時效)和 Variety(資料格式的多樣化)等特質的巨量資料進行解讀、儲. Ch. engchi. 存、分析和管理(蕭乃沂等人,2015:3)。但隨著分析巨量資料的技術不斷的 創新,公部門與私部門也面臨到要如何將這些巨量資料分析的成果發揮出巨大的 價值,吳千卉、吳宗霖(2015:11)提到為了能夠發揮巨量資料的價值,巨量資 料分析者不需要侷限於理工的背景,而是應該要擁有不同專業知識與技能的人才, 才能夠去理解資料背後的意義。這也說明不管是公部門或是私部門對於如何分析 巨量資料、解讀巨量資料分析時所產生的報表,以及運用巨量資料分析的人開始 重視,除了具備數據分析能力外,專業知識背景也是能力之一。 而對於擁有最多巨量資料的政府而言,高雅玲(2013)、蕭乃沂等人(2015) 提到政府未來在面對巨量資料分析的挑戰時,培養具有分析巨量資料人才是政府 2.

(11) 後續應著重的議題,以提高政府對於數據資料的運用能力,才能夠更有效的發揮 巨量資料的應用價值。許多企業與政府為了能夠解決巨量資料的困難與挑戰,以 能夠加值運用巨量資料分析,近幾年來都大力提倡培養巨量資料分析人才,但是 培養一位專業的巨量資料分析人才是需要時間的訓練。就以政府來說,對於巨量 資料分析主要都是依靠具有專業數據分析背景的資訊人員來處理,或是透過與學 術界進行研究計畫的合作,甚至是交由外部技術廠商來處理,但是對這些巨量資 料的背景具有專業知識的人員,卻是實際上在處理這些業務的公務人員,也因此 容易造成資訊人員不懂巨量資料分析的結果情況,而業務單位的公務人員無法解. 政 治 大 才是需要花長時間培育,且對於業務單位或是幕僚單位的公務人員,因為像是資 立 讀報表的內容,而使巨量資料的價值無法發揮最大功效。但對於目前巨量資料人. 料處理或是資料分析等會由政府資訊單位以及政府外部技術支援者會進行協助,. ‧ 國. 學. 因此具備專業的數據程式設計能力,就並非業務單位人員主要具備的核心能力之. ‧. 一。. sit. y. Nat. 謝邦昌、鄭宇庭(2016)也提到對於想要對巨量資料進行簡單或是基礎分析. al. er. io. 的研究者,其實不需要從理論方法開始學習,更重要的是從巨量資料中得到最大. v. n. 價值的資訊。也因此,儘管近年政府開始致力於推動巨量資料分析人才的培育,. Ch. engchi. i n U. 但是還是需要長時間訓練,就以目前在業務或是幕僚單位上的公務人員,巨量資 料分析知識和技能已經是不可或缺的一部分了,透過對於巨量資料分析基本知識 和技能學習,將其納入到公務人員分析巨量資料、解讀巨量資料分析時所產生的 報表,以及運用巨量資料分析後的成果,而使巨量資料分析的價值運用在公務人 員單位的業務上,反而才是對政府來說最不可或缺的重要關注的議題。 從相關文獻的檢閱上,可發現對於有關人力方面的巨量資料分析相關文獻, 已經開始提出了「巨量資料科學家」一詞(鍾慧貞、梁世英(譯),2013;林俊 宏(譯) ,2013;吳千卉、吳宗霖,2015;謝邦昌、鄭宇庭,2016) ,儘管為因應 巨量資料的時代,不管是儲存設備或是工具都隨之提升改善,但是如果未能將這 3.

(12) 些技術或資料善加運用達到更好的價值的人才出現,那麼儘管設備或工具再怎麼 的完備也都沒辦法使巨量資料發揮最大的價值。近年來,美國國立衛生研究院和 美國國家科學基金會了解到未來巨量資料對於政府用來決策公共事務上有重要 的影響,因此美國政府正試圖去開發巨量資料的技術和技巧,以方便於他們在執 行任務,這樣的作法對於決策者來說能夠建立新的運用資訊知識能力(Chen, C. P., & Zhang, C. Y., 2014:317)。但反觀我國政府對於巨量資料的知識和技能的探 討,儘管公部門對於巨量資料分析的人才有相當的理解與敘述(謝邦昌、鄭宇庭, 2016),提出巨量資料分析應該學習的方向,但是很少文獻詳細提到政府單位的. 政 治 大 料分析應該具備怎樣的知識和技能。 立. 公務人員在分析巨量資料、解讀巨量資料分析時所產生的報表,以及運用巨量資. ‧ 國. 學. 此外,雖有相關文獻將巨量資料的分析流程整理出來,提出對於巨量資料分 析應該要經過怎樣的程序才能夠將巨量資料分析的完成度呈現出來,並且提出政. ‧. 府單位的某些特定單位應該要實際參與巨量資料分析的過程(廖洲棚、陳敦源、. sit. y. Nat. 蕭乃沂、廖興中,2014;蕭乃沂等人,2015) (Desouza, 2014) ,但是還是未能將. n. al. er. io. 政府部門中公務人員需要具備巨量資料分析的知識和技能完整呈現出來。. i n U. v. 巨量資料分析對於未來政府在研擬政策或是了解民意的動向是一大助力時,. Ch. engchi. 政府不應該是採取被動的一方,透過技術廠商或是學術單位的協助來瞭解民眾的 意見和看法,因此本研究想要進一步的討論以及瞭解政府單位的公務人員應該要 具備哪些基礎的巨量資料分析的知識和技能,以提供未來政府單位公務人員在面 對巨量資料分析時,能夠分析巨量資料、解讀巨量資料分析時所產生的報表,以 及運用巨量資料分析後的成果。. 貳、. 研究目的. 隨著巨量資料的時代來臨,擁有許多巨量資料的公部門,更應該善用這些巨 量資料來創造出良善的效益,並對於巨量資料分析所產生出來的困難與挑戰進行 4.

(13) 妥善的應對,以助於提升政府的效率,達到良好的治理(廖洲棚等人,2014;施 恬、吳宗禮,2015)。目前國外政府對於巨量資料須具備的知識與技能已經有初 步的建構,而我國對於巨量資料分析的知識和技能多半還都只是簡短的談論,並 未有實際詳細的說明與建構分析,因此本研究有必要針對目前公務人員在巨量資 料分析上的知識和技能之建構加以探討,冀望公務人員在面對分析巨量資料、解 讀巨量資料分析時所產生的報表,以及運用巨量資料分析上能夠更善以利用,以 達到巨量資料的價值。 因此,基於前述的研究動機,本研究希望達到的研究目的是,首先先瞭解巨. 政 治 大 又會碰到哪些困難與挑戰?以為我國政府機關目前運用巨量資料分析的情況作 立 量資料分析在政府機關某些的業務需求可以發揮哪些價值,而在面對巨量資料時. ‧ 國. 學. 出歸納整理。. 再者,為了讓我國公務人員在面對分析巨量資料、解讀巨量資料分析時所產. ‧. 生的報表,以及運用巨量資料分析上能夠更善以利用,本研究除了提出公務人員. y. Nat. sit. 在業務需求上應需要具備哪些巨量資料分析的基本知識和技能外,並將以目前我. n. al. er. io. 國政府機關對於公務人員知識和技能需求中,歸納出政府機關公務人員目前具備. i n U. v. 了哪些的巨量資料分析基本的知識和技能,哪些又是政府單位公務人員所欠缺的?. Ch. engchi. 以利於後續我國政府在對於未來公務人員知識與技能的規畫時,能夠加以參考並 納入到我國公務人員的知識和技能中。. 5.

(14) 第三節 研究問題 根據上述的研究動機和目的,本研究提出了以下研究問題: 一、網路輿情與內部資料等內外部的巨量資料分析對於政府單位的業務需求上 可發揮哪些價值?而對於政府單位來說,在分析巨量資料、解讀巨量資料分 析時所產生的報表,以及運用巨量資料分析上有哪些困難或挑戰? 二、政府單位在面對巨量資料分析上的困難和挑戰時,對於政府單位的公務人員 在業務需求上應需要具備哪些巨量資料分析的基本知識和技能來分析巨量. 政 治 大 來提升政府單位在巨量資料分析上的運用程度? 立. 資料、解讀巨量資料分析時所產生的報表,以及運用巨量資料分析後的成果,. ‧ 國. 學. 三、從目前經驗來看,政府單位的公務人員已經具備那些巨量資料分析的基本知 識和技能?哪些又是政府公務人員所欠缺的呢?. y. sit. n. al. er. io. 巨量資料. ‧. Nat. 第四節 解釋名詞. Ch. engchi. i n U. v. 巨量資料(Big Data),又稱之為大數據或是海量資料,最原始的概念是因 資料量過度的龐大,無法完整地將資料儲存在處理資訊的電腦系統中,因此新的 處理資料技術因應而生,這讓使用者能夠更便利的管理,因此大多數對於巨量資 料的定義指的是「超過透過傳統資料庫工具在軟體或是硬體環境中所能夠獲取、 存儲、管理和分析能力的資料」。簡單來說,巨量資料指的就是依靠現有的傳統 技術是很難加以管理的大量資料,但城田真琴(2013)則認為這是較為狹義對於 巨量資料的定義,廣義的巨量資料係指,在擁有 3V 的特性的資料,以及為了要 儲存、處理與分析這些資料的技術,甚至是包含分析這些資料並且能夠從中萃取 出有用的資訊或是洞見的人才與組織等全盤的概念。文獻上對於巨量資料的特性, 6.

(15) 都有不同的見解,以下為整理出來有關巨量資料的特性(林俊宏 譯,2013:14; 譚磊,2013:1.3-1.5;鍾慧貞、梁世英 譯,2013:50-53;謝邦昌、鄭宇庭,2016: 5-8)(McAfee, A., Brynjolfsson, E., Davenport, T. H., Patil, D. J., & Barton, D.,2012): 一、Volume(數據資料的大量) 當聽到巨量資料時,大多數都會想到的就是大量的數據資料。隨著時代 的改變,人類對於數據的儲存量已有大幅度的成長,以儲存的單位來計算, 儲存的數據量已經超過了 PB(Petabyte,以檔案儲存量的最小單元來計算則 為 1,024TB)。. 政 治 大 資料的產生和更新的頻率也是巨量資料的重要特性之一,數據產生快且 立. 二、Velocity(資料分析的時效). ‧ 國. 學. 變化也快,而形成了即時變動的流動資料。有時候對於資料產生的速度甚至. 是比儲存的容量更重要,對於接近即時的訊息會使組織比競爭對手更加的敏. ‧. 捷。. sit. y. Nat. 三、Variety(資料格式的多樣化). io. er. 對於資料的格式可分成結構化、半結構化與非結構化等資料,除了整齊 的結構化數據資料以外,基本上大多數的資料是存在於網路上包含半結構化. al. n. v i n Ch 和非結構性的資料。隨著時代的變化,企業擷取的資料不再只是侷限於傳統 engchi U. 的資料格式,半結構化和非結構化的資料的量和結構化的資料的量一樣飛快 的增長中。通常結構化和半結構化的資料可以用普通的 XML 來描述,但是 非結構化的資料則需要特別的處理。 四、Veracity(資料的真實性) 傳統上對於資料的來源通常都趨於一致,也因此正確性較高,但由於現 今的資料來源較為複雜,導致正確性和可信度下降。例如網路上的訊息對於 某一件事件的看法無法得到單一的答案,而在這些意見、看法中甚至是含有. 7.

(16) 大量的非真實和惡意的評論,所以如何去分辨哪些為真實且有價值的資訊, 也成為巨量資料分析的一大挑戰。 五、Variability(資料結構上的變化) 資料結構上的變化指的是資料格式的可變性,主要著重於非關聯型態的 資料。網際網路及技術快速發展下,破碎的、不完整的和不可靠的數據越來 越多,數據可靠性的降低,容易導這數據所呈現的數據價值受到影響。 六、Value(創造價值) 在進行巨量資料的探勘以及資料的分析主要的目的在於實現資料的價. 政 治 大 經擁有的資料以及每天都在產生的巨量資料,並且從這之中分析出有價值的 立 值,在巨量資料的時代,資料將是企業與政府的主要核心資產,如何運用已. 資訊,再將這些資訊轉化成對企業和政府有用的知識與規則,成為關鍵重要. ‧ 國. 學. 的競爭力,才能實現資料的價值。. ‧. 巨量資料可以依據資料所產生的來源區分成外部和內部巨量資料,內部資料. sit. y. Nat. 係指透過政府內部設置的系統或設備所產生的數位資料,包含財稅、健康保險、. io. er. 教育、衛生福利等,而外部巨量資料則是非從政府內部設置的系統或設備所產生 的與公共管理相關的數位資料,例如公開的新聞媒體資料、調查資料,以及民眾. al. n. v i n Ch 公開並分享於網際網路的數位資料等(蕭乃沂等人,2015)。而網路輿情分析則 engchi U. 是外部巨量資料分析的一種,以下對於網路輿情分析與內部巨量資料分析進行說 明。. 網路輿情分析 網路輿情(Internet public opinions)分析即為巨量資料分析的一種,隨著網 路的普及與儲存設備的價格大幅降低,民眾對於網路使用度及可近性越來越高, 且對於公共政策的意見也願意分享至社群媒體(如:Facebook、Twitter…等等) 中,網民(netizen)在網路社群中的發言、態度與意見偏好也在特定的頻道中發 8.

(17) 酵與散布,如「婉君(網軍)」的崛起,因此網路社群對於公共政策過程影響越 來越大,網路輿情分析也成為政府在公共管理上不可忽視且必須關注的重點 (Zhang & Zhang, 2013;呂建億,2015)。. 內部巨量資料分析 內部資料係指透過政府內部設置的系統或設備所產生的數位資料,包含財稅、 健康保險、教育、衛生福利等(蕭乃沂等人,2015)。對於企業來說,內部巨量 資料指的就是企業本身的業務上因生產經營產生許多資料,而非從外部第三方或. 政 治 大 量較為龐大,且內容也較為多樣,是組織中巨量資料的主體,且這些內部資料為 立 是網路上等取得,這些資料為企業內部原有的巨量資料。也因內部巨量資料資料. 個環節中,對於組織的價值遠遠大於各種外部的資料。. 學. ‧ 國. 組織內部已原有的,因此與組織的特性比較直接相關,並深入的廣泛到組織的各. ‧. 知識和技能. y. Nat. er. io. sit. 知識是指人經由書本、媒體、學校或是其他資源,所學習到的概念、原則與 資訊;而技能則是運用或是應用這些所學習到的概念、原則與資料,來達到預期. al. n. v i n 的結果。Lyle M. Spencer 與 Signe C hM. Spencer 在對於核心能力建構時則認為知識 engchi U 指個人在專業領域的知能,如處理的程序、擁有專業的技能或是處理人際方面的 方法;而技能則是指執行工作時可以觀察到或是隱藏的能力,如傾聽的能力或是 資料分析的能力。而對於在組織的層面上,知識則是指一個人在特定的領域中的 專業知識,而技能則是在執行有形或無形任務時的能力(陳玉貞,2013)。簡單 來說,知識如同理論,而技能則是將理論成功的實踐,以達成理想的結果,透過 知識與技能進而達成組織的目標或是執行任務,達到預期的結果。. 9.

(18) 資料科學家 資料科學家(Data Scientist)被喻為 21 世紀最性感的工作,可以說是駭客技術 者、分析者、溝通者和值得信賴的顧問等集結於一身的專家,主要是從資料中辨 識資料並且將這些資料與可能不完整的資料進行整合並且清理資料,透過將快速 產生的資料不斷的創新和變化,資料科學家幫助決策者持續的與資料進行連結, 也因此資料科學家除了最基本的編寫程式語言能力外,其中最主要的特徵就是擁 有強烈的好奇心能夠在問題的表面下找到問題的核心,並且將其轉化成一套很明 確且可測試的假設,也就是說資料科學家想要建構出一些有效的解決方案,而非. 政 治 大. 只是提供決策者一些建議(Davenport, T. H., & Patil, D. J., 2012)。為了能夠提出有. 立. 效的解決方案,資料科學家需要擁有業務分析、產業顧問、溝通協調以及資料科. ‧ 國. 學. 學專業的知識和技能,在面對巨量資料時能夠從資料中擷取或分析到具有價值的 資料,並且透過易懂的方式將資料分析結果呈現給不懂資料的人,找出問題解答. ‧. 或是提供新的方向(吳千卉、吳宗霖,2015:11)。. sit. y. Nat. io. n. al. er. 第五節 研究範圍與研究流程. 研究範圍. Ch. engchi. i n U. v. 巨量資料可以依據資料所產生的來源區分成外部和內部巨量資料,內部巨量 資料係指透過政府或組織內部設置的系統或設備所產生的數位資料,而外部巨量 資料則不是從政府或組織內部設置的系統或設備所產生的與公共管理相關的數 位資料(蕭乃沂等人,2015)。而隨著網路的普及與儲存設備的價格大幅降低, 民眾對於網路使用度及可近性越來越高,且越來越多民眾願意將自己的意見與想 法分享至社群媒體(如:Facebook、Twitter…等等)中,也因此網路上的輿論逐 漸受到政府或是企業所重視(Zhang & Zhang, 2013;呂建億,2015),網路輿情 分析(Internet public opinions)即為外部巨量資料分析的一種,公部門或是私部 10.

(19) 門期望能透過網路上的輿論進行蒐集與分析來改善公共政策或是提升企業的利 潤等。不管是公部門或是私部門都期望藉由從內部自身的系統或設備中所產生的 巨量資料或是由網路上蒐集到民意的外部巨量資料進行分析,都能夠為政府或組 織帶來更大的價值。而對於政府來說不管是外部網路民意而產生的網路輿情,亦 或是政府本身內部擁有的龐大資料,如善用這些巨量資料的價值,必能使政府在 施政上或擬訂政策上提升效能、改善其品質。但網路輿情分析與內部巨量資料分 析所需的分析的流程或是取得的來源也會有所差異,因此本研究主要是以網路輿 情及內部巨量資料做為巨量資料分析的範圍。. 政 治 大 將公務人員隸屬單位分成資訊單位與資訊單位以外的一般單位(以下以業務單位 立. 此外,本研究主要的研究對象為現任職的於不同政府單位的公務人員,並且. ‧ 國. 學. 稱之) ,主要原因在於政府在面對巨量資料分析時會先以業務單位做為主辦單位, 而因為業務單位缺乏相關資訊處理方面的能力,因此也會邀請資訊單位來做為協. ‧. 辦單位協助處理,因此面對不同的業務或是在任職的機關所碰到的巨量資料有所. sit. y. Nat. 不同,可能會造成而所需的巨量資料分析基本的知識和技能而會有所差異,透過. io. er. 本研究能夠更深入的去瞭解在單位裡公務人員在分析巨量資料、解讀巨量資料分 析時所產生的報表,以及運用巨量資料分析所需的知識和技能。. n. al. 研究流程. Ch. engchi. i n U. v. 本研究流程如圖 1 所示,在闡述本研究背景與動機後,提出本研究之研究目 的,因本研究目的為公務人員在巨量資料分析上的知識和技能之建構加以探討, 因此,首先應針對巨量資料的相關文獻進行探討,以及對於公務人員目前具有的 核心知識和技能進行整理,並透過與資料科學家所需的知識和技能進行比對,試 圖初步的提出巨量資料分析時需具備的知識和技能與公務人員具備的核心能力 兩者之間的差異。經由文獻檢閱後,提出本研究之研究問題與研究架構。在研究 方法部分,主要透過深度訪談以及次集資料進行資料分析,來瞭解目前我國公務 11.

(20) 人員運用巨量資料的情況,以及公務人員在分析巨量資料、解讀巨量資料分析時 所產生的報表,以及運用巨量資料分析後的成果,應具備哪些知識和技能,最後 提出結論以及建議。 研究背景與動機. 研究目的. 研究問題. 治 政文獻回顧 大. n. y er. ‧ 國. ‧. 困難與挑戰 巨量資料分析. io. 巨量資料分析經驗. Nat. 網路輿情 內部巨量資料. al. 公務人員 知識技能. 學. 巨量資料. sit. 立. Ch. engchi. i n U. 研究方法與研究架構. 深度訪談. 資料分析. 結論與建議 圖 1 研究流程 資料來源:本研究自行繪製。 12. v.

(21) 第二章. 文獻檢閱與探討. 巨量資料分析隨著資通訊科技快速發展,成為企業與政府部門研究的重要議 題之一。透過巨量資料分析加值運用不管是企業或是政府部門都能夠為自身或是 公眾利益創造出價值,為了能夠將原本既有的資料經由分析、計算、解讀等形成 對企業或政府部門有利的價值,許多企業與政府部門多半聚焦在巨量資料分析的 概念介紹以及對於技術上的運作,如演算法,分析平台等(蕭乃沂等人,2015)。 但除了巨量資料分析技術上的研究外,企業與政府也開始發覺除了技術上的發展. 政 治 大. 外,對於如何去解讀、處理巨量資料分析能力或是統計方面上的專業技能的人員 更是另一個需要關注的議題。. 立. ‧ 國. 學. 本研究第一節來介紹網路輿情分析與內部巨量資料分析以及分析的流程,以 瞭解到在運用過程中,可能需要怎麼樣使巨量資料分析的成果呈現。第二節則是. ‧. 瞭解巨量資料分析運用在企業和政府部門的相關經驗,有了對於巨量資料分析的. sit. y. Nat. 基礎瞭解後,對於企業或是政府部門主要都將巨量資料分析運用在哪些領域,以. al. er. io. 瞭解巨量資料分析對於企業與政府部門的價值。有了前兩節對於巨量資料分析的. v. n. 鋪成,第三節中本研究整理運用巨量資料分析後所衍生出來的困難與挑戰,試圖. Ch. engchi. i n U. 去歸納出企業或是政府部門公務人員在面對巨量資料分析可能遇到困難與挑戰, 從這之中瞭解到對於巨量資料分析人才培養的必要性,需要具備哪些基本巨量資 料分析的知識和技能,才能善用的去分析巨量資料、解讀巨量資料分析所產生出 來的報表以及運用巨量資料分析出來的成果。有了對於巨量資料分析時所需要的 知識和技能初步瞭解後,本研究為了能夠與公務人員目前具備的知識和技能與巨 量資料分析所需的知識和技能之差異,在第四節中將探討公務人員目前具備的知 識和技能,並且於第五節小結終將公務人員目前的知識和技能與巨量資料分析所 需要的知識和技能進行初步的比較分析,期望能為後續的研究架構和資料蒐集與 分析帶來初步成果。 13.

(22) 第一節 巨量資料(Big Data) 在面對巨量資料的對政府來說,巨量資料可以依據資料所產生的來源區分成 外部和內部巨量資料,且也會依據資料的擁有者的觀點有所不同,如蕭乃沂等人 (2015)提出政府內部資料係指透過政府內部設置的系統或設備所產生的數位資 料,而外部巨量資料則是非從政府內部設置的系統或設備所產生的與公共管理相 關的數位資料。對於企業來說像是 POS 系統資料或是會員消費紀錄就是一種內 部資料,因只有企業內部獨有,而對於像是需要透過買入的資料例如政府提供的 資料或是透過網際網路得到的資料則是外部資料(鍾慧貞、梁世英(譯),2013;. 政 治 大. 文及元,2014)。而對於企業或是政府單位來說不管是外部網路民意而產生的網. 立. 路輿情,亦或是企業或是政府單位本身內部擁有的龐大資料,如善用這些巨量資. ‧ 國. 學. 料的價值,必能使企業與政府機關在商業上或是政策上等業務上提升效能、改善 其品質。. ‧. 在巨量資料分析過程中,不管公部門或私部門都提出一些看法如 IBM 公司. y. Nat. io. sit. 的政府業務中心對於巨量資料的關鍵步驟主要區分為計劃(Planning)、執行. n. al. er. (Execution)和後執行(Post-implementation)這三個階段,其中又包含 17 個步. i n U. v. 驟(Desouza, 2014)。而我國也提出政府在運用巨量資料分析時,主要有四個步. Ch. engchi. 驟包含問題擬定、前置整備、執行分析作業和研析產出結果(劉宗熹,2016:46),從以上的敘述可以發現巨量資料分析是有階段性的步驟。而網路輿情分析 與內部巨量資料分析所需的分析的流程或是取得的來源也會有所差異,因此本研 究將介紹網路輿情及內部巨量資料以及其運用的流程。. 壹、. 網路輿情分析. 隨著社會快速變遷且民意的多元化,民眾參與對於政府來說是制定政策不可 或缺的重要參考,也因此快速與即時成為民意調查價值與品質的最高原則(沈建 中、顧尚潔,2012)。隨著網路技術的革新與進步,對於民意的表達,民眾並非 14.

(23) 再依循傳統的管道去討論公共事務以及表達意見,網路成為民意發展的最佳場所, 透過網路的即時性和直接溝通的特性,使不少人民認為可以將政治權力交還到人 民的手中,呈現一種直接民主的運作模式(楊意菁,2008)。 從電子化參與的角度來看,民眾從了解政府所公布的資訊中,並參與政府的 運作,透過網路的參與管道不但給予民眾參與並有機會去選擇政府所提供服務的 內容,也進一步的參與到公共政策決策的核心,成為一名名副其實的民主「自(治) 理人」(gotizen)(陳敦源、潘競恆,2011)。 一、網路輿情的特性. 政 治 大 是透過對網路上的資料進行文本分析,這種非結構化的資料無法利用結構化 立 網路輿情(Internet public opinions)分析為巨量資料分析的一種,主要. ‧ 國. 學. 的分析方法進行分析(Ramanathan, S.& Sarulatha, N., 2013),因此需透過非 傳統調查方法進行分析。從網路上所蒐集到的資訊,包含了文字、影片、圖. ‧. 片及其他非結構性的資料(Juan, L., Xueguang, Z., & Bin, C., 2013),其主要. sit. y. Nat. 都是透過議題或是需求進行「關鍵字」的設定來廣泛地蒐集網路上的相關資. io. er. 料,分析方法又稱做為網頁資料探勘(Data mining)並透過關鍵字的設定所. al. v i n Ch Havasi, C., 2013) 。網路輿情的內涵主要可以分成三個部分,分別為網路公民 engchi U n. 蒐集到的資料內容進行數據整理與分析(Cambria, E., Schuller, B., Xia, Y., &. 發言者(netizens) 、受關注的議題(issues)及媒介(Internet media)這三個 主題所形成的關係則所謂的網路輿論(廖洲棚等人,2014;蕭乃沂等人,2015) , 網路公民可能包含其個人的網路帳號、個人屬性及群體屬性,而所關注的議 題可能會因為相關的利害關係人或是其事件等會有所不同,對於要如何蒐集 到到關注的議題及瞭解網路公民發文的管道,則是透過媒介進行,其媒介可 能會有包含新聞區、討論區、社群、部落格或是一些特定的管道等進行搜尋, 也因此從整個網路輿情分析來看,關鍵字的設定是整個網路輿情分析的重要 核心點。 15.

(24) 二、 網路輿情分析的流程. 對於網路輿情分析的前置作業與流程,廖洲棚等人(2013)研究指出, 政府部門在運用巨量資料分析之前,必須先具備四項能力與條件,包含(1) 技術能力、(2)跨業務協調能力、(3)規劃與分析能力與(4)相關法規掌 握能力(思考透過巨量資料分析所蒐集的資料是否有牴觸現行法規的規定) 。 在巨量資料分析的流程中,從上述可知主要先確定其需求及計畫,在透過巨 量資料分析技術進行執行,最後再依照分析的結果來決定後續的行動。廖洲 棚等人(2013)針對網路輿情的流程做了系統性的研究,其分析流程如圖 2:. Events People/ Influencer. 反覆 驗證. Keywords/ issues. Ch. Diffusion Model Others. engchi. Others Social Media. y. 重新 擷取 與 過濾. Prediction Model. n. (領域專家) (媒體公關專家). Personal Analytics. sit. 各式 分析 與 產出. 專家 解讀. al. 初步 產出. (領域專家) 專家篩選與 建議. News. er. ‧ 國. News. io 周知. Groups/Org.. 過濾 處理. Social Media. Nat. 警示. Others. ‧. 決策支 援. Keywords/ Issues. 立. (領域專家) 給定領域, Keywords. 學. 設 定 目 標. 政 治 大. i n U. v. 圖 2 網路輿情分析流程圖 資料來源:廖洲棚等人(2013:94). 其主要分成五個步驟,以下詳細說明(蕭乃沂等人,2015:32-33): (一) 步驟一:為網路輿情需求單位的目標界定階段,須對需求單位的目標 及需求進行瞭解,並對於「議題」有初步的範圍規畫和釐清,因此此 步驟是由領域專家進行領域的給定與界定。 (二) 步驟二:政策議題關鍵詞界定階段,議題關鍵詞可能包含比較專業且 較精確的用詞,例如議題、事件等,而此步驟由領域專家與分析單位 16.

(25) 共同給定關鍵字。 (三) 步驟三:資料撈取階段,到此階段開始進行資料的撈取,技術資訊提 供廠商透過上述步驟所提供的關鍵詞組,利用布林邏輯進行關鍵字的 串聯界定搜尋條件(由上而下),初步在網路上進行蒐集分析(由下而 上),回饋關鍵字的修正意見。 (四) 步驟四:初步分析結果階段,領域專家與技術資訊提供廠商在本階段 共同針對網路輿情分析報告的規格進行討論,並初步確保以上分析結 果的品質與分析報表產出。. 政 治 大 (五) 步驟五、提供正式報表階段,在此之前步驟二至步驟四為網路輿情分 立 析流程的第一個循環,需求單位與技術廠商在此循環中會一同討論在. ‧ 國. 學. 彼此都接受且可負擔的範圍下的需求與報表格式。. ‧. 網路輿情分析透過巨量資料分析的技術快速且大量的蒐集網路上民眾的發. sit. y. Nat. 言、評論,甚至是從言詞中分析出情緒以及立場等資訊,使企業或是政府單位能. al. er. io. 夠將藉此瞭解民眾對於某些事件上的看法,來做為企業與政府關注民意的一種管. v. n. 道。根據上述對於網路輿情分析的導入流程,可以發現網路輿情分析必須要經過. Ch. engchi. i n U. 不斷的測試、分析和討論才能將最終的結果報表呈現出來,此外也會依據議題或 事件所產生的關鍵詞組而有不同的過程及結果。且在網路輿情分析的過程中,專 家學者、業務單位以及技術廠商都扮演著重要的角色,透過這三方不斷的討論從 關鍵字的設定,以及初步分析結果的準確度,到最後分析成果的解讀,這都需要 依靠專家學者、業務單位以及技術廠商彼此的配合協調,才能夠使網路輿情分析 的成果能夠符合業務的需求。從這之中也夠發現,對於網路輿情分析的人才的重 視,不管是具有專業領域的專家學者,或是具有業務背景領域的委託單位,以及 擁有技術能力的廠商,都是要依靠他們的專業的知識和技能才能夠將網路輿情分 析的成果完美發揮出來,也能夠進一步的確立人才培育的重要性。 17.

(26) 貳、. 內部巨量資料. 政府或企業雖然對於從外部搜尋到的巨量資料進行分析相當重視,且樂於將 其資料引進組織內部,但是卻忽略了內部業務已經具有的巨量資料才是最大價值 挖掘的目標。巨量資料的價值來自於資料本身,從巨量資料的來源來看,不管是 企業或是政府在於本身的業務上因政策過程或是生產經營等都會產生許多資料, 而非從外部第三方或是網路上等取得,這些資料為政府或企業內部原有的巨量資 料,相較於外部的巨量資料,內部巨量資料的資料量較為龐大,且內容也較為多 樣,是組織中巨量資料的主體,且也因這些內部資料為組織內部已原有的,因此. 政 治 大. 與組織的特性比較直接相關,並深入的廣泛到組織的各個環節中,對於組織的價. 立. 值遠遠大於各種外部的資料。. ‧ 國. 學. 對於大中型企業來說,在信息化與資料應用過程中,基本上都完成了對於信 息化系統建設與業務資料蒐集自動化等第一階段工作,也因此隨著時間增加各種. ‧. 業務信息系統已經累積了大量的業務資料。但是到了第二階段將這些業務信息系. y. Nat. n. al. er. io. 慢。. sit. 統中的大量的巨量資料挖掘出來並且用來提升企業業務的經營管理,卻是進度緩. Ch. i n U. v. 西元 1996 年對資料探勘(Data Mining)逐漸興起,但是卻缺乏廣泛且每個. engchi. 組織都接受的資料探勘的方法,因此由四位初期資料探勘市場的領導者進行發想, 提出跨行業資料採礦過程標準(cross-industry standard process for data mining,簡 稱 SCRISP-DM),SCRISP-DM 主要是提供組織對於資料採礦的過程,並且再規 劃和執行資料探勘時所需的步驟,其流程模型主要可以分成六個階段如下 (Shearer, C. , 2000:14-18;謝邦昌、鄭宇庭,2016:103-105): 一、定義商業問題(Business Understanding):在資料採礦之前應該要從業務的 角度清楚的瞭解想從資料中得到那些價值,因此需要不斷與組織進行討論和 確認,以對組織的問題和目的有一定的了解,才能夠擬定相對應的方案。定. 18.

(27) 義商業問題主要有幾個關鍵的步驟,包含確定商業目標、評估狀況,、確定 資料探勘的目標,以及制訂專案計劃。 二、資料理解(Data Understanding):在了解到組織的問題與目標,並收集完相 關的資料後,對於資料進行初步的分析以篩選出一些不完整的資訊,以提升 資料準備的效率。資料理解包含四個步驟,包含初始資料的蒐集、資料描述、 資料探勘以及對於資料品質的驗證。 三、資料預準備(Data Preparation):由於資料的來源不同因此可能會有資料格 式不一致的問題產生,所以在模型建立前必須要進行多次的檢查和修正,以. 政 治 大 構資料,將資料整合和將資料格式化等五個步驟。 立. 確保資料的完整性。因此,資料預準備主要包含選擇資料、清理資料並且建. 四、建立模型(Modeling):依據資料的形式來選擇最合適的資料採礦技術,並. ‧ 國. 學. 且透過不同的資料來進行模型的測試,以得到最佳模型,模型的精準度對於. ‧. 決策者所做的的決策有一定的影響力。也因此為了要選擇最合適的建立模型. y. Nat. 技術,有時就必須回到資料預準備的階段,建立模型的步驟包含對於技術工. er. io. sit. 具的選擇、測試設計的產生、模型的創立以及對於模型的評估。 五、評價與解釋(Evaluation):依據上述步驟將不同的資料進行模型的測試,並. al. n. v i n 且整合出測試的結果,來瞭解出是否還有未考量到的商業問題盲點。在此階 Ch engchi U 段結束時,專案負責人應該要確定要如何使用資料探勘的結果,因此對於結. 果的評估、過程的審查以及對於後續步驟地確認則是在此階段的關鍵步驟。 六、實施(Deployment):此階段包含了整體部屬計畫、監督、維護、傳承與最 後報告的結果,透過資料採礦良性的循環,最後將整合後的模型應用在商業 上,以達到資料運用的最大價值。 內部巨量資料分析資料蒐集的方式並不像網路輿情分析一樣是從外部的進 行蒐集的,其資料來源的方式主要是從內部組織具有的龐大的資料進行分析運用 的,但也因為來源是內部的資料,因此就資料的屬性來看比較貼近於組織的業務 19.

(28) 領域範圍。雖然資料本身並無像網路輿情分析的資料需要從外部取得,但是如同 關鍵字的設定以及議題的選定,在進行內部巨量資料分析之前,還是要針對想要 從資料中瞭解到什麼,進而去搜尋資料以及奠定問題。而後續對於資料探勘、模 型建立的部分,更需要倚靠專業的技術以及分析平台,或是經由與外部專業資料 處理廠商合作,將資料進行分析,經過不斷的測試、檢查與修正,才能夠將分析 的成果回答問題,而使資料的運用得到最大的價值。 雖說網路輿情分析與內部巨量資料分析的資料來源取得不同,但是對於在分 析的流程中,都可以發現對於問題或是議題的設定、資料探勘、資料分析,以及. 政 治 大 重要的一部分。此外,對於巨量資料分析的知識和技能在分析的過程中具有一定 立 分析成果的解讀,運用在業務上使其發揮最大的價值,都是在分析的過程中相當. ‧ 國. 學. 的重要性,其原因在於在面對分析的過程中可能需要具備對業務上的背景知識,. 以及分析時對於資料處理的技術能力,以及結果產生後要能夠有專業的知識背景. sit. y. Nat. 析的專業人才培育相對來說是很重要。. ‧. 去分析解讀,才能夠使分析具有意義,達到分析的價值,也因此對於巨量資料分. er. io. 第二節 組織運用巨量資料分析的經驗. al. n. v i n Ch 在巨量資料的趨勢下,企業積極地透過新型智慧運算科技,來提升內部的運 engchi U. 作模式,從中找出更精確的策略方向,以增加企業的競爭力、領先市場(蕭乃沂. 等人,2015)。隨著巨量資料的分析在企業上的運用蓬勃發展,政府機關也逐漸 開始運用巨量資料,以追求良善的治理(good governance)(廖洲棚等人,2013)。 巨量資料分析的運用已經廣泛的運用於各種產業上,包含了醫療、金融、電信、 娛樂等產業,對於政府來說,政府可透過巨量資料分析的最新科技,來提升政府 的績效、效率以及治理能力。. 20.

(29) 壹、. 企業運用巨量資料分析之經驗. 成田真琴於 2013 年出版一本《大數據的獲利模式:圖解‧案例‧策略‧實 戰》書提到將巨量資料在運作上的模式進行了分類與整合,提出了幾項運作上的 模式與案例,包含(鍾慧貞、梁世英(譯),2013:166-170): 一、精準的推薦商品或服務 企業或商家會依據使用者的屬性、行為與消費紀錄等資料,精準的推薦 使用者合適的商品或服務,這項技術多半都被使用於電子商務網站中,以提. 政 治 大. 升企業或商家的利潤,而 Facebook 的「你可能認識的人」也可以說是精準 推薦的一種類型。 二、行為定位廣告. 立. ‧ 國. 學. 透過分析累積在網頁上的瀏覽紀錄或是電子商務網站中的消費紀錄,得. ‧. 出使用者的特性、嗜好,並將使用者依其屬性進行分類,針對各種不同的群. sit. y. Nat. 體使用者,推出不同網路廣告的服務。最常看見的例子就是 Google 或是. io. er. Yahoo!所推出的廣告。 三、運用地點資訊的行銷. al. n. v i n 透過智慧手機或是行動電話中的 GPS 的地點資訊進行行銷,以日本一 Ch engchi U. 家保險公司為例,此公司透過事前徵求使用者的同意,利用使用者手機上的 GPS 來定位,並依據其地點來推薦適合的保險。 四、糾出盜刷. 分析龐大的信用卡使用紀錄,去模擬出每位顧客可能遭受到卡片被盜刷 的模式,建立出警示盜用的模型,以利於在線上監控是否有盜刷的可能性或 是判斷是否允許該筆信用卡交易。. 21.

(30) 五、顧客流失分析 某些具有會員制的方式來提供商品或服務的企業,依據顧客的基本資料 包含退會資料等,來預測可能即將流失的顧客,並且可能在發生之前適時的 利用一些優惠方式留住顧客。 六、預測設備故障 在硬體設備中的感測器,來蒐集相關的錯誤資訊、設備使用紀錄或是消 耗品使用的情況,透過資料探勘來發現即將故障或是出狀況的預兆。 七、驗出異常. 政 治 大. 指透過隨時監控通訊網路的運作,來即時發現一些突發的狀況或是故障 的情形。. 立. 八、改善服務. ‧ 國. 學. 收集使用者使用軟體、商品或服務各項功能之後的實際情況的資料,並. ‧. 進行分析討論,如未使用的網路服務或功能將於下次升級時予以刪除,而相. y. sit. io. er. 九、預測路況. Nat. 較之下,較為頻繁使用的功能將於,下次升級予以強化。. 運用汽車實際行使位置和車速等資訊,來提供道路的狀況等交通資訊,. al. n. v i n 例如日本的豐田、日產和本田等車廠將即時產生的路況訊息回饋給使用者。 Ch engchi U. 十、預測電力需求. 根據電力公司在各家庭中安裝的智慧電表監控用電狀況,找出電力消費 的模式,使電力公司能夠瞭解到各家庭對於電力消費模式,更可以強化個家 庭對於節能減碳的意識。 十一、. 預測感冒流行 製藥公司針對網路社交平台上的推文及發文有關於感冒相關的文章,進. 行自動篩選並透過語言分析,抽選出可能已經感冒的使用者,並將這些資訊 與縣市政府等行政區進行整合,了解其分布情況。. 22.

(31) 儘管國內外有許多企業已經引用巨量資料的分析技術,但是就以台灣企業而 言,主要還是以電子製造和電信業等較為大型的企業為主,其原因在於資金以相 關巨量資料背景的人才不足,才使一些中小企業無法將巨量資料有良好的發揮 (蕭乃沂等人,2015:14-15)。. 貳、. 政府運用巨量資料分析之經驗. 隨著巨量資料的分析在企業上的運用蓬勃發展,政府機關也逐漸開始運用巨 量資料,以追求良善的治理(good governance)(廖洲棚等人,2013)。透過全國. 政 治 大 泛的去使用,不管是從預測、醫療系統的精確性、智能能源的使用以及集中教育 立 性的大數據從知識的發現和對不同的數據採取行動創新了生活,使資源能夠更廣. 等,政府機關與私部門建立夥伴關係,共同訓練以及教育數據科學家,使社會與. ‧ 國. 學. 國家的經濟共同受惠(Executive Office of the President, 2016)。美國聯邦政府在巨. ‧. 量資料分析的運用上,除了用來解決政府的問題,並且增強了課責制和公民的權. y. Nat. 利,因此美國聯邦政府運用巨量資料分析的技術,在犯罪、環境保護、健康、教. n. al. er. io. Bernard Marr, 2015):. sit. 育以及政府監督等領域應用巨量資料分析,分別列舉介紹如下(Josh Helms, 2015;. Ch. engchi. 一、協助詐欺檢驗和金融市場分析. i n U. v. 美國聯邦政府社會安全局(The Social Security Administration, SSA)利用 分析大量的傷殘索賠的非結構化數據,更快速地進行醫療分類和進行一些預 期的診斷,更重要的是能夠更良好的辨識詐欺性索賠的案例。 二、衛生相關研究 美國國立衛生研究院(The National Institutes of Health, NIH)於 2012 年推 動了大數據知識(Big Data to Knowledge)計畫,此計畫是為了能夠促進使 用生物醫學的大數據,並且發展出分析的方法與技術,加強培育相關大數據 分析的學科進行人才培育,以建立卓越的生物醫學大數據運用中心。 23.

(32) 三、政府監督與教育 美國聯邦政府於網站上提供並發布了超過 400 萬政府文件的即時提問, 使民眾能夠發表對這些文件的評論以及對於政策進行投票,透過採取文件分 析處理技術來瞭解民眾的想法並且即時的進行監控。而民眾則是透過這項技 術能夠有效的收到自己所支持的政府的提案最新狀況。 而美國政府的教育部(The US Department of Education)則是透過使用大 數據資料探勘和學習分析的技術,來提高教學以及學習的效率。 四、打擊犯罪. 政 治 大 部門使用大數據分析的很好例子,它凸顯出許多政府機關的互相合作以及將 立 美國國土安全部(The US Department of Homeland Security, DHS)則是公. 數據集成的需求。以波士頓馬拉松爆炸事件為例,透過大數據分析技術,將. ‧ 國. 學. 48 萬多非結構化數據的圖像進行快速分析,來即時進行篩選犯罪嫌疑人。. ‧. 而美國中央情報局(CIA)透過資助大數據分析技術公司來打擊犯罪以及消滅. y. Nat. 恐怖主義(如預測路邊炸彈位置). al. er. io. sit. 五、環保與能源探勘. v. n. 美國國家航空暨太空總署(National Aeronautics and Space Administration). Ch. engchi. i n U. 和美國林務局(the US Forest Service)透過大數據的策略來提高相互使用和整 合的研究工作,使他們能夠更好的去預測天氣、地面狀況以及森林火災發生 的風險。 美國聯邦政府對於大數據運用到政府機關相當重視,從 2012 年 3 月美國總 統歐巴馬政府宣布大數據研究與發展,透過數據快速成長的特性,幫助國家解決 一些緊迫的挑戰。為了加強大數據在聯邦機構的發展,政府透過與其他大數據有 利益相關的私部門企業、學術界、地方政府、非營利組織等,對於新的大數據創 新進行合作。透過對於大數據不斷的研究與發展,並於 2015 年時提出了 7 個大 數據研究與發展的重要性關鍵領域的建立包含了:1.利用新興的大數據基礎、技 24.

(33) 巧與技術創造新一代的功能;2.支持大數據研究與發展的探索以及理解數據的可 信度和在這過程中所產生的知識,已做出更好的決策,並且對於行動充滿信心; 3.建立和加強網路基礎建設,使機構的任務透過大數據分析有所創新;4.透過促 進共享與數據管理政策加強數據的價值;5.瞭解大數據收集與共享時對於隱私、 安全與道德上得使用;6.提高大數據的教育與培訓大數據分析人才以滿足國家對 於數據分析人才勞動力的需求;7.創建並加強國家大數據創新新生態系統的連接 (Executive Office of the President, 2016)。從這之中可以發現,美國聯邦政府對於 大數據分析的運用越來越重視,從增加數據的可信度將其納入到政策中,以及對. 政 治 大. 於隱私與安全的著想,到對於數據分析人才的教育與培訓,都能證明大數據分析 成為政府運用趨勢。. 立. ‧ 國. 學. 從國外政府的例子,可以看到政府對大數據分析的重視程度,而我國為了因 應網路時代的新趨勢,行政院毛前院長治國和張前院長善政都對巨量資料在政府. ‧. 的公務機關上推動資料應用提出了看法,也為了能夠讓政府透過巨量資料促進施. sit. y. Nat. 政品質與效能,行政院於 104 年 7 月通過創意臺灣 ide5 Taiwan 2020 政策白皮. al. er. io. 書,其中的任務就是要推動善用巨量資料分析提升政府施政品質,規劃以資料科. v. n. 學研究方法分析跨域資料,因此成立了行政院大數據技術指導小組透過經濟部、. Ch. engchi. i n U. 科技部和國家發展委員會協助,幫助政府機關辦理巨量資料分析作業,更於行政 院資訊通訊發展指導小組第 37 次會議決議增設了資料應用推動指導小組,為延 續推動公務機關、產學及學研單位發展資料應用相關事宜(劉宗熹,2016)。 目前政府在推動巨量資料分析時,主要是透過政學合作以及機關試辦兩種模 式來進行: 一、政學合作:由行政院指定應用的領域,並由科技部向學界徵集研究計畫,透 過研究計畫的產生,來強化政府施政決策品質,以及培育國內資料科學人才。. 25.

(34) 二、機關試辦:透過行政院指定幾項重要施政的議題,並且選定主、協辦單位成 立跨領域合作小組,透過以試辦的方式讓公務機關實際上進行辦理資料應用 的工作,以培養相關能力。 政府透過學術界對於巨量資料的研究,對於公部門所擁有的資料進行資料分 析,將其產出的結果作為政府有價值的施政參考,並且培養巨量資料分析應用的 的人才,因此政府於 2015 年先以健康照護、毒藥品防制、穩健財政收支、自然 環境保護以及災害預警等五種方面來做為研究議題並提出了「政府巨量資料應用 研究試辦計畫」透過主辦機關補助學研機構來執行(科技部前瞻及應用科技司,. 政 治 大 政部、教育部來協助提供相關資料並整合成資料庫進行毒品防治政策的巨量資料 立 2015)。舉例來說,以機關試辦來說衛生福利部做為主辦機關並邀請法務部、內. ‧ 國. 學. 分析,以釐清毒品使用者輪廓、有效的處遇模式以及毒品的產銷歷程的面向,並 且透過政學合作的方式,由科技部委託國立臺灣大學、中國醫藥大學附設醫院以. ‧. 及高學醫學大學等研究團隊來進行相關的巨量資料分析研究的經驗分享來推動. sit. y. Nat. 巨量資料的分析(李書芬、吳秀英、徐睿、蔡文瑛、姜郁美,2016)。. n. al. er. io. 科技部亦透過「政府巨量資料應用計畫」邀請學研界針對特定議題進行相關. i n U. v. 應用巨量資料分析研究,像是運用教育雲教育大市集的資料進行統計分析並且透. Ch. engchi. 過視覺化的方式,將各縣市學校的教育大市集的資訊使用率和分布呈現出來,此 外透過去識別化將老師使用行為模式與教材資源使用進行分析,來預測老師教材 使用的趨勢,以推薦老師適性化的教材。或是利用社群網路資料來分析擷取與災 情相關的資訊,並且將其整理繪製成地理資訊,呈現社群網路災情綜整平台,並 且未來可結合國家災害防救科技中心的災害防救資料,以提供良好的災前預防和 增進災害應變(科技部,2016)。 相對於美國政府,我國對於在巨量資料分析的運用與推動上,比較偏向於與 學術單位進行合作,雖然近年來我國政府努力的推動政府機關巨量資料分析的運 用,但主要還是先釐清政府機關在運用巨量資料分析時的情境,以了解需求和法 26.

(35) 規相關的限制,但實際執行上還是以學研機構為主,因此從技術上與策略上還是 未能向國外政府一樣的成熟。也因此我國更應該要重視巨量資料分析的人才培育, 才能夠使巨量資料分析能夠更良善的使用。. 第三節 巨量資料分析的困難與挑戰 從上述對於企業與政府在運用巨量資料分析的相關經驗來看,在面對巨量資 料分析時,一定會遇到許多困難與挑戰,在過去建立的機制下,傳統上都認為需 要靠資料量少、準確以及具有因果關係的資訊。但隨著巨量資料時代來臨,現代. 政 治 大 的規模龐大,也因此需要依靠機器來進行運算結果,而非人力去做出最後的決定, 立 的資料數量龐大,且能夠快速的處理,也能夠容忍不精確的情況,但是由於資料. 因此巨量資料也帶了一些困難與挑戰(林俊宏(譯),2013)。以下敘述巨量資. ‧ 國. 學. 料分析時所帶來的困難與挑戰:. ‧. 資料分析的品質. io. sit. y. Nat. 一、資料的品質. er. 壹、. 過去在龐大的資料中,可能會有一些錯誤或是損毀的數據,傳統上多半. al. n. v i n 都會將這些數據認為應該要處理的問題之一,由於小量的資料也因此更應該 Ch engchi U 減少資料的錯誤率,以確保資料的品質,但隨著從小量的資料到現今的巨量. 資料,可以發現的是資料量越多,就越不可能精確,在面對巨量資料的發展, 林俊宏 譯(2013)提到可能會導致有三種雜亂的問題產生:第一種是當資 料量越多,發生錯誤的可能性也就越高;第二種由於資料量的來源多元,為 了要結合不同來源或是不同類型的各種資料,也會導致資料之間產生不完全 相容的問題,因而增加雜亂度;第三種則是因資料格式的不一致,所以需要 先整理過才能進行使用。 此外,有時候造成資料的品質不精確的問題並非是資料量本身,而是用 來測量、紀錄和分析資訊的工具還不完善而導致的,或是當初在設計蒐集資 27.

(36) 料的問卷時就有一些偏誤導致實際操作上資料蒐集無法完整,而導致資料品 質有所降低,翟本瑞(2005)就提出對於問卷版面設計例如問卷的長度與編 排順序,以及填答的方式都有可能會影響到問卷回答的意願。如果相關的技 能能夠更趨於完美,那麼不精確的問題就會消失。傳統缺乏資訊的年代時, 對於資料的準確度是合理的要求,由於資料蒐集的較少,對於資料的精確定 相對來說就顯得重要,但隨著巨量資料科技成為了日常生活中的一部分,巨 量資料強調資料的完整和雜亂,也因此如果只限制於分析部分的資料或是追 求精準度,可能反而會導致成果不完整或是產生一些錯誤的見解,反而離資 料的真實性更遠了。 二、資料的真實性. 立. 政 治 大. 數據是可以被造假、捏造出來的,而產生了誤導性的訊息。在社會科學. ‧ 國. 學. 的研究中,學者試圖將巨量資料的分析聲稱是客觀且是量化的,並且利用新. ‧. 的分析技術進行客觀且量化的分析,但是這樣的分析還是有可能基於主觀立. y. Nat. 場而產生出結果以及選擇,雖然任何資料在分析之前都會進行雜訊和假造資. er. io. sit. 料的排除,但是這些刻意被捏造或假造出來的誤導性訊息還是有可能的沒辦 法及時被演算法所判斷出來(蕭乃沂等人,2015)。. n. al. 貳、. 隱私權問題. Ch. engchi. i n U. v. 數位資料不斷的成長,使得隱私的問題越來越受到重視,雖然並非所有的巨 量資料都包含到個人資料,但現今的資料可能多數包含著個人資料且許多企業更 希望能夠取得更多的資料或是延長資料的保存期限,雖然有些資料表面上未有個 人資料的呈現,但透過巨量資料處理的過程中,很可能就會追溯到個人的資料(林 俊宏(譯),2013:215)。隱私權的問題成為了在探討巨量資料時會面臨的問 題之一,也增加了對於資訊安全的威脅。. 28.

(37) 過去,世界各地對於個人資料保護法的基本原則,主要都是將控制權交給個 人,並由個人決定是否要交出自己的個資,以及允許由誰、用怎樣的方式來處理, 但隨著巨量資料時代的來臨,不管是政府或企業都設想了一套不僅僅能夠蒐集取 得個人同意,更能使使用資料的人為他們做的事情負責(林俊宏(譯),2013)。 當電腦的運算技術開始發展時,政策制定者就已經認知到,科技可能會被用 於侵犯隱私上,為了政府因應推動巨量資料分析或是開放資料時,可能造成民眾 對於隱私侵犯的疑慮,行政院從 104 年 3 月起開始建立個人資料去識別化驗證標 準(劉宗熹,2016)。英國政府為了使數據科學家有信心以及透過新的數據與工. 政 治 大 大數據需要有一個新的倫理架構,同意讓大數據研究人員能夠得到「知情同意」 , 立 具進行創新,且確保這些數據科學都能夠以適當的方式進行,因此英國政府認為. ‧ 國. 參、. 學. 並且提供使用的研究數據時涉及隱私、保密性和匿名性的保證(Ĕanna Kelly, 2016)。. 組織體制與組織文化. ‧. sit. y. Nat. 政府與企業組織儘管擁有了高品質的資料、能夠有效路處理資料的 IT 基礎. io. er. 設備,甚至是對於資料科學家人才的擁有都已經具備了,但面對組織的體系和 組織的文化可能會導致巨量資料分析沒辦法完善的在組織中運用。其原因在於. al. n. v i n Ch 不論分析出來的結果多麼的優異,假設組織的體制無法將結果與正確的決策和 engchi U 迅速的行動連結在一起,那可能一切都是白費的。而如果當導出的分析結果與 組織本身的經驗或直覺有所不同時,無條件以組織的經驗或直覺為主的組織文 化,可能也會使所有的分析變得沒有意義。哈拉斯娛樂(Harrah’s Enterainment) 的董事長、總裁兼執行長的蓋瑞·羅夫曼(Gary W. Loveman)對於企業在面對資 料分析提到阻饒企業轉變成重視分析的組織原因有以下四點(鍾慧貞、梁世英 (譯),2013:301-302): 一、奉行一直以來都是這樣做的傳統觀點,卻對於執行內容沒有經過嚴格的分 析與檢驗。 29.

參考文獻

相關文件

The learning and teaching in the Units of Work provides opportunities for students to work towards the development of the Level I, II and III Reading Skills.. The Units of Work also

Process:  Design  of  the  method  and  sequence  of  actions  in  service  creation and  delivery. Physical  environment: The  appearance  of  buildings, 

3: Calculated ratio of dynamic structure factor S(k, ω) to static structure factor S(k) for "-Ge at T = 1250K for several values of k, plotted as a function of ω, calculated

Infusing higher-order thinking and learning to learn into content instruction: A case study of secondary computing studies in Scotland. Critical thinking: What it is and why

Map Reading & Map Interpretation Skills (e.g. read maps of different scales, interpret aerial photos & satellite images, measure distance & areas on maps)?. IT

“Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced?. insight and

• develop students’ metacognitive skills (e.g. knowledge management skills), which are essential for future studies or work and lifelong learning, by allowing them to take charge

Know how to implement the data structure using computer programs... What are we