• 沒有找到結果。

第二章 文獻檢閱與探討

第三節 巨量資料分析的困難與挑戰

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

規相關的限制,但實際執行上還是以學研機構為主,因此從技術上與策略上還是 未能向國外政府一樣的成熟。也因此我國更應該要重視巨量資料分析的人才培育,

才能夠使巨量資料分析能夠更良善的使用。

第三節 巨量資料分析的困難與挑戰

從上述對於企業與政府在運用巨量資料分析的相關經驗來看,在面對巨量資 料分析時,一定會遇到許多困難與挑戰,在過去建立的機制下,傳統上都認為需 要靠資料量少、準確以及具有因果關係的資訊。但隨著巨量資料時代來臨,現代 的資料數量龐大,且能夠快速的處理,也能夠容忍不精確的情況,但是由於資料 的規模龐大,也因此需要依靠機器來進行運算結果,而非人力去做出最後的決定,

因此巨量資料也帶了一些困難與挑戰(林俊宏(譯),2013)。以下敘述巨量資 料分析時所帶來的困難與挑戰:

壹、 資料分析的品質

一、資料的品質

過去在龐大的資料中,可能會有一些錯誤或是損毀的數據,傳統上多半 都會將這些數據認為應該要處理的問題之一,由於小量的資料也因此更應該 減少資料的錯誤率,以確保資料的品質,但隨著從小量的資料到現今的巨量 資料,可以發現的是資料量越多,就越不可能精確,在面對巨量資料的發展,

林俊宏 譯(2013)提到可能會導致有三種雜亂的問題產生:第一種是當資 料量越多,發生錯誤的可能性也就越高;第二種由於資料量的來源多元,為 了要結合不同來源或是不同類型的各種資料,也會導致資料之間產生不完全 相容的問題,因而增加雜亂度;第三種則是因資料格式的不一致,所以需要 先整理過才能進行使用。

此外,有時候造成資料的品質不精確的問題並非是資料量本身,而是用 來測量、紀錄和分析資訊的工具還不完善而導致的,或是當初在設計蒐集資

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

28

料的問卷時就有一些偏誤導致實際操作上資料蒐集無法完整,而導致資料品 質有所降低,翟本瑞(2005)就提出對於問卷版面設計例如問卷的長度與編 排順序,以及填答的方式都有可能會影響到問卷回答的意願。如果相關的技 能能夠更趨於完美,那麼不精確的問題就會消失。傳統缺乏資訊的年代時,

對於資料的準確度是合理的要求,由於資料蒐集的較少,對於資料的精確定 相對來說就顯得重要,但隨著巨量資料科技成為了日常生活中的一部分,巨 量資料強調資料的完整和雜亂,也因此如果只限制於分析部分的資料或是追 求精準度,可能反而會導致成果不完整或是產生一些錯誤的見解,反而離資 料的真實性更遠了。

二、資料的真實性

數據是可以被造假、捏造出來的,而產生了誤導性的訊息。在社會科學 的研究中,學者試圖將巨量資料的分析聲稱是客觀且是量化的,並且利用新 的分析技術進行客觀且量化的分析,但是這樣的分析還是有可能基於主觀立 場而產生出結果以及選擇,雖然任何資料在分析之前都會進行雜訊和假造資 料的排除,但是這些刻意被捏造或假造出來的誤導性訊息還是有可能的沒辦 法及時被演算法所判斷出來(蕭乃沂等人,2015)。

貳、 隱私權問題

數位資料不斷的成長,使得隱私的問題越來越受到重視,雖然並非所有的巨 量資料都包含到個人資料,但現今的資料可能多數包含著個人資料且許多企業更 希望能夠取得更多的資料或是延長資料的保存期限,雖然有些資料表面上未有個 人資料的呈現,但透過巨量資料處理的過程中,很可能就會追溯到個人的資料(林 俊宏(譯),2013:215)。隱私權的問題成為了在探討巨量資料時會面臨的問 題之一,也增加了對於資訊安全的威脅。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

29

過去,世界各地對於個人資料保護法的基本原則,主要都是將控制權交給個 人,並由個人決定是否要交出自己的個資,以及允許由誰、用怎樣的方式來處理,

但隨著巨量資料時代的來臨,不管是政府或企業都設想了一套不僅僅能夠蒐集取 得個人同意,更能使使用資料的人為他們做的事情負責(林俊宏(譯),2013)。

當電腦的運算技術開始發展時,政策制定者就已經認知到,科技可能會被用 於侵犯隱私上,為了政府因應推動巨量資料分析或是開放資料時,可能造成民眾 對於隱私侵犯的疑慮,行政院從 104 年 3 月起開始建立個人資料去識別化驗證標 準(劉宗熹,2016)。英國政府為了使數據科學家有信心以及透過新的數據與工 具進行創新,且確保這些數據科學都能夠以適當的方式進行,因此英國政府認為 大數據需要有一個新的倫理架構,同意讓大數據研究人員能夠得到「知情同意」, 並且提供使用的研究數據時涉及隱私、保密性和匿名性的保證(Ĕanna Kelly, 2016)。

參、 組織體制與組織文化

政府與企業組織儘管擁有了高品質的資料、能夠有效路處理資料的 IT 基礎 設備,甚至是對於資料科學家人才的擁有都已經具備了,但面對組織的體系和 組織的文化可能會導致巨量資料分析沒辦法完善的在組織中運用。其原因在於 不論分析出來的結果多麼的優異,假設組織的體制無法將結果與正確的決策和 迅速的行動連結在一起,那可能一切都是白費的。而如果當導出的分析結果與 組織本身的經驗或直覺有所不同時,無條件以組織的經驗或直覺為主的組織文 化,可能也會使所有的分析變得沒有意義。哈拉斯娛樂(Harrah’s Enterainment) 的董事長、總裁兼執行長的蓋瑞·羅夫曼(Gary W. Loveman)對於企業在面對資 料分析提到阻饒企業轉變成重視分析的組織原因有以下四點(鍾慧貞、梁世英

(譯),2013:301-302):

一、奉行一直以來都是這樣做的傳統觀點,卻對於執行內容沒有經過嚴格的分 析與檢驗。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

30

二、主管在進行決策的背後(尤其是高階主管),並沒有深入的分析資料或是 事實支持,造成了只靠靈感就能夠受到讚賞的領導者橫行於組織內。

三、內部缺乏對於資料分析實證法的熱情,且也欠缺善於從大量資料中找出價 值和情報的人才,組織內部往往都到了無計可施才進行分析的工作,而有 時從事分析工作的人員還並非具有專業的知識。

四、人的因素凌駕於想法之上,簡單還說由誰提出(人的因素)比不錯的想法

(想法)還來的重要。

肆、 專業巨量資料科學家培育

面對巨量資料的時代,不管是政府部門或是企業在取得巨量資料的管道逐漸 趨於成熟,而在技術方面原本儲存量只能存放少部分的資料,到現在能夠存放大 量資料的資料庫,還有透過技術的發展將大量得非結構化的資料進行整合,都是 為了因應巨量資料時代所帶來的發展。透過巨量資料的發展,組織成為了提供不 同的價值,包含了資料、技術,以及思維(林俊宏(譯),2013)。但是無論儲 存設備或是工具變得有多麼的完善,如果沒有一個有能力會運用這些工具者,在 龐大的資料中取得想要的資料,並且將這些資料用淺顯易懂的方式將成果呈現給 相關的利害關係人,使這些價值與實際業務進行聯繫,那麼這些資料就沒辦法呈 現最大化的價值。也因此,集結了統計學家、軟體工程師、資訊圖表設計師的技 能,且擅長將這些宣揚這些資訊科學,擁有這樣能力的人才,稱之為「資料科學 家」(鍾慧貞、梁世英(譯),2013;謝邦昌、鄭宇庭,2016)。

城田真琴(鍾慧貞、梁世英(譯),2013:285-286)、謝邦昌、鄭宇庭(2016:

158-159)、Editor_Wye(2015)對於資料科學家或是對於巨量資料分析人才所需 具備的知識和技能整合後提出了下列幾項:

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

31

一、電腦科學基礎能力

資訊科學家必須要具備對於程式撰寫和電腦科學有充分的知識背景,例 如對於 Hadoop 的操作能力,需要能夠處理巨量資料技術或是機器學習的能 力。此外,由於數據類型的多樣化帶給了數據分析的新挑戰,包含了結構化 和非結構化等數據類型,因此需要一系列的語意引擎(Semantic Engines)分 析技術工具來分析、擷取數據,而語意引擎為了因應新的挑戰,也需要被設 計成能夠從文檔中智慧的提取資訊。

二、數據品質和數據管理(Data Quality and Master Data Management)

透過數據品質和數據管理對於預先得到一個高品質的分析結果是最佳 的管理實踐,例如運用標準化流程與工具對於數據進行管理。此外數據的品 質也相當重要,因此清理數據是資料科學家不可避免的過程,必須將可能消 失的數值、不一致的數據格式和字串格式進行處理,才能夠保證後續的分析 順利。

三、數學、統計、資料探勘等能力

資料科學家應該需要具備對統計的基本知識,包含了瞭解概率、分布、

假設驗證以及多變量分析等實用的知識,且為了瞭解計算機內部如何呈現和 操作數據應該要學習計算機科學技能,而最後則是需要有相關性和因果關係 的知識,這項知識是對於數據在建模作業時主要的核心(Dhar, V.,2013)。除 了需要具備數學與統計的基本素養外,資料科學家應該要有能力操作統計軟 體如 SPSS 或 SAS,其中「R」因擁有開放原始碼統計分析用程式語言和執 行環境,因此相當受到矚目。其原因在於 R 除了擁有豐富的統計分析套件 外,更能夠透過簡單的指令將結果視覺化成高品質的圖表,而資料視覺化也 是巨量資料分析時應該要具備的技能之一。透過機器學習來判斷哪類的演算

假設驗證以及多變量分析等實用的知識,且為了瞭解計算機內部如何呈現和 操作數據應該要學習計算機科學技能,而最後則是需要有相關性和因果關係 的知識,這項知識是對於數據在建模作業時主要的核心(Dhar, V.,2013)。除 了需要具備數學與統計的基本素養外,資料科學家應該要有能力操作統計軟 體如 SPSS 或 SAS,其中「R」因擁有開放原始碼統計分析用程式語言和執 行環境,因此相當受到矚目。其原因在於 R 除了擁有豐富的統計分析套件 外,更能夠透過簡單的指令將結果視覺化成高品質的圖表,而資料視覺化也 是巨量資料分析時應該要具備的技能之一。透過機器學習來判斷哪類的演算