第一章 緒論
第四節 解釋名詞
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
6
第三節 研究問題
根據上述的研究動機和目的,本研究提出了以下研究問題:
一、網路輿情與內部資料等內外部的巨量資料分析對於政府單位的業務需求上 可發揮哪些價值?而對於政府單位來說,在分析巨量資料、解讀巨量資料分 析時所產生的報表,以及運用巨量資料分析上有哪些困難或挑戰?
二、政府單位在面對巨量資料分析上的困難和挑戰時,對於政府單位的公務人員 在業務需求上應需要具備哪些巨量資料分析的基本知識和技能來分析巨量 資料、解讀巨量資料分析時所產生的報表,以及運用巨量資料分析後的成果,
來提升政府單位在巨量資料分析上的運用程度?
三、從目前經驗來看,政府單位的公務人員已經具備那些巨量資料分析的基本知 識和技能?哪些又是政府公務人員所欠缺的呢?
第四節 解釋名詞
巨量資料
巨量資料(Big Data),又稱之為大數據或是海量資料,最原始的概念是因 資料量過度的龐大,無法完整地將資料儲存在處理資訊的電腦系統中,因此新的 處理資料技術因應而生,這讓使用者能夠更便利的管理,因此大多數對於巨量資 料的定義指的是「超過透過傳統資料庫工具在軟體或是硬體環境中所能夠獲取、
存儲、管理和分析能力的資料」。簡單來說,巨量資料指的就是依靠現有的傳統 技術是很難加以管理的大量資料,但城田真琴(2013)則認為這是較為狹義對於 巨量資料的定義,廣義的巨量資料係指,在擁有 3V 的特性的資料,以及為了要 儲存、處理與分析這些資料的技術,甚至是包含分析這些資料並且能夠從中萃取 出有用的資訊或是洞見的人才與組織等全盤的概念。文獻上對於巨量資料的特性,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
7
都有不同的見解,以下為整理出來有關巨量資料的特性(林俊宏 譯,2013:14;
譚磊,2013:1.3-1.5;鍾慧貞、梁世英 譯,2013:50-53;謝邦昌、鄭宇庭,2016:
5-8)(McAfee, A., Brynjolfsson, E., Davenport, T. H., Patil, D. J., & Barton, D.,2012):
一、Volume(數據資料的大量)
當聽到巨量資料時,大多數都會想到的就是大量的數據資料。隨著時代 的改變,人類對於數據的儲存量已有大幅度的成長,以儲存的單位來計算,
儲存的數據量已經超過了 PB(Petabyte,以檔案儲存量的最小單元來計算則 為 1,024TB)。
二、Velocity(資料分析的時效)
資料的產生和更新的頻率也是巨量資料的重要特性之一,數據產生快且 變化也快,而形成了即時變動的流動資料。有時候對於資料產生的速度甚至 是比儲存的容量更重要,對於接近即時的訊息會使組織比競爭對手更加的敏 捷。
三、Variety(資料格式的多樣化)
對於資料的格式可分成結構化、半結構化與非結構化等資料,除了整齊 的結構化數據資料以外,基本上大多數的資料是存在於網路上包含半結構化 和非結構性的資料。隨著時代的變化,企業擷取的資料不再只是侷限於傳統 的資料格式,半結構化和非結構化的資料的量和結構化的資料的量一樣飛快 的增長中。通常結構化和半結構化的資料可以用普通的 XML 來描述,但是 非結構化的資料則需要特別的處理。
四、Veracity(資料的真實性)
傳統上對於資料的來源通常都趨於一致,也因此正確性較高,但由於現 今的資料來源較為複雜,導致正確性和可信度下降。例如網路上的訊息對於 某一件事件的看法無法得到單一的答案,而在這些意見、看法中甚至是含有
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
8
大量的非真實和惡意的評論,所以如何去分辨哪些為真實且有價值的資訊,
也成為巨量資料分析的一大挑戰。
五、Variability(資料結構上的變化)
資料結構上的變化指的是資料格式的可變性,主要著重於非關聯型態的 資料。網際網路及技術快速發展下,破碎的、不完整的和不可靠的數據越來 越多,數據可靠性的降低,容易導這數據所呈現的數據價值受到影響。
六、Value(創造價值)
在進行巨量資料的探勘以及資料的分析主要的目的在於實現資料的價 值,在巨量資料的時代,資料將是企業與政府的主要核心資產,如何運用已 經擁有的資料以及每天都在產生的巨量資料,並且從這之中分析出有價值的 資訊,再將這些資訊轉化成對企業和政府有用的知識與規則,成為關鍵重要 的競爭力,才能實現資料的價值。
巨量資料可以依據資料所產生的來源區分成外部和內部巨量資料,內部資料 係指透過政府內部設置的系統或設備所產生的數位資料,包含財稅、健康保險、
教育、衛生福利等,而外部巨量資料則是非從政府內部設置的系統或設備所產生 的與公共管理相關的數位資料,例如公開的新聞媒體資料、調查資料,以及民眾 公開並分享於網際網路的數位資料等(蕭乃沂等人,2015)。而網路輿情分析則 是外部巨量資料分析的一種,以下對於網路輿情分析與內部巨量資料分析進行說 明。
網路輿情分析
網路輿情(Internet public opinions)分析即為巨量資料分析的一種,隨著網 路的普及與儲存設備的價格大幅降低,民眾對於網路使用度及可近性越來越高,
且對於公共政策的意見也願意分享至社群媒體(如:Facebook、Twitter…等等)
中,網民(netizen)在網路社群中的發言、態度與意見偏好也在特定的頻道中發
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
9
酵與散布,如「婉君(網軍)」的崛起,因此網路社群對於公共政策過程影響越 來越大,網路輿情分析也成為政府在公共管理上不可忽視且必須關注的重點
(Zhang & Zhang, 2013;呂建億,2015)。
內部巨量資料分析
內部資料係指透過政府內部設置的系統或設備所產生的數位資料,包含財稅、
健康保險、教育、衛生福利等(蕭乃沂等人,2015)。對於企業來說,內部巨量 資料指的就是企業本身的業務上因生產經營產生許多資料,而非從外部第三方或 是網路上等取得,這些資料為企業內部原有的巨量資料。也因內部巨量資料資料 量較為龐大,且內容也較為多樣,是組織中巨量資料的主體,且這些內部資料為 組織內部已原有的,因此與組織的特性比較直接相關,並深入的廣泛到組織的各 個環節中,對於組織的價值遠遠大於各種外部的資料。
知識和技能
知識是指人經由書本、媒體、學校或是其他資源,所學習到的概念、原則與 資訊;而技能則是運用或是應用這些所學習到的概念、原則與資料,來達到預期 的結果。Lyle M. Spencer 與 Signe M. Spencer 在對於核心能力建構時則認為知識 指個人在專業領域的知能,如處理的程序、擁有專業的技能或是處理人際方面的 方法;而技能則是指執行工作時可以觀察到或是隱藏的能力,如傾聽的能力或是 資料分析的能力。而對於在組織的層面上,知識則是指一個人在特定的領域中的 專業知識,而技能則是在執行有形或無形任務時的能力(陳玉貞,2013)。簡單 來說,知識如同理論,而技能則是將理論成功的實踐,以達成理想的結果,透過 知識與技能進而達成組織的目標或是執行任務,達到預期的結果。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
10
資料科學家
資料科學家(Data Scientist)被喻為 21 世紀最性感的工作,可以說是駭客技術 者、分析者、溝通者和值得信賴的顧問等集結於一身的專家,主要是從資料中辨 識資料並且將這些資料與可能不完整的資料進行整合並且清理資料,透過將快速 產生的資料不斷的創新和變化,資料科學家幫助決策者持續的與資料進行連結,
也因此資料科學家除了最基本的編寫程式語言能力外,其中最主要的特徵就是擁 有強烈的好奇心能夠在問題的表面下找到問題的核心,並且將其轉化成一套很明 確且可測試的假設,也就是說資料科學家想要建構出一些有效的解決方案,而非 只是提供決策者一些建議(Davenport, T. H., & Patil, D. J., 2012)。為了能夠提出有 效的解決方案,資料科學家需要擁有業務分析、產業顧問、溝通協調以及資料科 學專業的知識和技能,在面對巨量資料時能夠從資料中擷取或分析到具有價值的 資料,並且透過易懂的方式將資料分析結果呈現給不懂資料的人,找出問題解答 或是提供新的方向(吳千卉、吳宗霖,2015:11)。