巨量資料（Big Data）

第二章文獻檢閱與探討

第一節巨量資料（Big Data）

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第一節巨量資料（Big Data）

在面對巨量資料的對政府來說，巨量資料可以依據資料所產生的來源區分成外部和內部巨量資料，且也會依據資料的擁有者的觀點有所不同，如蕭乃沂等人

（2015）提出政府內部資料係指透過政府內部設置的系統或設備所產生的數位資料，而外部巨量資料則是非從政府內部設置的系統或設備所產生的與公共管理相關的數位資料。對於企業來說像是 POS 系統資料或是會員消費紀錄就是一種內部資料，因只有企業內部獨有，而對於像是需要透過買入的資料例如政府提供的資料或是透過網際網路得到的資料則是外部資料（鍾慧貞、梁世英（譯），2013；

文及元，2014）。而對於企業或是政府單位來說不管是外部網路民意而產生的網路輿情，亦或是企業或是政府單位本身內部擁有的龐大資料，如善用這些巨量資料的價值，必能使企業與政府機關在商業上或是政策上等業務上提升效能、改善其品質。

在巨量資料分析過程中，不管公部門或私部門都提出一些看法如 IBM 公司的政府業務中心對於巨量資料的關鍵步驟主要區分為計劃（Planning）、執行

（Execution）和後執行（Post-implementation）這三個階段，其中又包含 17 個步驟（Desouza, 2014）。而我國也提出政府在運用巨量資料分析時，主要有四個步驟包含問題擬定、前置整備、執行分析作業和研析產出結果（劉宗熹，2016：4-6），從以上的敘述可以發現巨量資料分析是有階段性的步驟。而網路輿情分析與內部巨量資料分析所需的分析的流程或是取得的來源也會有所差異，因此本研究將介紹網路輿情及內部巨量資料以及其運用的流程。

壹、網路輿情分析

隨著社會快速變遷且民意的多元化，民眾參與對於政府來說是制定政策不可或缺的重要參考，也因此快速與即時成為民意調查價值與品質的最高原則（沈建中、顧尚潔，2012）。隨著網路技術的革新與進步，對於民意的表達，民眾並非

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

再依循傳統的管道去討論公共事務以及表達意見，網路成為民意發展的最佳場所，

透過網路的即時性和直接溝通的特性，使不少人民認為可以將政治權力交還到人民的手中，呈現一種直接民主的運作模式（楊意菁，2008）。

從電子化參與的角度來看，民眾從了解政府所公布的資訊中，並參與政府的運作，透過網路的參與管道不但給予民眾參與並有機會去選擇政府所提供服務的內容，也進一步的參與到公共政策決策的核心，成為一名名副其實的民主「自（治）

理人」(gotizen)（陳敦源、潘競恆，2011）。

一、網路輿情的特性

網路輿情（Internet public opinions）分析為巨量資料分析的一種，主要是透過對網路上的資料進行文本分析，這種非結構化的資料無法利用結構化的分析方法進行分析（Ramanathan, S.& Sarulatha, N., 2013），因此需透過非傳統調查方法進行分析。從網路上所蒐集到的資訊，包含了文字、影片、圖片及其他非結構性的資料（Juan, L., Xueguang, Z., & Bin, C., 2013），其主要都是透過議題或是需求進行「關鍵字」的設定來廣泛地蒐集網路上的相關資料，分析方法又稱做為網頁資料探勘（Data mining）並透過關鍵字的設定所蒐集到的資料內容進行數據整理與分析（Cambria, E., Schuller, B., Xia, Y., &

Havasi, C., 2013）。網路輿情的內涵主要可以分成三個部分，分別為網路公民發言者（netizens）、受關注的議題（issues）及媒介（Internet media）這三個主題所形成的關係則所謂的網路輿論（廖洲棚等人，2014；蕭乃沂等人，2015），網路公民可能包含其個人的網路帳號、個人屬性及群體屬性，而所關注的議題可能會因為相關的利害關係人或是其事件等會有所不同，對於要如何蒐集到到關注的議題及瞭解網路公民發文的管道，則是透過媒介進行，其媒介可能會有包含新聞區、討論區、社群、部落格或是一些特定的管道等進行搜尋，

也因此從整個網路輿情分析來看，關鍵字的設定是整個網路輿情分析的重要核心點。

‧

Social Media

Influencer

初步 Social Media Diffusion Model

資料來源：廖洲棚等人（2013：94）

其主要分成五個步驟，以下詳細說明（蕭乃沂等人，2015：32-33）：

(一) 步驟一：為網路輿情需求單位的目標界定階段，須對需求單位的目標及需求進行瞭解，並對於「議題」有初步的範圍規畫和釐清，因此此步驟是由領域專家進行領域的給定與界定。

(二) 步驟二：政策議題關鍵詞界定階段，議題關鍵詞可能包含比較專業且較精確的用詞，例如議題、事件等，而此步驟由領域專家與分析單位

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

共同給定關鍵字。

(三) 步驟三：資料撈取階段，到此階段開始進行資料的撈取，技術資訊提供廠商透過上述步驟所提供的關鍵詞組，利用布林邏輯進行關鍵字的串聯界定搜尋條件（由上而下），初步在網路上進行蒐集分析（由下而上），回饋關鍵字的修正意見。

(四) 步驟四：初步分析結果階段，領域專家與技術資訊提供廠商在本階段共同針對網路輿情分析報告的規格進行討論，並初步確保以上分析結果的品質與分析報表產出。

(五) 步驟五、提供正式報表階段，在此之前步驟二至步驟四為網路輿情分析流程的第一個循環，需求單位與技術廠商在此循環中會一同討論在彼此都接受且可負擔的範圍下的需求與報表格式。

網路輿情分析透過巨量資料分析的技術快速且大量的蒐集網路上民眾的發言、評論，甚至是從言詞中分析出情緒以及立場等資訊，使企業或是政府單位能夠將藉此瞭解民眾對於某些事件上的看法，來做為企業與政府關注民意的一種管道。根據上述對於網路輿情分析的導入流程，可以發現網路輿情分析必須要經過不斷的測試、分析和討論才能將最終的結果報表呈現出來，此外也會依據議題或事件所產生的關鍵詞組而有不同的過程及結果。且在網路輿情分析的過程中，專家學者、業務單位以及技術廠商都扮演著重要的角色，透過這三方不斷的討論從關鍵字的設定，以及初步分析結果的準確度，到最後分析成果的解讀，這都需要依靠專家學者、業務單位以及技術廠商彼此的配合協調，才能夠使網路輿情分析的成果能夠符合業務的需求。從這之中也夠發現，對於網路輿情分析的人才的重視，不管是具有專業領域的專家學者，或是具有業務背景領域的委託單位，以及擁有技術能力的廠商，都是要依靠他們的專業的知識和技能才能夠將網路輿情分析的成果完美發揮出來，也能夠進一步的確立人才培育的重要性。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、內部巨量資料

政府或企業雖然對於從外部搜尋到的巨量資料進行分析相當重視，且樂於將其資料引進組織內部，但是卻忽略了內部業務已經具有的巨量資料才是最大價值挖掘的目標。巨量資料的價值來自於資料本身，從巨量資料的來源來看，不管是企業或是政府在於本身的業務上因政策過程或是生產經營等都會產生許多資料，

而非從外部第三方或是網路上等取得，這些資料為政府或企業內部原有的巨量資料，相較於外部的巨量資料，內部巨量資料的資料量較為龐大，且內容也較為多樣，是組織中巨量資料的主體，且也因這些內部資料為組織內部已原有的，因此與組織的特性比較直接相關，並深入的廣泛到組織的各個環節中，對於組織的價值遠遠大於各種外部的資料。

對於大中型企業來說，在信息化與資料應用過程中，基本上都完成了對於信息化系統建設與業務資料蒐集自動化等第一階段工作，也因此隨著時間增加各種業務信息系統已經累積了大量的業務資料。但是到了第二階段將這些業務信息系統中的大量的巨量資料挖掘出來並且用來提升企業業務的經營管理，卻是進度緩慢。

西元 1996 年對資料探勘（Data Mining）逐漸興起，但是卻缺乏廣泛且每個組織都接受的資料探勘的方法，因此由四位初期資料探勘市場的領導者進行發想，

提出跨行業資料採礦過程標準（cross-industry standard process for data mining，簡稱 SCRISP-DM），SCRISP-DM 主要是提供組織對於資料採礦的過程，並且再規劃和執行資料探勘時所需的步驟，其流程模型主要可以分成六個階段如下

（Shearer, C. , 2000：14-18；謝邦昌、鄭宇庭，2016：103-105）：

一、定義商業問題（Business Understanding）：在資料採礦之前應該要從業務的角度清楚的瞭解想從資料中得到那些價值，因此需要不斷與組織進行討論和確認，以對組織的問題和目的有一定的了解，才能夠擬定相對應的方案。定

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

義商業問題主要有幾個關鍵的步驟，包含確定商業目標、評估狀況，、確定資料探勘的目標，以及制訂專案計劃。

二、資料理解（Data Understanding）：在了解到組織的問題與目標，並收集完相關的資料後，對於資料進行初步的分析以篩選出一些不完整的資訊，以提升資料準備的效率。資料理解包含四個步驟，包含初始資料的蒐集、資料描述、

資料探勘以及對於資料品質的驗證。

三、資料預準備（Data Preparation）：由於資料的來源不同因此可能會有資料格式不一致的問題產生，所以在模型建立前必須要進行多次的檢查和修正，以確保資料的完整性。因此，資料預準備主要包含選擇資料、清理資料並且建構資料，將資料整合和將資料格式化等五個步驟。

四、建立模型（Modeling）：依據資料的形式來選擇最合適的資料採礦技術，並

在文檔中公務人員善用巨量資料分析所需知識技能之探討 - 政大學術集成 (頁 22-28)

第二章 文獻檢閱與探討

第一節 巨量資料（Big Data）

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第一節 巨量資料（Big Data）

壹、 網路輿情分析

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、 內部巨量資料

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻檢閱與探討

第一節巨量資料（Big Data）

立政治大學

第一節巨量資料（Big Data）

壹、網路輿情分析

立政治大學

立政治大學

立政治大學

貳、內部巨量資料

立政治大學