網路聲量資料庫設定 - 研究⽅法 - 網路聲量與傳統民調之資料比對研究 -以2020台灣總統大選為例

第三章研究⽅法

第三節網路聲量資料庫設定

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

為求盡量完全吻合全臺灣之⼈⼝分佈，所以開始加⼊⼿機加權之結合調查⽅式。

市話加權的⽅式是以臺灣內政部公佈之⼈⼝資料做為加權來源，以新北市舉例說明，⾸先設定調查範圍若為全新北市，依據全新北市之所有⾏政區之⼈⼝資料，包括年齡結構、男⼥⽐例與教育程度之佔⽐，再依據佔⽐決定調查之有效樣本數量，假設整體之調查樣本為⼀千份，依內政部資⼈⼝資料，三重地區 20 到 30 歲之⼈⼝佔⽐為百分之 6，則有效樣本份數必須完成 60 通調查電話，通常整體的調查份數為加權計算之 10 到 12 倍，亦即假設有效樣本為上述 60 份，則撥打三重區電話 600 到 720 通，最後完成 60 份有效樣本。

⽽⼿機加權部份因為沒有上述之資料庫，所以⽬前的調查⽅式只能採取合併

⽅式，⽤即有之⼈⼝資料庫做加權計算。

第三節網路聲量資料庫設定

本研究採取的⼤數據截取資料庫為 LOWI 輿情監測系統，為⽬前坊間⼤數據商業應⽤上，較多⼈使⽤的資料掘取系統，透過關鍵字的搜尋，設定其搜尋的時間範圍與搜尋範圍，可以找出相關網路世界裡與關鍵字具有關聯性的所有⽂字資料。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

壹、網路聲量資料庫說明

坊間⽬前較通⽤之網跟聲量資料庫或稱做輿情監測系統主要為 OpView 社群

⼝碑資料庫與 LOWI 輿情監測系統，主要透過 AI（Artificial Intelligence）⼈⼯

智能語意分析技術與雲端架構，協助企業分析輿情，了解實際上的網路聲量，並且透過軟體整理成易於分析之各種表格，協助判讀。不同系統之間的主要差別在於使⽤介⾯、網路搜尋範圍，以及其⼈⼯智能對語意判讀關鍵技術之精準程度。

⼀、OpView 社群⼝碑資料庫說明：

主要搜尋範圍分為四⼤類別

A. 社群網站：包含 FB、IG、YT 等臺灣主流之社群網站。

B. 網路上之各⼤討論區，例如：Mobile01、Dcard、PPT。

C. 網路新聞媒體，例如：ETtoday、Line Today、CNEWS 匯流新聞。

D. 部落格：痞客邦、Blogger、Xuite 隨意窩。

根據官⽅資料指出，OpView 的搜尋範圍⼤約 8 萬個網站，利⽤網路爬⽂技術，對不同版型網站進⾏智慧解⽂，將內容統整到統⼀的雲端資料庫中，使⽤者可以透過時間段結構，⾃⾏運⽤關鍵字尋找到相關訊息，所有的訊息經由 AI 技術判別出其態度、情緒做出分類，了解網路世界對關鍵字議題之正負向聲量。

‧

LOWI可以⾃定義分析版⾯（Customized Analysis Layout），使⽤者可以依據搜尋複雜度⾃⾏編輯符合使⽤習慣的版⾯。同時 LOWI 可以針對主動監控議題設定

⾃動推播通知（Topic Diffusion & Push Notification），同時融合⼤數據數據牆的概念，呈現各種拓撲圖像層次結構分析（Concept Topology Analysis）。

LOWI 輿情系統的主要技術特⾊為⼈⼯智慧和機器學習（ Artificial Intelligence & Machine Learning），每⼀次的搜尋過程都作為⼈⼯智慧學習的訓練模版，作為下⼀次預測的參考，⽽其語意運算及概念搜尋（Meaning Base Computing & Concept Search）技術能在 1 秒內執⾏ 30 次議題擴散路逕搜尋分析，

讓資訊搜尋結果更符合實際狀況。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

貳、關鍵字截取

為對應市話民調題型，在相同的基礎下進⾏⼤數據資料庫與市話民調⽀持度的⽐對，市話民調選定的研究題型為：

根據新聞報導，⺫前想要參選2020總統⼤選的有⺠進黨的蔡英⽂、國⺠黨的韓國瑜、無黨籍的柯⽂哲，這三個⼈當中，請問您會投票⽀持哪⼀位來做總統？

由於在實際的選舉中，柯⽂哲最終並沒有宣佈參選，我們主要的研究對象為代表民主進步黨的蔡英⽂與代表國民黨的韓國瑜⼆強之爭，從市話民調調查結果中，我們可以得到蔡英⽂的⽀持度百分⽐與韓國瑜的⽀持度百分⽐。因此在⼤數據的關鍵字搜尋上，

我們選擇設定”蔡英⽂”與”韓國瑜”，分別搜尋他們在民意調查當天同樣⽇期、相同時間 點，網路上的所有聲量，並且挑出正向聲量，排除負向與中⽴聲量，正向聲量代表對該搜尋對象持肯定態度，表⽰較為⽀持該位候選⼈，也可能反應在選舉時的投票選擇上。

參、設定說明

LOWI⼤數據系統的搜尋設定說明，我們以本研究 2020 臺灣總統⼤選之主要候選⼈蔡英⽂做為說明：

進⼊ LOWI ⼤數據系統後，我們可以看到以下⾴⾯，左上⽅為搜尋欄位，

欄位下⽅可以進⾏媒體通路亦即欲搜尋的網路媒體範圍；資料時效，也就是設定

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

搜尋此關鍵字的時間範圍，以及其它相關搜尋設定。下⽅則顯⽰出關鍵字的熱詞牆，右側則為搜尋關鍵字相關的新聞來源。

圖3-4-1 LOWI輿情監測系統主⾴⾯

進⾏網路聲量關鍵字搜尋時，在上⽅搜尋欄位中，輸⼊欲搜尋之關鍵字，為了讓系統能夠辨別其為完整的連續性⽂字，通常會在關鍵字的前後加上引號，例如：我們要搜尋蔡英⽂的網路聲量，鍵⼊”蔡英⽂”，接著在媒體通路欄位，勾選要搜尋的範圍（詳⾒下⽅圖 3-4-2），包含所有⽂字中和蔡英⽂有關的論壇、部落格、新聞與社群媒體，由於選舉屬政治議題，所以這次研究我們針對論壇、新聞和社群媒體做資料挖掘（Data Mining），排除了較為軟性的部落格內容，在下⽅

想要搜尋的網路範圍三個項⽬前端做勾選。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖3-4-2 LOWI輿情監測系統網路搜尋範圍設定

接著進⼊資料時效欄位，⼿⼯拖拉⼿動設定搜尋時間，以本研究為例，我們取樣的第⼀次市話調查數據是在 2019 年 5 ⽉ 22 ⽇當天執⾏，所以⼤數據資料鍵

⼊ 2019 年 5 ⽉ 22 ⽇，截取當天網路上跟蔡英⽂有關的所有聲量。

圖3-4-3 LOWI輿情監測系統搜尋時間範圍設定

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

當條件設定好後，按下搜尋，即會出現熱詞矩陣與相關的新聞來源。往下⽅

拉，也顯⽰出當天與”蔡英⽂”相關聲量的餅圖與直條圖。

圖3-4-4 LOWI輿情監測系統熱詞矩陣

直條圖中分為匹配聲量、關聯性聲量與擴散聲量，其中關聯性聲量之連結性較強，擴散聲量的連結較弱，勾選關聯性聲量，並點選右上⾓箭頭選取輸出（詳

⾒圖 3-4-5），系統會⾃動抓取網路上相關論壇、新聞與社群媒體，所有與關鍵字有關的訊息，並運⽤ AI 智慧判讀分類出所有正向、中⽴與負向聲量，並且製作成表格輸出，⽽此資料即成為本次研究的網路聲量數據資料來源，韓國瑜的聲量，

重覆同樣的步驟，得到之聲量資料，整併於蔡英⽂聲量表格下⽅，⽅便進⾏⽐對

（詳⾒圖 3-4-6）。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖3-4-5 LOWI輿情監測系統關連聲量餅圖與直條圖

由於研究中主要看的是⼆⼈的⽀持度，所以我們只選⽤表格中的正向情緒，

忽略中⽴情緒與負向情緒，來了解當天網路世界裡，對於蔡英⽂與韓國瑜的正向聲量及其⽐例為何？再與市話調查的⽀持度結果進⾏⽐對。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖3-4-6 LOWI輿情監測系統聲量數據匯出Excel表格

以上⽅表格為例，當天蔡英⽂在網路上之正向情緒計有 2162 筆，正向聲量佔其整體⽐例為 28.09%，韓國瑜有 4021 筆，正向聲量佔其整體⽐例為 20.36%，

我們排除中⽴情緒和負向情緒，將 2 ⼈之正向情緒⽐例視為 100%，做為其當天之⽀持度。

則蔡英⽂之於韓國瑜 5 ⽉ 22 ⽇之正向情緒佔⽐為：

28.98/（28.09＋20.36）*100 ＝ 57.98%

韓國瑜之於蔡英⽂ 5 ⽉ 22 ⽇之正向情緒佔⽐為：

20.36/（28.09＋20.36）*100 ＝ 42.02%

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 第四章資料分析結果

本研究資料來源為台灣民意調查公司「趨勢民調」，針對 2020 年台灣總統

⼤選，於 2019 年 5 ⽉ 22 ⽇⾄ 10 ⽉ 14 ⽇期間，所做的 8 次關於主要總統候選⼈

之市話民調選情預測結果與議題事件，以及 2019 年 8 ⽉ 19 ⽇所調查的市話結合

⼿機之調查選情預測結果與議題事件做為分析資料，對⽐調查期間之網路聲量⼤

數據資料庫所呈現的候選⼈網路正向聲量進⾏⽐對。

在市話調查部份截取出相同的調查題⽬做為研究變項即：

根據新聞報導，⺫前想要參選 2020 總統⼤選的有⺠進黨的蔡英⽂、國⺠黨的韓國瑜、無黨籍的柯⽂哲，這三個⼈當中，請問您會投票⽀持哪⼀位來做總統？

由於柯⽂哲 2020 總統⼤選，最後並沒有正式宣佈參選，亦即本調查進⾏時間點之柯⽂哲⽀持率，並沒有最終實際結果可以⽐對，本研究取⽤最終實際參選的⼆位候選⼈，即蔡英⽂與韓國瑜 2 ⼈做為研究變項與實際選舉結果做⽐對。

另外特別拉出單次即 2019 年 8 ⽉ 19 ⽇之市話結合⼿機加權之調查以數個題型，對⽐⼤數據資料庫之聲量結果進⾏分析⽐對，調查部份亦截取出相同的調查題⽬做為研究變項即：

2020年的總統選舉，有國⺠黨的韓國瑜、⺠進黨的蔡英⽂這兩個⼈參選。在這兩個⼈當中，請問您⽐較⽀持哪⼀位來當我們的總統呢？

‧

訪問主題：2020總統選情評估(CNEWS) 訪問⽇期：2019年5⽉22⽇

有效樣本：1,077⼈

抽樣誤差：在95%的信⼼⽔準下，抽樣誤差在正負3.0個百分點之內訪問地區：⼾籍於臺閩地區22縣市，且年滿20歲的⼀般⺠眾

調查⽅法：採⽤電話調查⽅式，以分層⽐例隨機抽樣進⾏住宅電話調查

‧

重反覆加權(Raking)

1. 根據新聞報導，⺫前想要參選 2020 總統⼤選的有⺠進黨的蔡英⽂、國⺠黨

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

⽽無黨籍的代表台北市⾧柯⽂哲，原本是媒體與網路聲量寵兒，因為韓國瑜

⾵潮，媒體⾵向轉彎，頓時失寵，加上背後沒有政黨奧援，最終放棄競選總統的念頭。

本研究設定範圍，依據選舉實際狀況，即實際代表民進黨參選總統的蔡英⽂

與實際代表國民黨參選之韓國瑜，⼆位候選⼈在競選前半年之傳統市話數據與網路聲量數據做為研究重⼼，調查題型如下：

根據新聞報導，⺫前想要參選 2020 總統⼤選的有⺠進黨的蔡英⽂、國⺠黨的韓國瑜、無黨籍的柯⽂哲，這三個⼈當中，請問您會投票⽀持哪⼀位來做總統？

上述相同題型傳統市話調查與資料來源共計 8 次，另有⼀次市話結合⼿機加權之調查分別為：

1. 2019 年 5 ⽉ 22 ⽇總統選情評估

2. 2019 年 5 ⽉ 31 ⽇總統選情評估

3. 2019 年 6 ⽉ 6 ⽇總統選情評估

4. 2019 年 6 ⽉ 14 ⽇總統選情評估

5. 2019 年 6 ⽉ 20 ⽇總統選情評估

6. 2019 年 6 ⽉ 27 ⽇總統選情評估

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

7. 2019 年 7 ⽉ 4 ⽇總統選情評估

8. 2019 年 8 ⽉ 19 ⽇總統選情評估（市話結合⼿機加權）

9. 2019 年 10 ⽉ 14 ⽇總統選情評估

考量時間軸設定時間太近，變化差異不⼤的情況下，分別於 5 ⽉、6 ⽉、7 ⽉與 10 ⽉，各取當⽉第⼀次調查資料與⼤數據資料庫做⽐對。即 2019 年 5 ⽉ 22

⽇、2019 年 6 ⽉ 6 ⽇、2019 年 7 ⽉ 4 ⽇與 2019 年 10 ⽉ 14 ⽇。( 相關調查資料結果，同時列為附件供參。)

回到研究問題進⼀步說明：

研究問題⼀：市話調查與網路聲量資料庫聲量針對同⼀個題型，調查結果，

在數據百分⽐上，有無顯著差異？（所採取的資料為上述 5 ⽉ 22 ⽇第 1 次調查、6 ⽉ 6 ⽇第 3 次調查、7 ⽉ 4 ⽇第 7 次調查與 10 ⽉ 14 ⽇第 9 次調查之調查結果，同時搜尋網路聲量資料庫同時間點之聲量結果做為⽐對。）

在文檔中網路聲量與傳統民調之資料比對研究 -以2020台灣總統大選為例 - 政大學術集成 (頁 44-0)

網路聲量資料庫設定

第三章 研究⽅法

第三節 網路聲量資料庫設定

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 網路聲量資料庫設定

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 第四章 資料分析結果

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章研究⽅法

第三節網路聲量資料庫設定

立政治大學

第三節網路聲量資料庫設定

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

l C h engchi U ni ve rs it y 第四章資料分析結果

立政治大學

立政治大學