⼩結 - 網路聲量與傳統民調之資料比對研究 -以2020台灣總統大選為例

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節⼩結

檢視相關研究與⽂獻發現，從政者為了形塑政治形象和選民認同，除了政治表現，也必需運⽤傳播體系來達到宣傳的⽬的，民意調查與網路聲量除了做為政治⼈物整體⽀持度的判讀，也可做為政績的檢視，成為政治⼈物施政、形象塑造，

討好選民的依據。

網路公共的特性，容易在短時間內，形聚⼤量的宣傳效應，它的「即時性」、

「主動參與性」、「互動性」、「超越時空性」、「匿名性」等特殊性，創造了另⼀種全新的、虛擬的、未知的公共領域。

從臺灣2014年台北市⾧柯⽂哲競選成功，到美國總統歐巴⾺⼤量使⽤社群集結⽀持者⼈氣的經驗，顯⽰出綱路聲量是政治⼈物競選前必須正視甚⾄操作的⼯

具，其影響⼒早就超越主流媒體，包含政治廣告、新聞報導所帶來的宣傳價值。

然⽽聲量、調查數字與實際結果，是否能透過數據做更量化的分析，了解其影響帶來的實質效應。

本研究嘗試，透過⽐較臺灣2020總統⼤選⼆位主要候選⼈蔡英⽂與韓國瑜之選舉投票結果，與選前三種調查⽅式，包含傳統市話民調、市話民調加⼊⼿機加權調查以及透過網路⼤數據軟體搜集之聲量掘取結果，判讀三種調查⽅式之準確度。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y 第三章研究⽅法

本章⾸先說明資料蒐集與分析⽅法，同時針對研究主題 2020 臺灣總統⼤選，

進⾏背景說明，同時針對市話民調的調查⽅式以及與其對⽐之⼤數據資料庫進⾏

解說與進⾏數據挖掘之關鍵字設定進⾏說明。

研究採取之民意調查區間為 2020 年總統⼤選前半年，時間從 2019 年 5 ⽉ 22

⽇到 2019 年 10 ⽉ 14 ⽇，合計 8 次市話調查，並於 2019 年 8 ⽉ 19 ⽇進⾏⼀次市話與⼿機結合調查，研究分析傳統市話民調與網路聲量異同，同時也進⾏市話加

⼊⼿機加權後的民調與網路聲量之異同，同時⽐對傳統市話民調與市話加⼊網路民調和⼤數據之間是否有差異性。本章⾸先針對本研究之背景與動機進⾏說明，

接著，闡述研究⽬的並提出研究問題。最後，說明研究流程，以及提出相關名詞釋義與使⽤⽅式。

第⼀節資料蒐集與分析⽅法

壹、資料蒐集⽅法：次級資料

學者 Babbie（2012）訂定了次級資料法應⽤的標準化步驟，包含：研究⽬的與問題的擬定（含研究觀點）；選擇案例（單⼀組織、單⼀事件，或單⼀區域等）；

蒐集相關內部與外部資料，並且形成假說。當中，次級資料（secondary data）是指間接取得別⼈所整理的資料（第⼆⼿），例如：引⽤政府開放資料。次級資料

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

是相對於初級資料所命名。次級資料⼀般分為「內部次級資料」與「外部次級資料」，本研究之次級資料來源以「趨勢民調」公司之內部資料，以及「LOWI3.0 輿情監測系統」之外部資料做為資料來源進⾏⽐對。

貳、資料分析⽅法：量化與質性資料分析⽅法

⼀、分析⽅法

本研究⾸先從「趨勢民調」公司，選前半年做的多次民調出做出分類，其中七次為單純市話調查，另⼀次則為市話加⼊⼿機加權調查，在純市話調查中，由於 6 ⽉頻䌓調查 3 次，為求時間間隔產⽣的變化，取出當⽉第⼀次為研究資料，

同時為求對⽐基礎相同，我們找出每次調查中共有的題型，做為研究依據，最後篩選出 4 次調查，分別於 2019 年 5 ⽉ 22 ⽇、6 ⽉ 6 ⽉、7 ⽉ 4 ⽇與接近選前最後⼀次 10 ⽉ 14 ⽇的調查結果做為研究資料，同時此 4 次調查中，都有共有題型，即針對兩個臺灣主要政黨的總統候選⼈，蔡英⽂與韓國瑜進⾏⽀持度的調查。

在「LOWI3.0 輿情監測系統」⼤數據資料庫的部份，依據前述議題設定、時間設定、關鍵字設定、簡化資料、建構類屬的結果，進⾏相同時間點內，對兩位主要候選⼈網路聲量的⼤範圍搜尋，並截取出其中正向聲量，設定為⽀持度，與市話民調及市話加⼊⼿機加權的單次民調進⾏雙向與三⽅的⽐對，⽐對結果進⾏

資料引證、摘要分析，並嘗試將資料的分析結果與實際的總統⼤選結果進⾏對照。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

⼆、資料品質管控與研究步驟

在資料蒐集上，本研究採取⽅式為：

1. 資料來源依研究主題從專業民調公司取得。

2. 研究者⾃⾏蒐集與分析。

3. 關鍵字與時間軸之設定以研究者主觀詮釋，與指導教授討論後，選擇符合研究⽬的，有效獲得實證資料之內容效度。

4. 在資料搜集完成後，研究者將依研究架構檢視，並以時間軸與關鍵字區分概念與類別。

5. 分析各調查資料之調查結果做⽐對，同時進⾏與本研究相關之議題分析。

第⼆節市話民調調查⽅式

壹、家⼾市話民調調查⽅式

民意調查（Public Opinion Poll），⼜稱為輿論調查、民意測驗或民調，傳統民調⽅式籍由家⼾電話，由專業的調查機構，對⼤量樣本的問卷做調查抽樣，同時根基於統計學的原理進⾏數字分析，在誤差範圍內，取得事件意⾒的百分⽐，

做為了解公眾對於政治、經濟、社會政策的意⾒和態度。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

基於統計學正負95%的誤差範圍，民意調查樣本數要超過⼀千份，且依內政部最新⼈⼝資料，針對⼾籍地、性別、年齡以及教育程度採⽤多重反覆加權 (Raking)，以符合母體之分配。

⼀般民調公司在執⾏市話電話民調時，抽樣的⽅式是根據中華電信提供的市話資料庫篩選電話號，為求公平並保證每個電話都有被抽到的可能性，民調公司從資料庫中隨機抽選的號碼會屏蔽尾數末2碼、甚⾄末4碼，再⽤隨機跳號的

⽅式，組成新的號碼撥出，並且在確認為有效樣本後，於調查結果進⾏加樣，以符合母體分配。

本次研究採取臺灣民調公司「趨勢民調」於2020總統⼤選前半年，即2019年 5⽉份到10⽉底之間的多次調查，採每⽉取樣⼀次的⽅式，取出計4次調查結果和網路⼤數據聲量進⾏⽐對，每次的有效樣本數超過⼀千份，並且以對應母體加權後的結果，做為研究對⽐資料。

貳、家⼾市話加⼊⼿機調查⽅式

市話加⼊⼿機調查⽅式，在討論之初包含⼿機樣本如何取得？樣本怎麼來？

由誰提供，有的⼈有⼆、三⽀⼿機，無法按抽樣地區分配，尤其花東與離島，是否容易被系統性的邊緣化是⼤家關注的重點。加上市話加⼊⼿機的調查⽬前執⾏

的⾮常少，是否成熟？準確度是否得到驗證？也是⼀⼤問題。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

以本研究為例，市話結合⼿機的民意調查，除了民進黨初選⼀次，民調公司

⾃⾏或委託操作的也只有⼀次，民進黨初選執⾏的⼿機樣本號碼，是先經由民進黨員內部篩選出樣本，和本研究調查為臺灣全體民眾範圍不同，無法進⾏研究上的⽐對。

⽽本研究所採取的市話加⼊⼿機加樣調查的資料，則是「趨勢民調公司」於 2019 年 8 ⽉ 19 ⽇與 20 ⽇，由民間委託於選舉前所做的總統⼤選⽀持度調查，

其中，市話共完成了 1,059 份的有效樣本，⽽⼿機則完成了 1,079 份有效樣本，其中唯⼿機族（完全不使⽤市話的⼈）有 454 份。

本次調查中市話樣本的取樣⽅式與前述市話民調執⾏時的⽅式相同，⽽⼿機樣本的取得，則是採 NCC 每年公佈的五⼤電信業者號頭加上後⽅電腦系統隨機產⽣的號碼進⾏播號調查，同樣的在確認為有效樣本後，最終仍然要經過加權計算對應母體，並沒有專家學者擔憂的邊緣化問題，但是由於研究資料過於單⼀，

沒有更多的調查可以⽐對，加⼊⼿機調查是否產⽣影響準確度的正負⾯影響，仍待更多的研究來證明。

參、加權計算⽅法

⽬前市話調查之加權⽅式，仍然有研究落差與限制，市場上的商業民調公司使⽤之市話調查樣本來源為臺灣中華電信之市話資料庫，由於市話涵蓋範圍改變，

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

為求盡量完全吻合全臺灣之⼈⼝分佈，所以開始加⼊⼿機加權之結合調查⽅式。

市話加權的⽅式是以臺灣內政部公佈之⼈⼝資料做為加權來源，以新北市舉例說明，⾸先設定調查範圍若為全新北市，依據全新北市之所有⾏政區之⼈⼝資料，包括年齡結構、男⼥⽐例與教育程度之佔⽐，再依據佔⽐決定調查之有效樣本數量，假設整體之調查樣本為⼀千份，依內政部資⼈⼝資料，三重地區 20 到 30 歲之⼈⼝佔⽐為百分之 6，則有效樣本份數必須完成 60 通調查電話，通常整體的調查份數為加權計算之 10 到 12 倍，亦即假設有效樣本為上述 60 份，則撥打三重區電話 600 到 720 通，最後完成 60 份有效樣本。

⽽⼿機加權部份因為沒有上述之資料庫，所以⽬前的調查⽅式只能採取合併

⽅式，⽤即有之⼈⼝資料庫做加權計算。

第三節網路聲量資料庫設定

本研究採取的⼤數據截取資料庫為 LOWI 輿情監測系統，為⽬前坊間⼤數據商業應⽤上，較多⼈使⽤的資料掘取系統，透過關鍵字的搜尋，設定其搜尋的時間範圍與搜尋範圍，可以找出相關網路世界裡與關鍵字具有關聯性的所有⽂字資料。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

壹、網路聲量資料庫說明

坊間⽬前較通⽤之網跟聲量資料庫或稱做輿情監測系統主要為 OpView 社群

⼝碑資料庫與 LOWI 輿情監測系統，主要透過 AI（Artificial Intelligence）⼈⼯

智能語意分析技術與雲端架構，協助企業分析輿情，了解實際上的網路聲量，並且透過軟體整理成易於分析之各種表格，協助判讀。不同系統之間的主要差別在於使⽤介⾯、網路搜尋範圍，以及其⼈⼯智能對語意判讀關鍵技術之精準程度。

⼀、OpView 社群⼝碑資料庫說明：

主要搜尋範圍分為四⼤類別

A. 社群網站：包含 FB、IG、YT 等臺灣主流之社群網站。

B. 網路上之各⼤討論區，例如：Mobile01、Dcard、PPT。

C. 網路新聞媒體，例如：ETtoday、Line Today、CNEWS 匯流新聞。

D. 部落格：痞客邦、Blogger、Xuite 隨意窩。

根據官⽅資料指出，OpView 的搜尋範圍⼤約 8 萬個網站，利⽤網路爬⽂技術，對不同版型網站進⾏智慧解⽂，將內容統整到統⼀的雲端資料庫中，使⽤者可以透過時間段結構，⾃⾏運⽤關鍵字尋找到相關訊息，所有的訊息經由 AI 技術判別出其態度、情緒做出分類，了解網路世界對關鍵字議題之正負向聲量。

‧

LOWI可以⾃定義分析版⾯（Customized Analysis Layout），使⽤者可以依據搜尋複雜度⾃⾏編輯符合使⽤習慣的版⾯。同時 LOWI 可以針對主動監控議題設定

⾃動推播通知（Topic Diffusion & Push Notification），同時融合⼤數據數據牆的概念，呈現各種拓撲圖像層次結構分析（Concept Topology Analysis）。

LOWI 輿情系統的主要技術特⾊為⼈⼯智慧和機器學習（ Artificial Intelligence & Machine Learning），每⼀次的搜尋過程都作為⼈⼯智慧學習的訓練

在文檔中網路聲量與傳統民調之資料比對研究 -以2020台灣總統大選為例 - 政大學術集成 (頁 38-0)

⼩結

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五節 ⼩結

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y 第三章 研究⽅法

第⼀節 資料蒐集與分析⽅法

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第⼆節 市話民調調查⽅式

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三節 網路聲量資料庫設定

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

立政治大學

第五節⼩結

立政治大學

l C h engchi U ni ve rs it y 第三章研究⽅法

第⼀節資料蒐集與分析⽅法

立政治大學

立政治大學

第⼆節市話民調調查⽅式

立政治大學

立政治大學

立政治大學

第三節網路聲量資料庫設定

立政治大學