第三章 研究⽅法
第三節 網路聲量資料庫設定
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
為求盡量完全吻合全臺灣之⼈⼝分佈,所以開始加⼊⼿機加權之結合調查⽅式。
市話加權的⽅式是以臺灣內政部公佈之⼈⼝資料做為加權來源,以新北市舉 例說明,⾸先設定調查範圍若為全新北市,依據全新北市之所有⾏政區之⼈⼝資 料,包括年齡結構、男⼥⽐例與教育程度之佔⽐,再依據佔⽐決定調查之有效樣 本數量,假設整體之調查樣本為⼀千份,依內政部資⼈⼝資料,三重地區 20 到 30 歲之⼈⼝佔⽐為百分之 6, 則有效樣本份數必須完成 60 通調查電話,通常整 體的調查份數為加權計算之 10 到 12 倍,亦即假設有效樣本為上述 60 份,則撥 打三重區電話 600 到 720 通,最後完成 60 份有效樣本。
⽽⼿機加權部份因為沒有上述之資料庫,所以⽬前的調查⽅式只能採取合併
⽅式,⽤即有之⼈⼝資料庫做加權計算。
第三節 網路聲量資料庫設定
本研究採取的⼤數據截取資料庫為 LOWI 輿情監測系統,為⽬前坊間⼤數 據商業應⽤上,較多⼈使⽤的資料掘取系統,透過關鍵字的搜尋,設定其搜尋的 時間範圍與搜尋範圍,可以找出相關網路世界裡與關鍵字具有關聯性的所有⽂字 資料。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
壹、網路聲量資料庫說明
坊間⽬前較通⽤之網跟聲量資料庫或稱做輿情監測系統主要為 OpView 社群
⼝碑資料庫與 LOWI 輿情監測系統,主要透過 AI(Artificial Intelligence) ⼈⼯
智能語意分析技術與雲端架構,協助企業分析輿情,了解實際上的網路聲量,並 且透過軟體整理成易於分析之各種表格,協助判讀。不同系統之間的主要差別在 於使⽤介⾯、網路搜尋範圍,以及其⼈⼯智能對語意判讀關鍵技術之精準程度。
⼀、OpView 社群⼝碑資料庫說明:
主要搜尋範圍分為四⼤類別
A. 社群網站:包含 FB、IG、YT 等臺灣主流之社群網站。
B. 網路上之各⼤討論區,例如:Mobile01、Dcard、PPT。
C. 網路新聞媒體,例如:ETtoday、Line Today、CNEWS 匯流新聞。
D. 部落格:痞客邦、Blogger、Xuite 隨意窩。
根據官⽅資料指出,OpView 的搜尋範圍⼤約 8 萬個網站,利⽤網路爬⽂技 術,對不同版型網站進⾏智慧解⽂,將內容統整到統⼀的雲端資料庫中,使⽤者 可以透過時間段結構,⾃⾏運⽤關鍵字尋找到相關訊息,所有的訊息經由 AI 技 術判別出其態度、情緒做出分類,了解網路世界對關鍵字議題之正負向聲量。
‧
LOWI可以⾃定義分析版⾯(Customized Analysis Layout),使⽤者可以依據搜尋 複雜度⾃⾏編輯符合使⽤習慣的版⾯。同時 LOWI 可以針對主動監控議題設定
⾃動推播通知(Topic Diffusion & Push Notification),同時融合⼤數據數據牆的概 念,呈現各種拓撲圖像層次結構分析(Concept Topology Analysis)。
LOWI 輿 情 系 統 的 主 要 技 術 特 ⾊ 為 ⼈ ⼯ 智 慧 和 機 器 學 習 ( Artificial Intelligence & Machine Learning),每⼀次的搜尋過程都作為⼈⼯智慧學習的訓練 模版,作為下⼀次預測的參考,⽽其語意運算及概念搜尋(Meaning Base Computing & Concept Search)技術能在 1 秒內執⾏ 30 次議題擴散路逕搜尋分析,
讓資訊搜尋結果更符合實際狀況。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
貳、 關鍵字截取
為對應市話民調題型,在相同的基礎下進⾏⼤數據資料庫與市話民調⽀持度 的⽐對,市話民調選定的研究題型為:
根據新聞報導,⺫前想要參選2020總統⼤選的有 ⺠進黨的蔡英⽂ 、 國⺠黨的韓國瑜 、 無黨籍的柯⽂哲 ,這三個⼈當中,請問您會投票⽀持哪⼀位來做總統?
由於在實際的選舉中,柯⽂哲最終並沒有宣佈參選,我們主要的研究對象為代表 民主進步黨的蔡英⽂與代表國民黨的韓國瑜⼆強之爭,從市話民調調查結果中,我們可 以得到蔡英⽂的⽀持度百分⽐與韓國瑜的⽀持度百分⽐。因此在⼤數據的關鍵字搜尋上,
我們選擇設定”蔡英⽂”與”韓國瑜”,分別搜尋他們在民意調查當天同樣⽇期、相同時間 點,網路上的所有聲量,並且挑出正向聲量,排除負向與中⽴聲量,正向聲量代表對該 搜尋對象持肯定態度,表⽰較為⽀持該位候選⼈,也可能反應在選舉時的投票選擇上。
參、設定說明
LOWI⼤數據系統的搜尋設定說明,我們以本研究 2020 臺灣總統⼤選之主 要候選⼈蔡英⽂做為說明:
進⼊ LOWI ⼤數據系統後,我們可以看到以下⾴⾯,左上⽅為搜尋欄位,
欄位下⽅可以進⾏媒體通路亦即欲搜尋的網路媒體範圍;資料時效,也就是設定
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
搜尋此關鍵字的時間範圍,以及其它相關搜尋設定。下⽅則顯⽰出關鍵字的熱詞 牆,右側則為搜尋關鍵字相關的新聞來源。
圖3-4-1 LOWI輿情監測系統主⾴⾯
進⾏網路聲量關鍵字搜尋時,在上⽅搜尋欄位中,輸⼊欲搜尋之關鍵字,為 了讓系統能夠辨別其為完整的連續性⽂字,通常會在關鍵字的前後加上引號,例 如:我們要搜尋蔡英⽂的網路聲量,鍵⼊”蔡英⽂”,接著在媒體通路欄位,勾選 要搜尋的範圍(詳⾒下⽅圖 3-4-2),包含所有⽂字中和蔡英⽂有關的論壇、部落 格、新聞與社群媒體,由於選舉屬政治議題,所以這次研究我們針對論壇、新聞 和社群媒體做資料挖掘(Data Mining),排除了較為軟性的部落格內容,在下⽅
想要搜尋的網路範圍三個項⽬前端做勾選。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖3-4-2 LOWI輿情監測系統網路搜尋範圍設定
接著進⼊資料時效欄位,⼿⼯拖拉⼿動設定搜尋時間,以本研究為例,我們 取樣的第⼀次市話調查數據是在 2019 年 5 ⽉ 22 ⽇當天執⾏,所以⼤數據資料鍵
⼊ 2019 年 5 ⽉ 22 ⽇,截取當天網路上跟蔡英⽂有關的所有聲量。
圖3-4-3 LOWI輿情監測系統搜尋時間範圍設定
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
當條件設定好後,按下搜尋,即會出現熱詞矩陣與相關的新聞來源。往下⽅
拉,也顯⽰出當天與”蔡英⽂”相關聲量的餅圖與直條圖。
圖3-4-4 LOWI輿情監測系統熱詞矩陣
直條圖中分為匹配聲量、關聯性聲量與擴散聲量,其中關聯性聲量之連結性 較強,擴散聲量的連結較弱,勾選關聯性聲量,並點選右上⾓箭頭選取輸出(詳
⾒圖 3-4-5),系統會⾃動抓取網路上相關論壇、新聞與社群媒體,所有與關鍵字 有關的訊息,並運⽤ AI 智慧判讀分類出所有正向、中⽴與負向聲量,並且製作 成表格輸出,⽽此資料即成為本次研究的網路聲量數據資料來源,韓國瑜的聲量,
重覆同樣的步驟,得到之聲量資料,整併於蔡英⽂聲量表格下⽅,⽅便進⾏⽐對
(詳⾒圖 3-4-6)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖3-4-5 LOWI輿情監測系統關連聲量餅圖與直條圖
由於研究中主要看的是⼆⼈的⽀持度,所以我們只選⽤表格中的正向情緒,
忽略中⽴情緒與負向情緒,來了解當天網路世界裡,對於蔡英⽂與韓國瑜的正向 聲量及其⽐例為何?再與市話調查的⽀持度結果進⾏⽐對。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖3-4-6 LOWI輿情監測系統聲量數據匯出Excel表格
以上⽅表格為例,當天蔡英⽂在網路上之正向情緒計有 2162 筆,正向聲量 佔其整體⽐例為 28.09%,韓國瑜有 4021 筆,正向聲量佔其整體⽐例為 20.36%,
我們排除中⽴情緒和負向情緒,將 2 ⼈之正向情緒⽐例視為 100%,做為其當天 之⽀持度。
則蔡英⽂之於韓國瑜 5 ⽉ 22 ⽇之正向情緒佔⽐為:
28.98/(28.09+20.36)*100 = 57.98%
韓國瑜之於蔡英⽂ 5 ⽉ 22 ⽇之正向情緒佔⽐為:
20.36/(28.09+20.36)*100 = 42.02%
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y 第四章 資料分析結果
本研究資料來源為台灣民意調查公司「趨勢民調」,針對 2020 年台灣總統
⼤選,於 2019 年 5 ⽉ 22 ⽇⾄ 10 ⽉ 14 ⽇期間,所做的 8 次關於主要總統候選⼈
之市話民調選情預測結果與議題事件,以及 2019 年 8 ⽉ 19 ⽇所調查的市話結合
⼿機之調查選情預測結果與議題事件做為分析資料,對⽐調查期間之網路聲量⼤
數據資料庫所呈現的候選⼈網路正向聲量進⾏⽐對。
在市話調查部份截取出相同的調查題⽬做為研究變項即:
根據新聞報導,⺫前想要參選 2020 總統⼤選的有 ⺠進黨的蔡英⽂ 、 國⺠黨的韓國 瑜 、 無黨籍的柯⽂哲 ,這三個⼈當中,請問您會投票⽀持哪⼀位來做總統?
由於柯⽂哲 2020 總統⼤選,最後並沒有正式宣佈參選,亦即本調查進⾏時 間點之柯⽂哲⽀持率,並沒有最終實際結果可以⽐對,本研究取⽤最終實際參選 的⼆位候選⼈,即蔡英⽂與韓國瑜 2 ⼈做為研究變項與實際選舉結果做⽐對。
另外特別拉出單次即 2019 年 8 ⽉ 19 ⽇之市話結合⼿機加權之調查以數個題 型,對⽐⼤數據資料庫之聲量結果進⾏分析⽐對,調查部份亦截取出相同的調查 題⽬做為研究變項即:
2020年的總統選舉,有國⺠黨的韓國瑜、⺠進黨的蔡英⽂這兩個⼈參選。在這兩 個⼈當中,請問您⽐較⽀持哪⼀位來當我們的總統呢?
‧
訪問主題:2020總統選情評估(CNEWS) 訪問⽇期:2019年5⽉22⽇
有效樣本:1,077⼈
抽樣誤差:在95%的信⼼⽔準下,抽樣誤差在正負3.0個百分點之內 訪問地區:⼾籍於臺閩地區22縣市,且年滿20歲的⼀般⺠眾
調查⽅法:採⽤電話調查⽅式,以分層⽐例隨機抽樣進⾏住宅電話調查
‧
重反覆加權(Raking)1. 根據新聞報導,⺫前想要參選 2020 總統⼤選的有 ⺠進黨的蔡英⽂ 、 國⺠黨
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
⽽無黨籍的代表台北市⾧柯⽂哲,原本是媒體與網路聲量寵兒,因為韓國瑜
⾵潮,媒體⾵向轉彎,頓時失寵,加上背後沒有政黨奧援,最終放棄競選總統的 念頭。
本研究設定範圍,依據選舉實際狀況,即實際代表民進黨參選總統的蔡英⽂
與實際代表國民黨參選之韓國瑜,⼆位候選⼈在競選前半年之傳統市話數據與網 路聲量數據做為研究重⼼,調查題型如下:
根據新聞報導,⺫前想要參選 2020 總統⼤選的有 ⺠進黨的蔡英⽂ 、 國⺠黨的韓國 瑜 、 無黨籍的柯⽂哲 ,這三個⼈當中,請問您會投票⽀持哪⼀位來做總統?
上述相同題型傳統市話調查與資料來源共計 8 次,另有⼀次市話結合⼿機加 權之調查分別為:
1. 2019 年 5 ⽉ 22 ⽇ 總統選情評估
2. 2019 年 5 ⽉ 31 ⽇ 總統選情評估
3. 2019 年 6 ⽉ 6 ⽇ 總統選情評估
4. 2019 年 6 ⽉ 14 ⽇ 總統選情評估
5. 2019 年 6 ⽉ 20 ⽇ 總統選情評估
6. 2019 年 6 ⽉ 27 ⽇ 總統選情評估
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
7. 2019 年 7 ⽉ 4 ⽇ 總統選情評估
8. 2019 年 8 ⽉ 19 ⽇總統選情評估(市話結合⼿機加權)
9. 2019 年 10 ⽉ 14 ⽇ 總統選情評估
考量時間軸設定時間太近,變化差異不⼤的情況下,分別於 5 ⽉、6 ⽉、7 ⽉ 與 10 ⽉,各取當⽉第⼀次調查資料與⼤數據資料庫做⽐對。即 2019 年 5 ⽉ 22
⽇、2019 年 6 ⽉ 6 ⽇、2019 年 7 ⽉ 4 ⽇與 2019 年 10 ⽉ 14 ⽇。( 相關調查資料 結果,同時列為附件供參。)
回到研究問題進⼀步說明:
研究問題⼀: 市話調查與網路聲量資料庫聲量針對同⼀個題型,調查結果,
在數據百分⽐上,有無顯著差異?(所採取的資料為上述 5 ⽉ 22 ⽇第 1 次調查、6 ⽉ 6 ⽇第 3 次調查、7 ⽉ 4 ⽇第 7 次調查 與 10 ⽉ 14 ⽇第 9 次調查之調查結果,同時搜尋網路聲量資料 庫同時間點之聲量結果做為⽐對。)
在數據百分⽐上,有無顯著差異?(所採取的資料為上述 5 ⽉ 22 ⽇第 1 次調查、6 ⽉ 6 ⽇第 3 次調查、7 ⽉ 4 ⽇第 7 次調查 與 10 ⽉ 14 ⽇第 9 次調查之調查結果,同時搜尋網路聲量資料 庫同時間點之聲量結果做為⽐對。)