臉書與 Graph API 相關研究 - 社群媒體之相關研究 - 文獻探討 - 針對臉書粉絲專頁貼文之政治傾向預測

第二章文獻探討

2.1 社群媒體之相關研究

2.1.1 臉書與 Graph API 相關研究

在眾多社群媒體平台中，臉書(Facebook)為目前最受歡迎平台之一，其為 2004 年 2 月 4 日由馬克·祖克柏與他的哈佛大學室友們所創立。創立之初僅限於哈佛大學與同區

‧

7. 活動（Events）：Facebook 活動的功能幫助用戶通知朋友們將發生的活動，幫助用戶組織線下的社交活動。

8. Facebook 網頁遊戲：網站內有許多與第三方合作廠商所開發的社群小遊戲，比較知名的有 Zynga.com、King.com、等等。

9. 刊登廣告：使用者可以向臉書購買廣告權，廣告會顯示在塗鴉牆角落空白處，也是絲專頁資料須透過臉書 Graph API[25]，臉書為這些資料建立出一套物件連結的關係，

稱之為 Social Graph，而 Graph API 主要依據 Social Graph 所產生的物件關聯介面，Social

‧

則利用[6]所提出 bottom-up merging algorithm 做最後擷取。

CKIP 斷詞正確率可達 95%，並提供完整線上服務功能。其所提供之詞庫與本研

‧

計算議題貼文與選民互動率（Engagement rate），統計民調結果與最後開票結果比例相當。在上述例子中，皆是利用社群媒體上之整體文字訊息進行民調分析。而結果也顯

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

準確度。[11]提出使用者與政黨之間的互動，如回應、轉發、喜歡等；[2]則是於選民分享行為建立網路圖，利用網路圖標籤傳遞(Label Propagation)，將選民進行黨派分類。

也有研究使用情緒分析預測選舉民調如[14]，其使用意見探勘(opinion mining)方式。

如圖 2.1，主要利用情緒特徵訓練預測分類器。首先，透過與情緒字典比對，統計文字中所含情緒極性詞，再加入情緒時間軸強化特徵擷取準確度，最後擷取情緒特徵以預測選民政治傾向。但情緒字典建立困難，為了增加情緒字典詞彙量，主要透過兩種方式建立情緒極性字典：(1)字典法、(2)機器學習法。字典法為透過人工事先標註情緒標籤，其分為正向情緒詞與負向情緒詞以作為情緒種子，再利用同意詞與歧異詞的概念將未知詞做分類擴增字典詞彙，需要有現成人工標註情緒種子做參考為字典法之困難點，其結果也將隨著字典的情緒詞完整性而影響好壞。在中文語系當中著名情緒字典有台大所建置的 NTUSD 以及由中央研究院資訊所與知網[15]合作，提出廣義知網[24]。

而機器學習法則是透過情緒種子與字詞間隱含關聯性，進而藉由此關聯性以及自定分類的情緒算法，分辨新進未知詞之情緒為何。其需要為正負向情緒建立關聯特徵，在準確度方面也隨著機器學習演算法而改變。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2.1：Overview of the predicting election approach [14]

最後，本研究在預測貼文政治傾向中，特徵將採用截取文字特徵與互動特徵一起訓練分類器。在文字特徵中含有意見探勘技術，將運用情緒字典統計貼文中所含情緒極性詞。而情緒字典的建立採用字典法，結合 NTUSD 正負向情緒詞與廣義知網正向與負向評價詞。互動特徵則包含臉書所提供之互動功能按讚、回應、分享。並利用資料探勘領域中 10 大演算法[16]，所提出的分類器實驗各項特徵所影響整體分類效果。

‧

存入 Microsoft SQL Server，此資料庫存入之資料為按時間批次存入，其紀錄資料歷史時間之狀態，故在功能與定義導向資料倉儲型態。接著，將欲進行分析之國民黨與民進黨貼文資料送入中研院 CKIP 斷詞器⁹，將其斷詞結果存入另一個屬於短暫處理時資料存放的資料庫 MySQL。本系統針對貼文政治傾向提出兩種預測模型，分別對兩種模型做資料前處理。第一種預測模型利用貼文中字詞隱含共現關係，將所有貼文所出現之相異詞做為特徵，並給予三種權重方法，分別為 BTO(Binary Term Occurrence)、

TF(Term Frequency)、TFIDF(Term Frequency–Inverse Document Frequency)，將其轉換成特徵向量餵入不同基底的分類器預測政治傾向。第二種預測模型透過擷取貼文文字

9 ckipsvr.iis.sinica.edu.tw/

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 3.1：系統架構圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 藍綠政黨代表粉絲專頁

以臉書做為平台，為預測貼文之藍綠政治傾向，本研究選取國民黨與民進黨兩大黨派之代表貼文。如表 3.1 與 3.2 所示，貼文來源為政治傾向鮮明且無爭議之粉絲專頁。若選擇政治人物其政治傾向有模糊不清之問題，將會影響建立分類器之效能，故在挑選建立訓練資料集之政治人物之政治傾向需無爭議性。擷取政治人物範圍上至總統、黨主席、總統候選人、行政院長、縣市長，下至立法委員、議員等。而抓取粉絲專頁之時間為該粉絲專頁創立以來至 2015 年的所有公開貼文。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3.1：範例國民黨政治人物粉絲專頁

姓名職等 國民黨派粉絲專頁

馬英九總統

洪秀柱總統候選人

連勝文北市候選人

蔡正元立法委員

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 3.2：範例民進黨政治人物粉絲專頁

姓名職等 民進黨派粉絲專頁

蔡英文總統候選人

陳菊高雄市長

賴清德台南市長

游錫堃前行政院長

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3 資料前處理

在文字訊息方面，應用資訊檢索領域中多項前處理技術，以利淨化資料與萃取出有利訓練分類器之資訊。如圖 3.2，預測資料前處理流程圖，以下小節將詳細解說。

圖 3.2：資料前處理流程圖

‧

相異詞作為訓練分類器特徵。而在此須建立貼文與相異詞之 TD(Term-Document) matrix，如表 3.3，列變量為藍綠粉絲專頁貼文，總數共 n 篇。行變量為貼文中出現知所有相異詞，總數為 k 個相異詞。在下個小節將說明中針對以相異詞為特徵方法中之

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

三種權重方式。

表 3.3：TD-matrix

word_1 word_2 word_3 word_4 word_5 … word_k post_1

post_2 post_3 post_4 post_5

… post_n

3.5.1 TF 權重法

在上述 TD-matrix 中需給予貼文與相異詞之對應數值，其稱為權重。詞頻(Term Frequency)為統計各詞在文本中出現頻率。公式 3.1，假設d 為文本，𝑛_𝑖,𝑗為該詞在文本 𝑑_𝑗中出現之次數，而分母∑_𝑘𝑛_𝑘,𝑗則為在文本𝑑_𝑗中所有詞之總和。

𝑡𝑓

_𝑖,𝑗

=

_{∑ 𝑛}^𝑛^𝑖,𝑗

𝑘,𝑗

𝑘

(3.1)

‧

post_1 word_1, word_2, word_5, word_5, word_1, word_1 post_2 word_3, word_3

post_3 word_1, word_1, word_1, word_3

post_4 word_5, word_4, word_4, word_4, word_4, word_4 post_5 word_1, word_77, word_89, word_k

表 3.5：TD-matrix 以詞頻為權重

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

word_1 在文本 post_3 中出現 3 次，而在 post_5 中出現 1 次，其權重比例便差了三倍。

然而文本總詞數也能影響權重，例如 word_1 在文本 post_1 與 post_3 皆出現 3 次，但總詞數相異也讓兩者權重不同。透過此一特性探討詞在貼文中隱含共現關係與相似度訓練分類器，以分類貼文政治傾向。

3.5.2 TF-IDF 權重法

TF-IDF 為一種資訊檢索領域常用加權指標，在跨文本情境中利用統計方法評估一詞在一文本中重要程度。IDF（Inverse Document Frequency）是一個詞重要性的度量。

如公式 3.2，某一特定詞語的

𝑖𝑑𝑓

_𝑖，可以由總文本數目除以包含該詞語之文本的數目，

再將得到的商取對數。其中|D|為文本總數，|{𝑗 ∶ 𝑡_𝑖 ∈ 𝑑_𝑗}|為包含詞語 t_𝑖 的文本數目，

如果該詞語不在語料庫中，就會導致分母為零，因此一般情況下使用 1+|{𝑗 ∶ 𝑡_𝑖 ∈ 𝑑_𝑗}|。

公式 3.3 利用公式 3.1 中

𝑡𝑓

_𝑖,𝑗^乘

𝑖𝑑𝑓

_𝑖，表達若一詞在單一文本中出現頻率極高，而在其他文本中出現頻率極低，則可說該詞在一文本中被辨識程度相當強，非常適合被用來做分類。

𝑖𝑑𝑓

_𝑖

= log

^|𝐷|

|{𝑗 ∶ 𝑡_𝑖 ∈ 𝑑_𝑗}| (3.2)

𝑡𝑓𝑖𝑑𝑓

_𝑖,𝑗

= 𝑡𝑓

_𝑖,𝑗

× 𝑖𝑑𝑓

_𝑖 ^(3.3)

‧

辨識能力。如文本 post_4 中共出現 word_4 與 word_5，若想知道哪一個詞可以使得文本 post_4 被辨識程度大。透過 IDF 統計 word_4 與 word_5 值各為log^𝑛₁與log^𝑛₂，在這一指標中 word_5 因為共出現在 2 篇文本中，而 word_4 僅出現在 post_4 中，故 IDF 值 word_4 大於 word_5。接著將 IDF 值乘上詞頻指標，詞的重要性隨著它在文本中出現的次數成正比增加，故將詞出現次數加入權重，word_4 與 word_5 在 post_4 中詞頻依序為⁵₆與¹₆，最後 word_4 與 word_5 之 TF-IDF 值分別為，可以得到 word_4 為 post_4 中

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3.5.3 BTO 權重法

從 BTO(Binary Term Occurrence)的角度給予 TD-matrix 權重，其不考慮詞出現次數，

亦不考慮詞在跨文本中之表現，僅著重在詞的出現之有無。此一權重方式給予權重方法單純，若詞有出現在文本中，便給予 1，若無則給予 0。

以表 3.4 為例，搭配 BTO 權重法，產出 TD-matrix 如表 3.7。在 TD-matrix 中，僅儲存二元碼。利用詞出現與否探討詞共現關係，讓其在計算貼文相似度時顯得更寬鬆。

例如 word_1 在文本 post_1 中出現 3 次與 word_1 在文本 post_5 中出現 1 次之權重皆相同為 1。而 word_1 出現在幾篇文本也將不影響每一文本之權重。故利用 BTO 此一特性訓練分類器，以分類貼文政治傾向。

表 3.7：TD-matrix 以 BTO 為權重

word_1 word_2 word_3 word_4 word_5 … word_k

post_1 1 1 0 0 1 0

post_2 0 0 1 0 0 0

post_3 1 0 1 0 0 0

post_4 0 0 0 1 1 0

post_5 1 0 0 0 0 1

…

post_n 0 0 0 0 0 0

‧

2 正規化(Normalization)：將原始按讚、回應、分享數值正規化，使之值域介於 0~1 之間。如公式 3.5，假設x = (x1, . . . , xn)共有 n 個數， 𝑧_𝑖為第i 個正規化之數。

𝑧

_𝑖

=

^xⁱ^−min(x)

𝑚𝑎𝑥(x)−𝑚𝑖𝑛(x) (3.5)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

3 標準化(Standardization)：數值標準化是為了消除不同屬性或樣本間的不齊性，使樣本內的值域縮小或是限制數據的取值範圍。假設μ為平均數，σ為變異數，令 x 集合的標準化為𝑧，則標準化如公式 3.6 。

𝑧 =

^x−μ_σ ^(3.6)

4 相似度計算(Similarity)：將藍綠原始按讚、回應、分享數值分別取平均數，當成黨派代表數，並將所有貼文按讚、回應、分享數值個別與藍綠黨派代表數做相似度計算。其相似度將使用 Camberra distance[27]其定義如下公式 3.7，假設 p 與 q 皆為自然數，計算 p 與 q 之間的相似度，其為數值型計算相似度之演算法，相似度值域將介於 0~1 之間。

𝑑(𝑝, 𝑞) =

_{|𝑝|+|𝑞|}^{|𝑝−𝑞|} (3.7)

圖 3.3：互動特徵值域散佈圖

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(y) 計算原始分享數值與藍平均數值相似度 (z) 計算原始分享數值與綠平均數值相似度

‧

Id 與貼文相關互動結構，如按讚、回應、分享、型態、發布時間。post_text 如表 4.2 則儲存貼文文字訊息，由於臉書貼文訊息可能儲存在 name 與 message 欄位中，依照粉絲專頁經營者習慣而有所不同，故將其分開儲存。

表 4.1：post_text 資料表

欄位名稱 type and size 代表意義

[FanPageId] [varchar](100) 粉絲團 id [Id] [varchar](100) 貼文 id [Name] [nvarchar](max) 貼文名稱 [Message] [nvarchar](max) 貼文內容

‧

[FanPageId] [varchar](100) 粉絲團 id [Id] [varchar](100) 貼文 id

[LikeCount] [int] 按讚數

[CommentCount] [int] 回應數

[ShareCount] [int] 分享數

[CreatedTime] [datetime] 貼文建立時間 [Type] [varchar](100) 貼文型態

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

表 4.3：國民黨貼文資料

國民黨政治人物 抓取貼文時間(年.月.日)至(年.月.日) 貼文數量 馬英九 2011.1.28~2015.3.25 1337 胡志強 2014.1.12~2015.5.27 696 連勝文 2014.4.3~2015.5.10 317 蔡正元 2014.3.19~2015.5.27 243 楊秋興 2010.6.10~2015.5.13 512 洪秀柱 2015.4.6~2015.6.16 198

表 4.4：民進黨貼文資料

民進黨政治人物 抓取貼文時間(年.月.日)至(年.月.日) 貼文數量 蔡英文 2010.12.7~2015.5.1 2009 游錫堃 2010.11.18~2015.5.25 1664 陳菊 2010.1.6~2015.10.1 4355 賴清德 2010.8.21~2015.9.30 2374 林佳龍 2011.2.19~2015.10.2 4095 鄭文燦 2014.5.28~2015.10.1 1009

‧

資料儲存 Microsoft SQL Server 2008 MySQL 5.6.20 實驗平台 RapidMiner Studio 6.5.001

斷詞系統 CKIP 中研院斷詞系統

‧

1. Naive Bayes[28]：機率基底，運用貝氏定理計算，並假設特徵之間為獨立，利用已知的事件發生之機率來推測未知資料的類別。

2. KNN(k-nearest neighbor classification)[29] ：為一種基於實例之機器學習，給定 K

在文檔中針對臉書粉絲專頁貼文之政治傾向預測 - 政大學術集成 (頁 20-0)

臉書與 Graph API 相關研究

第二章 文獻探討

2.1 社群媒體之相關研究

2.1.1 臉書與 Graph API 相關研究

‧

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.2 藍綠政黨代表粉絲專頁

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.3 資料前處理

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.5.1 TF 權重法

𝑡𝑓

=

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.5.2 TF-IDF 權重法

𝑖𝑑𝑓

𝑡𝑓

𝑖𝑑𝑓

𝑖𝑑𝑓

= log

𝑡𝑓𝑖𝑑𝑓

= 𝑡𝑓

× 𝑖𝑑𝑓

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

3.5.3 BTO 權重法

‧

‧

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學