互動特徵值域分布

第四章實驗方法與驗證

4.5 以文字與互動特徵方法之實驗

4.5.2 互動特徵值域分布

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.5.2 互動特徵值域分布

將 3.6.2 節中對互動特徵做五種值域轉型，實驗結果如圖 4.10 至 4.15。查看原始值域如圖 4.10，縱軸為值域，橫軸為藍綠貼文編號。可以觀察到互動特徵值域的分布範圍廣大，尤其以按讚特別顯著。在這樣的值域分布使部分分類器的演算法運算式中含有平方或相乘等，恐將造成值域範圍更加擴大，並影響最後分類器判斷類別的效果。

因此，利用統計方法，將原始值域做四種轉型。第一種為將原始值域取對數，如圖 4.11 可以明顯觀察到值域在取完對數後，縱軸分布範圍僅有在 0~6 之間。第二種如圖 4.12，

將原始資料進行正規化，強迫值域分布介於 0~1 之間，使互動特徵數值差距不超過 1。

第三種方法如圖 4.13，將原始值域標準化，值域分布範圍從 0~70 之間，也使得按讚特徵從原始資料分布差距大與波動大變為差距較均勻且波動較小，甚至小於其他兩種互動特徵。第四種方法，分別計算藍綠原始值域之平均值，並針對藍平均數與綠平均數與原始值域做相似度計算，使用推疊折線圖如 4.14 與 4.15，值域越小代表越相似，

越大則反之，圖 4.14 在與藍平均數計算相似度中可以明顯看到按讚、分享在前 3302 篇貼文值域較小，也代表兩者越相似。相反的，在貼文編號大於 3302 之綠營貼文特徵值域就明顯變大，也就是與藍互動特徵較不相似。而圖 4.15 計算與綠平均數之相似度中也可以看到此一現象，便可以推算出，藍綠兩黨之互動特徵確實有值域上分布之差異，下一小節將實驗互動特徵四種值域轉型並比較原始值域。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.10：原始互動特徵值域分布折線圖

圖 4.11：互動特徵取對數值域分布折線圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.12：正規化互動特徵值域分布折線圖

圖 4.13：互動特徵標準化值域分布折線圖

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 4.14：互動特徵與藍平均之相似度值域分布堆疊折線圖

圖 4.15：互動特徵與綠平均之相似度值域分布堆疊折線圖

‧

式，各取 3000 則貼文並使用 10 fold cross validation 進行訓練與測試，在特徵上選擇黨派典型字來進行實驗。表 4.10 至 4.13 為利用黨派典型字特徵實驗原始貼文數與平衡後貼文數之實驗結果。若以 F1-score 當作評判標準，如圖 4.15 可知在本研究模型中藍綠貼文資料筆數大約在 1:5 的情況下，並不會對分類效果造成明顯差異。反之在 naïve Bayes 與 decision tree 分類器結果顯示在資料不平衡狀況下還會使分類效果較佳。兩者間在不同分類器有不同的結果，而差距皆在合理誤差範圍內。然而，對於資料不平衡

在文檔中針對臉書粉絲專頁貼文之政治傾向預測 - 政大學術集成 (頁 62-66)

第四章 實驗方法與驗證

4.5 以文字與互動特徵方法之實驗

4.5.2 互動特徵值域分布

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

第四章實驗方法與驗證

立政治大學

立政治大學

立政治大學

立政治大學