• 沒有找到結果。

第四章 實驗方法與驗證

4.5 以文字與互動特徵方法之實驗

4.5.2 互動特徵值域分布

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.5.2 互動特徵值域分布

將 3.6.2 節中對互動特徵做五種值域轉型,實驗結果如圖 4.10 至 4.15。查看原始 值域如圖 4.10,縱軸為值域,橫軸為藍綠貼文編號。可以觀察到互動特徵值域的分布 範圍廣大,尤其以按讚特別顯著。在這樣的值域分布使部分分類器的演算法運算式中 含有平方或相乘等,恐將造成值域範圍更加擴大,並影響最後分類器判斷類別的效果。

因此,利用統計方法,將原始值域做四種轉型。第一種為將原始值域取對數,如圖 4.11 可以明顯觀察到值域在取完對數後,縱軸分布範圍僅有在 0~6 之間。第二種如圖 4.12,

將原始資料進行正規化,強迫值域分布介於 0~1 之間,使互動特徵數值差距不超過 1。

第三種方法如圖 4.13,將原始值域標準化,值域分布範圍從 0~70 之間,也使得按讚 特徵從原始資料分布差距大與波動大變為差距較均勻且波動較小,甚至小於其他兩種 互動特徵。第四種方法,分別計算藍綠原始值域之平均值,並針對藍平均數與綠平均 數與原始值域做相似度計算,使用推疊折線圖如 4.14 與 4.15,值域越小代表越相似,

越大則反之,圖 4.14 在與藍平均數計算相似度中可以明顯看到按讚、分享在前 3302 篇貼文值域較小,也代表兩者越相似。相反的,在貼文編號大於 3302 之綠營貼文特徵 值域就明顯變大,也就是與藍互動特徵較不相似。而圖 4.15 計算與綠平均數之相似度 中也可以看到此一現象,便可以推算出,藍綠兩黨之互動特徵確實有值域上分布之差 異,下一小節將實驗互動特徵四種值域轉型並比較原始值域。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.10:原始互動特徵值域分布折線圖

圖 4.11:互動特徵取對數值域分布折線圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.12:正規化互動特徵值域分布折線圖

圖 4.13:互動特徵標準化值域分布折線圖

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 4.14:互動特徵與藍平均之相似度值域分布堆疊折線圖

圖 4.15:互動特徵與綠平均之相似度值域分布堆疊折線圖

式,各取 3000 則貼文並使用 10 fold cross validation 進行訓練與測試,在特徵上選擇黨 派典型字來進行實驗。表 4.10 至 4.13 為利用黨派典型字特徵實驗原始貼文數與平衡 後貼文數之實驗結果。若以 F1-score 當作評判標準,如圖 4.15 可知在本研究模型中藍 綠貼文資料筆數大約在 1:5 的情況下,並不會對分類效果造成明顯差異。反之在 naïve Bayes 與 decision tree 分類器結果顯示在資料不平衡狀況下還會使分類效果較佳。兩者 間在不同分類器有不同的結果,而差距皆在合理誤差範圍內。然而,對於資料不平衡

相關文件