第四章 實驗方法與驗證
4.5 以文字與互動特徵方法之實驗
4.5.2 互動特徵值域分布
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4.5.2 互動特徵值域分布
將 3.6.2 節中對互動特徵做五種值域轉型,實驗結果如圖 4.10 至 4.15。查看原始 值域如圖 4.10,縱軸為值域,橫軸為藍綠貼文編號。可以觀察到互動特徵值域的分布 範圍廣大,尤其以按讚特別顯著。在這樣的值域分布使部分分類器的演算法運算式中 含有平方或相乘等,恐將造成值域範圍更加擴大,並影響最後分類器判斷類別的效果。
因此,利用統計方法,將原始值域做四種轉型。第一種為將原始值域取對數,如圖 4.11 可以明顯觀察到值域在取完對數後,縱軸分布範圍僅有在 0~6 之間。第二種如圖 4.12,
將原始資料進行正規化,強迫值域分布介於 0~1 之間,使互動特徵數值差距不超過 1。
第三種方法如圖 4.13,將原始值域標準化,值域分布範圍從 0~70 之間,也使得按讚 特徵從原始資料分布差距大與波動大變為差距較均勻且波動較小,甚至小於其他兩種 互動特徵。第四種方法,分別計算藍綠原始值域之平均值,並針對藍平均數與綠平均 數與原始值域做相似度計算,使用推疊折線圖如 4.14 與 4.15,值域越小代表越相似,
越大則反之,圖 4.14 在與藍平均數計算相似度中可以明顯看到按讚、分享在前 3302 篇貼文值域較小,也代表兩者越相似。相反的,在貼文編號大於 3302 之綠營貼文特徵 值域就明顯變大,也就是與藍互動特徵較不相似。而圖 4.15 計算與綠平均數之相似度 中也可以看到此一現象,便可以推算出,藍綠兩黨之互動特徵確實有值域上分布之差 異,下一小節將實驗互動特徵四種值域轉型並比較原始值域。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.10:原始互動特徵值域分布折線圖
圖 4.11:互動特徵取對數值域分布折線圖
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.12:正規化互動特徵值域分布折線圖
圖 4.13:互動特徵標準化值域分布折線圖
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖 4.14:互動特徵與藍平均之相似度值域分布堆疊折線圖
圖 4.15:互動特徵與綠平均之相似度值域分布堆疊折線圖