• 沒有找到結果。

第六章 實驗結果與討論

6.3 實驗

6.3.1 分群演算法實驗

Theoretic Co-Clustering 及 Minimum Squared Residue Co-Clustering,以下 以 MSRICC 代表 Euclidean Co-Clustering Algorithm,以 ITCC 代表 Information Theoretic Co-Clustering Algorithm,以 MSRIICC 代表 Minimum Squared Residue Co-Clustering Algorithm。

首先,我們比較了三種演算法在不同情況所耗費的時間。如下表 13 在行、 矩陣之間的計算,MSRIICC 又比 MSRICC 要來得複雜,因此計算時間會隨著分群 數的增加而增加。反觀 ITCC 則是透過矩陣隨機切割後以 K-L 距離來分配行、列,

因此計算上只受到資料矩陣的大小影響,而不受分群數所影響。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

65

表 13 三種演算法時間比較(單位 second)

MSRICC ITCC MSRIICC

分群數行 4/ 列 4 0.638 36.857 193.771 分群數行 100/列 100 9.494 74.583 2805.23 分群數 行 1000 / 列 1000 120.915 38.291 21691.3

接著我們將初始實驗設定為列分群數 4、行分群數 4,以三種演算法去進行 分群,再依據鑑別率與凝聚率來判斷分群結果,選出表現最佳的演算法。

列分群的鑑別率,如表 14。鑑別率 MSRICC 與 MSRIICC 的表現差不多,以 MSRICC 較高,而 ITCC 的結果則都是 0(當各群重疊情況嚴重時,鑑別率會變成 0);而列分群的凝聚率,考量各群半徑不同的問題,為避免該群點過於分散,如 圖 28 的情況,我們採取另一種凝聚率的計算方法,首先各別計算四個分群的平 均數 μ,接著將四個平均數加總後平均,以這個方式來避免單一群體分群結果 不佳,卻因平均數較大而凝聚率較高的情況。

圖 28 分群結果圖

在凝聚率上的表現,如表 15,以 MSRIICC 表現最佳,凝聚率高達 90%,ITCC 其次,而 MSRICC 最差。從分佈圖上來觀察,如圖 29,可看出 ITCC 的分群結果 十分的差,各群散布在一起,而 MSRICC 的結果也不是很理想,相比之下,

MSRIICC 的結果最佳。後面的實驗,隨著列分群數量的調整,MSRICC 與 MSRIICC 的結果差距也會越來越大。

表 14 分群數為 4 三種演算法鑑別率結果(列分群)

Discrimination MSRICC ITCC MSRIICC 2 & 1 0.0006 0.0 0.011

Agglomerate MSRICC ITCC MSRIICC

1 0.435 0.874 0.917

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

67

圖 29 列分群分群數 4 結果圖(上至下,MSRICC,ITCC,MSRIICC)

在行分群上的鑑別率,如表 16,只有 MSRICC 表現較佳,MSRIICC 與 ITCC 的表現都不盡理想;而行分群上凝聚率的部分,如表 17,考量到行分群的資料 散佈的範圍較大且較不平均,為避免有極大或是極小的平均數,凝聚率的計算方 式以各群各別的平均數去計算,從結果來看,MSRICC 表現最佳,MSRIICC 其次。

表 16 分群數為 4 三種演算法鑑別率結果(行分群)

Discrimination MSRICC ITCC MSRIICC 2 & 1 0.556 1.875E-08 2.277E-04 Total 1.746 8.5164E-07 1.933E-05 Average 0.291 1.41E-07 3.222E-06 Product 0.000051 1.11E-51 1.038E-17

表 17 分群數為 4 三種演算法凝聚率結果(行分群)

Agglomerate MSRICC ITCC MSRIICC

1 0.428 0.133 0.286

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

69

行分群的部分是根據 2703 篇臉書貼文,以 Jieba 斷詞系統所斷出的 29825 個字詞。以 PCA 結果呈現,各群的分布極度不平均,如圖 30 可看出群 1 的紅點 很少,且分布較為分散,我們將被分在群 1 的內容抓出來看,發現是在貼文中被 斷詞系統切開的網址,且出現次數遠大於其他字串。

圖 30 行分群結果圖

為方便觀察行分群細部的結果,我們將結果圖放大至 x 範圍(-4,0)、y 範圍 (-2,4),忽略掉圖 30 群 1 的部分,如圖 31。從圖 31 可以看出,行分群的結果 如同我們凝聚率與鑑別率所計算的一樣,MSRICC 的分群表現是最佳的。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

70

圖 31 行分群分群數 4 結果圖(上至下,MSRICC,ITCC,MSRIICC)

Discrimination 0.0697 0 0.028

Agglomerate 0.618 0.714 0.907 Total 0.688 0.714 0.936

表 19 行分群計算結果

由於在行、列分群 4 的實驗沒辦法明顯看出在列分群上 MSRIICC 優於其他兩 者,接著,我們以列分群數 4 為基準,去進行行分群數 4 到 10 的實驗,如圖 32、

圖 33,將凝聚率與鑑別率加總後以折線圖表示。此實驗證實在列分群上 MSRIICC 表現得確實較好,而行分群則明顯以 MSRICC 較佳。因此在接下來的章節,列分 群部分我們將以 MSRIICC 去實驗,而行分群則以 MSRICC 為主。

Column MSRICC ITCC MSRIICC Discrimination 0.291 1.7E-07 3.2E-06 Agglomerate 0.613 0.273 0.317

Total 0.904 0.273 0.317

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

72

圖 32 三種演算法凝聚率與鑑別率結果比較(列分群)

圖 33 三種演算法凝聚率與鑑別率結果比較(行分群)

在雙分群演算法上,對於行與列的分群數我們估計是會彼此互相影響的,因 此在接下來的實驗上我們會將行(列)的分群數固定,並控制列(行)的分群數,

以不同的分群數來進行實驗,來比較結果的差異。

MSRICC 與 MSRIICC 的差異,但在分群數提高後,與 MSRICC、ITCC 的差距便會拉 開。我們延續上個實驗結果,先將行分群數作為控制變因,將列分群數作為操作