分群演算法實驗 - 實驗 - 實驗結果與討論 - 結合中文斷詞系統與雙分群演算法於音樂相關臉書粉絲團之分析：以KKBOX為例

第六章實驗結果與討論

6.3 實驗

6.3.1 分群演算法實驗

Theoretic Co-Clustering 及 Minimum Squared Residue Co-Clustering，以下以 MSRICC 代表 Euclidean Co-Clustering Algorithm，以 ITCC 代表 Information Theoretic Co-Clustering Algorithm，以 MSRIICC 代表 Minimum Squared Residue Co-Clustering Algorithm。

首先，我們比較了三種演算法在不同情況所耗費的時間。如下表 13 在行、矩陣之間的計算，MSRIICC 又比 MSRICC 要來得複雜，因此計算時間會隨著分群數的增加而增加。反觀 ITCC 則是透過矩陣隨機切割後以 K-L 距離來分配行、列，

因此計算上只受到資料矩陣的大小影響，而不受分群數所影響。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

表 13 三種演算法時間比較(單位 second)

MSRICC ITCC MSRIICC

分群數行 4/ 列 4 0.638 36.857 193.771 分群數行 100/列 100 9.494 74.583 2805.23 分群數行 1000 / 列 1000 120.915 38.291 21691.3

接著我們將初始實驗設定為列分群數 4、行分群數 4，以三種演算法去進行分群，再依據鑑別率與凝聚率來判斷分群結果，選出表現最佳的演算法。

列分群的鑑別率，如表 14。鑑別率 MSRICC 與 MSRIICC 的表現差不多，以 MSRICC 較高，而 ITCC 的結果則都是 0（當各群重疊情況嚴重時，鑑別率會變成 0）；而列分群的凝聚率，考量各群半徑不同的問題，為避免該群點過於分散，如圖 28 的情況，我們採取另一種凝聚率的計算方法，首先各別計算四個分群的平均數 μ，接著將四個平均數加總後平均，以這個方式來避免單一群體分群結果不佳，卻因平均數較大而凝聚率較高的情況。

圖 28 分群結果圖

‧

在凝聚率上的表現，如表 15，以 MSRIICC 表現最佳，凝聚率高達 90%，ITCC 其次，而 MSRICC 最差。從分佈圖上來觀察，如圖 29，可看出 ITCC 的分群結果十分的差，各群散布在一起，而 MSRICC 的結果也不是很理想，相比之下，

MSRIICC 的結果最佳。後面的實驗，隨著列分群數量的調整，MSRICC 與 MSRIICC 的結果差距也會越來越大。

表 14 分群數為 4 三種演算法鑑別率結果（列分群）

Discrimination MSRICC ITCC MSRIICC 2 & 1 0.0006 0.0 0.011

Agglomerate MSRICC ITCC MSRIICC

1 0.435 0.874 0.917

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 29 列分群分群數 4 結果圖（上至下，MSRICC,ITCC,MSRIICC）

‧

在行分群上的鑑別率，如表 16，只有 MSRICC 表現較佳，MSRIICC 與 ITCC 的表現都不盡理想；而行分群上凝聚率的部分，如表 17，考量到行分群的資料散佈的範圍較大且較不平均，為避免有極大或是極小的平均數，凝聚率的計算方式以各群各別的平均數去計算，從結果來看，MSRICC 表現最佳，MSRIICC 其次。

表 16 分群數為 4 三種演算法鑑別率結果（行分群）

Discrimination MSRICC ITCC MSRIICC 2 & 1 0.556 1.875E-08 2.277E-04 Total 1.746 8.5164E-07 1.933E-05 Average 0.291 1.41E-07 3.222E-06 Product 0.000051 1.11E-51 1.038E-17

表 17 分群數為 4 三種演算法凝聚率結果（行分群）

Agglomerate MSRICC ITCC MSRIICC

1 0.428 0.133 0.286

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

行分群的部分是根據 2703 篇臉書貼文，以 Jieba 斷詞系統所斷出的 29825 個字詞。以 PCA 結果呈現，各群的分布極度不平均，如圖 30 可看出群 1 的紅點很少，且分布較為分散，我們將被分在群 1 的內容抓出來看，發現是在貼文中被斷詞系統切開的網址，且出現次數遠大於其他字串。

圖 30 行分群結果圖

為方便觀察行分群細部的結果，我們將結果圖放大至 x 範圍(-4,0)、y 範圍 (-2,4)，忽略掉圖 30 群 1 的部分，如圖 31。從圖 31 可以看出，行分群的結果如同我們凝聚率與鑑別率所計算的一樣，MSRICC 的分群表現是最佳的。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 31 行分群分群數 4 結果圖（上至下，MSRICC,ITCC,MSRIICC）

‧

Discrimination 0.0697 0 0.028

Agglomerate 0.618 0.714 0.907 Total 0.688 0.714 0.936

表 19 行分群計算結果

由於在行、列分群 4 的實驗沒辦法明顯看出在列分群上 MSRIICC 優於其他兩者，接著，我們以列分群數 4 為基準，去進行行分群數 4 到 10 的實驗，如圖 32、

圖 33，將凝聚率與鑑別率加總後以折線圖表示。此實驗證實在列分群上 MSRIICC 表現得確實較好，而行分群則明顯以 MSRICC 較佳。因此在接下來的章節，列分群部分我們將以 MSRIICC 去實驗，而行分群則以 MSRICC 為主。

Column MSRICC ITCC MSRIICC Discrimination 0.291 1.7E-07 3.2E-06 Agglomerate 0.613 0.273 0.317

Total 0.904 0.273 0.317

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 32 三種演算法凝聚率與鑑別率結果比較（列分群）

圖 33 三種演算法凝聚率與鑑別率結果比較（行分群）

在雙分群演算法上，對於行與列的分群數我們估計是會彼此互相影響的，因此在接下來的實驗上我們會將行（列）的分群數固定，並控制列（行）的分群數，

以不同的分群數來進行實驗，來比較結果的差異。

‧

MSRICC 與 MSRIICC 的差異，但在分群數提高後，與 MSRICC、ITCC 的差距便會拉開。我們延續上個實驗結果，先將行分群數作為控制變因，將列分群數作為操作

在文檔中結合中文斷詞系統與雙分群演算法於音樂相關臉書粉絲團之分析：以KKBOX為例 - 政大學術集成 (頁 75-84)

分群演算法實驗

第六章 實驗結果與討論

6.3 實驗

6.3.1 分群演算法實驗

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

‧

‧ 國

立 政 治 大 學

‧

‧

第六章實驗結果與討論

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學