近鄰傳播 Single Run 分析

第四章實驗結果

4.3 Single Run 分析

4.3.1 近鄰傳播 Single Run 分析

近鄰傳播分群，選定較大的參考度，代表各串列被選為為群中心的機會就越高，會產生較多的群，反之則會產生較少的群。因此我們可以試著調整參考度的倍數，讓分群結果更好。實驗結果如表 4-3：我們發現將參考度調整為 2 倍或 4 倍時，分群結果非常糟糕，群數目是串列數的相近至一半。而將參考度調整為二分之一或四分之一時，兩種基準的 ARI 都進步，但是 NMI 都退步。因為參考度不做倍數調整時，產生的群較多，且極小的群(包含串列數不超過 5)也較多，

所以 NMI 較大，ARI 較小。

表 4-3：經前處理 1 的 HOG 串列做近鄰傳播分群，參考度為相似度矩陣中位數

表 4-4：經前處理 1 的 HOG 串列做近鄰傳播分群，參考度為均一初值及其倍數

初值倍數調整 ARI_1 ARI_2 NMI_1 NMI_2 群數量

1/4 0.351 0.366 0.690 0.722 29 1/2 0.351 0.366 0.690 0.722 29 1 0.346 0.362 0.691 0.726 31 2 0.358 0.375 0.704 0.740 32 4 0.355 0.371 0.711 0.746 34 4.3.2 Average Link 與近鄰傳播的 Single Run 分析

我們想要探討 Average Link 和近鄰傳播在 Single Run 產生相同群數量時，何者的分群表現較好，所以我們拿 Single Run AL 與分群結果具相同群數量的 Single

Run AP 進行比較。實驗結果如圖 4-2：實驗發現在群數量小於 40 的時候，近鄰傳播的表現較好，反之則是 Average Link 稍微好一點，推測是因為近鄰傳播所取用的參考度較小時，能夠產生較少的群數量，而在產生較少的群數量時，Average

Link 是直接用兩群最小的距離作為分群依據，近鄰傳播則是用整體的相似度作為分群依據，所以前者在產生較少的群數量時比較容易偏離真實情況。而近鄰傳播取用參考度較大時，可能被選為群中心的資料點會增加，使得產生的群會變多，

產生偏差的機會增加，與 Average Link 的表現就會互有勝敗了。

圖 4-2：經前處理 1 的灰階串列，Average Link 與 AP 在產生相同群數量的表現，

左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示 AL 的結果，藍線表示 AP 的結果，橫軸表示群數量，縱軸表示數值

我們對於一個問題感到興趣：如果取用的均一參考度，與相似度矩陣中位數某個倍數的平均值相似，何者的分群表現較好？因此我們將相似度矩陣中位數做倍數調整，取各倍數的平均值做為與其比較的均一參考度值。實驗結果如圖 4-3：

實驗發現相似度矩陣中位數系列的表現略優於均一參考度系列，因此我們認為這組串列若有適當且相異的參考度可以找出較好的群中心，讓分群結果更好。

圖 4-3：經前處理 1 的灰階串列做近鄰傳播分群，在相近參考度的分群表現，左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示相似度矩陣中位數系列的結果，

藍線表示均一參考度系列的結果，橫軸表示相似度矩陣中位數的倍數調整為 2 的多少次方，縱軸表示數值

接下來我們對其他三組資料進行相同的分群實驗：

我們對第二組資料做 Average Link 與近鄰傳播的 Single Run 實驗，實驗結果如圖 4-4：實驗發現產生相同群數量時，近鄰傳播的表現遠優於 Average Link，

我們認為原因是近鄰傳播產生的群數量普遍較少，如同三國影片串列，這組資料在產生群數量較少時，近鄰傳播可以表現較好。

圖 4-4：第二組測資，Average Link 與 AP 在產生相同群數量的表現，左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示 AL 的結果，藍線表示 AP 的結果，橫軸

表示群數量，縱軸表示數值

我們同樣將相似度矩陣中位數做倍數調整，取各倍數的平均值做為與其比較的均一參考度值。實驗結果如圖 4-5：實驗發現分群結果互有勝敗，因此這組資料可能兩系列都適用。

圖 4-5：第二組測資做近鄰傳播分群，在相近參考度的分群表現，左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示相似度矩陣中位數系列的結果，藍線表示均一參考度系列的結果，橫軸表示相似度矩陣中位數的倍數調整為 2 的多少次方，

縱軸表示數值

我們對第三組資料做 Average Link 與近鄰傳播的 Single Run 實驗，實驗結果如圖 4-6：實驗發現產生相同群數量時，Average Link 的表現遠優於近鄰傳播，

我們認為原因是這組資料用歧異度分群的效果，比用相似度分群更佳，所以 Average Link 表現較好。

圖 4-6：第三組測資，Average Link 與 AP 在產生相同群數量的表現，左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示 AL 的結果，藍線表示 AP 的結果，橫軸

表示群數量，縱軸表示數值

我們同樣將相似度矩陣中位數做倍數調整，取各倍數的平均值做為與其比較

料可能兩系列都適用。

圖 4-7：第三組測資做近鄰傳播分群，在相近參考度的分群表現，左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示相似度矩陣中位數系列的結果，藍線表示均一參考度系列的結果，橫軸表示相似度矩陣中位數的倍數調整為 2 的多少次方，

縱軸表示數值

我們對第四組資料做 Average Link 與近鄰傳播的 Single Run 實驗，實驗結果如圖 4-8：實驗發現產生相同群數量時，Average Link 的表現遠優於近鄰傳播，

我們認為原因同第三組測資，這組資料用歧異度分群的效果，比用相似度分群更佳，所以 Average Link 表現較好。

圖 4-8：第四組測資，Average Link 與 AP 在產生相同群數量的表現，左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示 AL 的結果，藍線表示 AP 的結果，橫軸

表示群數量，縱軸表示數值

我們同樣將相似度矩陣中位數做倍數調整，取各倍數的平均值做為與其比較的均一參考度值。實驗結果如圖 4-9：實驗發現倍數較高時，均一參考度表現較好，倍數較低時，均一參考度表現較差，因此我們認為這組資料在調低參考度倍數讓分群改進時，讓各串列參考度相異較好。

圖 4-9：第四組測資做近鄰傳播分群，在相近參考度的分群表現，左圖是 ARI 的表現，右圖是 NMI 的表現，紅線表示相似度矩陣中位數系列的結果，藍線表示均一參考度系列的結果，橫軸表示相似度矩陣中位數的倍數調整為 2 的多少次方，

縱軸表示數值

4.4 叢集整合(Clustering Ensemble)的 Average Link 分析

我們實驗的架構如下：

設定一個循環(cycle)的叢集整合做 20 個回合，取 10 個循環的結果平均。隨機取樣的比例分別為 1/2（179/358）、3/5（215/358）、2/3（239/358）、3/4（269/358）

和 4/5（286/358）。

1. 隨機挑選出來的串列，做 Average Link（4.5 用 Affinity Propagation）分群，

其中 Average Link 分 30 群。

2. 剩下未被取樣的串列，根據其與步驟 1 所分之群之平均距離，取最小者加入

該群中。

步驟 1~2 為一回合，重複 20 次。

3. 根據這 20 個回合的分群結果，計算任二串列 i 和 j，分至同一群的次數，建立 co-association matrix。

4. 用這個 co-association matrix，將這些串列用 Average Link 分 10~358 群。算出 ARI 和 NMI 之曲線。

步驟 1~4 為一循環，重複 10 次。

5. 取 10 個循環的 ARI 與 NMI 之曲線平均，即為實驗結果。

我們比較 Ensemble AL 和 Single Run AL 之間的表現。實驗結果如表 4-5：實驗發現只有取樣比例不超過 2/3 的 ARI 以及取樣比例 3/5 的 NMI，和 Single Run

AL 相比有進步，所以我們認為這樣的方法，在取樣比例適中時可以得到較大的進步。ARI 和 NMI 都是取樣 3/5 表現最好，1/2 與 2/3 居次，3/4 與 4/5 最差。我們認為過高的取樣比例，在叢集整合實驗架構步驟 2 的分群效果較差，所以適中的取樣比例可以達到較好的分群效果。因為 LBP 串列在 Single Run AL 表現遠不如灰階串列，因此這裡我們只與 HOG 串列進行比較，發現 HOG 串列做 Ensemble AL 的表現不如表 4-5 所列的值(同一取樣比例之間做比較)。

表 4-5：經前處理 1 的灰階串列做 Ensemble AL 的實驗結果以及與 Single Run AL

4.5 叢集整合(Clustering Ensemble)的近鄰傳播分析

一般傳統的叢集整合演算法中，是採用 Average Link 作為每一回合抽樣分群的方法，而 Single Link 和 Complete Link 被驗證應用在叢集整合的表現不如

Average Link。那麼近鄰傳播是否也能應用在人臉串列叢集整合分群？這是本文想要探討的一個重要方向。

首先比較 Ensemble AP 與 Single Run AP 之間的表現，我們將均一參考度初值與相似度矩陣中位數做倍數調整，在這裡 Ensemble AP 僅採用與 Single Run AP 相同群數量的數值，實驗結果如表 4-6 與 4-7：表 4-6 可以看出，只有取樣比例

4/5 的分群表現有比 Single Run AP 好，因為 Single Run AP 採用均一參考度，產生的群數量較少，而 Average Link 在產生群數量較少時表現較差，所以我們認為在均一參考度系列，選用較高的取樣比例會有較好的表現。表 4-7 可以看出，只有採用相似度矩陣中位數做為參考度的三個取樣比例 ARI 比 Single Run AP 好，

推測是因為該 Single Run AP 產生的群數量偏多，ARI 表現較差，若 Average Link 產生群數量稍微偏多，ARI 表現較好，所以 Ensemble AP 在這個條件下表現較好。

表 4-6：經前處理 1 的灰階串列做 Ensemble AP(均一值做為參考度)的實驗結果以

表 4-8：經前處理 1 的灰階串列以不同參考度做 Ensemble AP 的實驗結果，median(s) 表示相似度矩陣中位數，“初值＂表示均一參考度初值

取樣比例 3/5 3/4 4/5

ARI_2(median(s)) 0.271 0.242 0.236 ARI_2(median(s)/2) 0.343 0.337 0.336

ARI_2(初值) 0.350 0.339 0.339

ARI_2(初值 4 倍) 0.335 0.340 0.338 NMI_2(median(s)) 0.655 0.660 0.658 NMI_2(median(s)/2) 0.683 0.696 0.692

NMI_2(初值) 0.680 0.678 0.682

NMI_2(初值 4 倍) 0.676 0.691 0.692

最後來比較選用各種參考度的 Ensemble AP 與 Ensemble AL 的表現，實驗結果如表 4-9：實驗發現選用均一值或相似度矩陣中位數的二分之一做為參考度的

Ensemble AP，分群結果都優於 Ensemble AL，因此我們認為我們取用參考度的方法，可以讓 Ensemble AP 的表現勝過 Ensemble AL。ARI 的部分，選用均一參考度在取樣比例較高時進步較多，NMI 的部分，選用相似度矩陣中位數的二分

4.6 近鄰傳播參考度與分群結果之關係

最後我們來總結：近鄰傳播實驗中參考度值、產生的群數量以及 ARI 和 NMI 之間的相應關係。

整體的實驗結果顯示：當取用的參考度較小時，會使得可能作為群中心的資

料點較少，所以產生的群較少。當產生的群數量越接近基準的群數量時，ARI 大致呈現遞增，當產生的群數量越多，NMI 大致呈現遞增，這些現象與大多數的近鄰傳播實驗相同。

第五章結論與未來展望

在文檔中視訊人物分群方法之分析與改進 (頁 26-0)

第四章 實驗結果

4.3 Single Run 分析

4.3.1 近鄰傳播 Single Run 分析

第四章實驗結果