C 之效能

第五章實驗結果

5.3 C 之效能

首先，針對最終凝聚的群數C 來探討，我們固定領導臉的選擇方式θ_dyn為0、

θ 的範圍是 2~80、rg θ_w為0.2、θ_agg為兩階段強凝聚法、θ_rat是0.7，觀察圖 5-1 中六個影片( M1~M6 )對於群數 C 之 ARI 曲線變化。圖中可發現，M1~M4 中以凝聚到 α (6 或 7)與 10 群的效果較 20、30 群來得好，這是由於 α 是代表每個影片中確切的演員個數，而ARI 容易受群數影響，因此當群數接近 α 時，計算 ARI 將會有比較好的優勢，這是可以預見的，然而 M5 與 M6 從 C 為 10、20、

30 看來，合併之後的效能確實被嚴重地影響了，比原來 M1~M3 的效能矮了一截，

我認為這是因為合併影片之後把兩個影片原有的相似度打散了，串列變得更複雜了，才連最篤定〝愈靠近 α 群效能愈好〞的趨勢也都沒有顯現；[3]作者利用前後 11 年的影集作實驗，也提到在不同的影集當中，主角的面孔、頭髮也都會隨著年紀不太一樣，因此我認為，如果能把時間軸拉到每一集、每一季甚至每一年之外，就算是同一人在不同年紀所拍攝的影集，也可以調整影集之間相互參考的權重值，以這觀點來看，或許是很有機會可以提升效能的。

0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

ARI

6 7 10 20 30

C

圖5-1 M1~M6 對 C 的效能曲線

5.4

θ

_rg 之效能

接下來我們針對k-medoid 的範圍參數θ 來討論，下圖中是固定領導臉的選_rg

擇方式θ_dyn為0.2、θ_w為0.4、θ_agg為強凝聚法、θ_rat是1.0、θ_c是10，產生的結果，我們若只觀察M1~M3 的曲線可以發現，愈後面的範圍效能愈好，這是由於在眾多的串列中，儘管是兩個相同人物的串列，也會因為臉部表情、臉部旋轉角度、影像明亮度和背景不同而有所差異，藉由執行較大範圍的k-medoid，可得到兩個串列間較細膩的相似度關係，因此若在θ 不知從何選起，可設定較大範圍_rg 的是比較好的選擇，這個推論也和[7]文中所提到 k 值要選〝數值大以及範圍較廣的隨機範圍〞一樣，而M4~M6 就如同 5.3 提到的，因為合併影片而降低了相似度，因此在圖5-2 上看出趨勢。

2~10 2~20 2~40 2~80 2~160 0.8

0.7 0.6 0.5 0.4 0.3 0.2 0.1

θ

ARI

圖5-2 M1~M6 對θ 的效能曲線 _rg

5.5

θ

_agg 與

θ

_rat _之效能

在這個小節中，我們討論四種θ_agg以及θ_rat對於ARI 曲線的變化，θ_agg為凝聚法的四種模式，θ_rat為兩階段分群中首要階段分群的比例。本文4.6.5 提到θ_agg 為1 與 2 分別是θ_agg為3 與 4 在θ_rat為1 的特殊案例，因此我們在比較兩階段強凝聚法時會把θ_agg為1 的效能一起討論，同樣地，θ_agg為2 的效能也會與兩階段

弱凝聚法一起討論，圖 5-3 是我們固定θ_dyn為 0.3、θ 的範圍是 2~160、_rg θ_w為 0.1、θ_c是 person，六個影片對於 ARI 的變化曲線，圖 5-3(a)是兩階段弱凝聚法的比較，圖5-3(b)為兩階段強凝聚法的比較。

θ

rat 0.8

0.7 0.6 0.5 0.4 0.3 0.2 0.1

00.7 0.75 0.8 0.85 0.9 0.95 1.0

ARI

(a) 0.8

0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

ARI

θ

rat

0.7 0.75 0.8 0.85 0.9 0.95 1.0

(b)

圖5-3 M1~M6 對θ_agg與θ_rat的效能曲線 (a) 兩階段弱凝聚法,(b) 兩階段強凝聚法

(a)(b)兩圖中相同顏色的曲線代表相同的影片，首先，觀察六組左右兩個相同顏色的曲線會發現，兩階段強凝聚法曲線的效能確實比弱凝聚法好，以 M1、

M4、M5 以及 M6 特別明顯，平均效能也能領先一成左右，而這結論從我們設計

的限制條件就可找出端倪，由於強凝聚法硬性規定兩個發生時間軸重疊的串列永不合併，將可避免不合理的分群錯誤。

再來我們觀察使用兩階段強凝聚法的六個影片與θ_rat的關係，六條曲線儘管沒有太明顯的趨勢，但是以大方向來看，θ_rat在 0.85 到 1.05 之間時，平均效能比起0.7 到 0.8 之間有稍微往上的趨勢，再者，若以曲線最高的範圍來說，六條曲線的最好效能皆落在0.85 到 1.0 之間，自己另外觀察其他參數值組合時，大略也有此現象，然而這現象並非偶然，這是因為當初在設計θ_rat這個參數時，是考量到並不是所有串列都能找到與自己很相近的另一個串列而聚集在一起，因此我們才利用兩階段的分群法，使相似度比較高的大部分串列先分群，剩下的再依照 1NN 的方式歸類，因此θ_rat的選取數值也與產生的演員串列的息息相關。

假若只有極少數的串列是由非單一人物的影像所組成，就代表系統產生的演員串列純度極高，那麼θ_rat就可以大膽地挑選較高的數值甚至可直接執行強凝聚法；另外一個觀點是，θ_rat也跟演員串列的辨識度有關，若演員串列都有足夠的特徵使自己被分在對的群集裡，則θ_rat可挑選較的數值；反之，則應從較低的數值選起。除此之外，我們也可由較高效能的θ_rat值反推演員串列的品質好壞，觀察圖5-3(b)，我們發現一個現象，M1 到 M3 的最高效能的位置都在 0.9 到 1.0 之間，而M4 和 M5 卻都在 0.9 之下，M5 的最高效能也可被θ_rat為0.8 所取代，M1~M3 θrat偏高而 M4~M6 的θ_rat較低，我們認為這是由於 M4~M6 是由多個影片合併的測試資料，因此影像特徵間的相似度並不如 M1~M3，所以產生較多的干擾 ( outlier ) ，也把最高效能的θ_rat直往下拉，避免直接分群造成效能降低。由此範例的最高θ_rat可以推論，此系統所產生的演員串列品質是不錯的，因為只要事先屏除一些 ( 0%~15% ) 干擾的串列就可以使分群有不錯的效能。

5.6

θ

_w之效能

我們利用相似度矩陣S 執行凝聚法決定最終的分群結果，在 S 中除了一般的

依照臉部、身體影像或是輔助的條件所建構的人物相似度矩陣S 外，我們加入_P 叢集整合相似度矩陣S ，想了解_E S 對分群結果的幫助，而_E W 為_E S 的權重值，_E 也代表S 的重要性，因此_E W 對 ARI 的數值曲線可以幫助我們了解_E S 對分群結_E 果的影響。圖5-4 我們固定θ_dyn為0.2、θ 的範圍是 2~40、_rg θ_agg為強凝聚法、θ_rat 為1.0、θ_c是person，觀察W 對於 ARI 曲線的變化。 _E

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

θ

ARI

圖5-4 M1~M6 對θ_w的效能曲線

實驗中θ_w一共挑選11 個參數值，從 0 至 1 之間以 0.1 為間隔測試，當θ_w為 0，代表只以S 執行凝聚演算法；反之，若_P θ_w為1 則代表只以S 執行凝聚演算_E 法。首先，我們對六條曲線的效能走勢觀察，發現曲線從 0 出發至θ_w在 0.1 至 0.4 之間有明顯的提升，0.4 之後即開始走下坡，並開始小幅震盪，若以最高效能的θ_w值來觀察，M1~M6 都落在 0.1~0.3 之間，這代表加入S 的最好效能確實能_E 獲得提升。再者，我們觀察曲線的兩個端點，θ_w為0 與 1 的效能，在六條曲線

中互有領先，因此我們無法對於S 與_P S 哪一項的相似度資訊較正確的問題下定_E 論，但觀察整體的曲線，M1 有 1 個θ_w的數值比θ_w為 0 的效能還要高，M2 有 10 個，M3 有 10 個，M4 有 2 個，M5 有 4 個，M2 也 4 有個，整體上看來加入S_E 是有機會提升效能的，而挑選的原則是以0.1~0.3 之間的θ_w為較好的選擇，因此，

雖然我們無法得知S 與_P S 哪一項的相似度資訊較正確，但以最佳效能而言，_E S_P 的影響力仍為S 的三倍以上 (_E θ_w以0.3 計算 )，若再加強S 的可靠度，效能提_E 升的幅度勢必更可觀，因此在影像中處理人物分群時，我們並不能捨棄S 只用_P

S ，然而E S 也會是個提升效能的重要輔助資訊，兩者能相輔相成。 _E

5.7

θ

_dyn之效能

θ_dyn的值從0 到 1 之間，在 4.1 節中就提到，它直接影響了選出的領導臉以及領導臉的個數，這個參數設置的用意，是在於〝利用較少的領導臉代表整個串列，而能使效能保持在一定的水準，運算量卻大大降低〞，以下我們以三個方面來討論θ_dyn，5.7.1 是觀察θ_dyn與領導臉個數的關係，5.7.2 是以時間的觀點觀察

θdyn的變化，5.7.3 則是以效能的觀點觀察θ_dyn。

5.7.1

θ

_dyn與領導臉個數

在這一小節中，我們要觀察的是θ_dyn與領導臉個數的關係，在相異度矩陣 ( dissimilarity matrix )中，當θ_dyn愈大領導臉的個數就愈少，也愈接近〝one face〞

的情況，但領導臉的個數與θ_dyn的數值並非是嚴格正比的關係，下圖5-5 是 M1 的串列1 在不同θ_dyn情況下的領導臉數量，圖中當θ_dyn為0 時，演員串列擁有最多的48 個領導臉，也就是〝all face〞；當θ_dyn為0.9 與 1 時，演員串列僅有一個

領導臉，即為〝one face〞的情況。圖 5-5 中，當θ_dyn下降時領導臉個數也隨之

下降，但下降的趨勢逐漸平緩，θ_dyn在0.4 之後領導臉個數的變化就不大，此時我們也應當要注意，當領導臉的個數愈來愈少時，計算量也愈小，但是分群效能是否能維持在一定水準呢？另外還有穩定性的問題，我們將在5.7.2 來討論。

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

θ

dyn

1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

圖5-5 串列對θ_dyn的領導臉比例曲線

5.7.2

θ

_dyn與時間、效能

當初在設計θ_dyn這個參數主要就是因為，影片會擷取許多影像，而影像的運算也很繁瑣，因此運算量頗大，若輸入的資料是多個合併的影片時，運算量會爆增，因此我們希望能以最簡化的運算達到不錯的效能。但若只追求運算快速，

而不顧效能也是本末倒置，因此速度以及效能之間我們想取得一個平衡點，而效

能是我們優先考慮的因素，圖5-6 是 M1~M6 對θ_dyn的效能曲線，圖中的六條效能曲線的趨勢並非很一致，因此我們無法下很斬斬釘截鐵的結論，只能發現當

θdyn愈大時，曲線變動範圍很大的機率就愈大，換句話說，愈大的θ_dyn，穩定性就比較不足，我們愈無法掌控效能的變化，圖5-5 中是以θ_dyn為0.4 為界線θ_dyn比 0.4 大，變動幅度較大的趨勢就慢慢浮現，而這情況又以單一影片的 M1~M3 最為明顯，因為在M1~M3 每個資料中串列彼此的平均相似度比 M4~M6 高，一旦我們調整θ_dyn的數值，直接影響領導臉的個數，計算相似度也不再如此細膩，因此好壞落差較大，但反觀M4~M6，由於串列間的平均相似沒那麼高，改變領導臉個數的落差就沒M1~M3 大，因此顯現比較平穩的曲線變化。

0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

θ

dyn

ARI

圖5-6 M1~M6 對θ_dyn的效能曲線

擁有好的效能之後，再來是考慮運算量的問題，由於輸入的資料未知，有可

能是單一影片資料、或許是漫長的影片資料，又或者是多個影片合併的資料，不論怎樣，它們的運算量都不容小覷，因為這是讓使用者耗費相當大時間成本的關鍵。4.1 節提到，改變θ_dyn數值直接影響領導臉的個數，也間接影響運算量，因此我們希望以效能為第一考量點之後，減少領導臉的個數以達到〝利用些微的效能換取更多的時間成本〞為目標，實驗中以執行k-medoid 的時間最為漫長，圖

在文檔中影片中人物分群方法之研究 (頁 42-0)

第五章 實驗結果

5.3 C 之效能

ARI

C

θ

θ

ARI

θ

θ

θ

θ

θ

θ

ARI

θ

θ

θ

θ

θ

ARI

第五章實驗結果