第五章 實驗結果
5.3 C 之效能
首先,針對最終凝聚的群數C 來探討,我們固定領導臉的選擇方式θdyn為0、
θ 的範圍是 2~80、rg θw為0.2、θagg為兩階段強凝聚法、θrat是0.7,觀察圖 5-1 中六個影片( M1~M6 )對於群數 C 之 ARI 曲線變化。圖中可發現,M1~M4 中以 凝聚到 α (6 或 7)與 10 群的效果較 20、30 群來得好,這是由於 α 是代表每個 影片中確切的演員個數,而ARI 容易受群數影響,因此當群數接近 α 時,計算 ARI 將會有比較好的優勢,這是可以預見的,然而 M5 與 M6 從 C 為 10、20、
30 看來,合併之後的效能確實被嚴重地影響了,比原來 M1~M3 的效能矮了一截,
我認為這是因為合併影片之後把兩個影片原有的相似度打散了,串列變得更複雜 了,才連最篤定〝愈靠近 α 群效能愈好〞的趨勢也都沒有顯現;[3]作者利用前 後 11 年的影集作實驗,也提到在不同的影集當中,主角的面孔、頭髮也都會隨 著年紀不太一樣,因此我認為,如果能把時間軸拉到每一集、每一季甚至每一年 之外,就算是同一人在不同年紀所拍攝的影集,也可以調整影集之間相互參考的 權重值,以這觀點來看,或許是很有機會可以提升效能的。
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
ARI
6 7 10 20 30
C
圖5-1 M1~M6 對 C 的效能曲線
5.4
θ
rg 之效能接下來我們針對k-medoid 的範圍參數θ 來討論,下圖中是固定領導臉的選rg
擇方式θdyn為0.2、θw為0.4、θagg為強凝聚法、θrat是1.0、θc是10,產生的結 果,我們若只觀察M1~M3 的曲線可以發現,愈後面的範圍效能愈好,這是由於 在眾多的串列中,儘管是兩個相同人物的串列,也會因為臉部表情、臉部旋轉角 度、影像明亮度和背景不同而有所差異,藉由執行較大範圍的k-medoid,可得到 兩個串列間較細膩的相似度關係,因此若在θ 不知從何選起,可設定較大範圍rg 的是比較好的選擇,這個推論也和[7]文中所提到 k 值要選〝數值大以及範圍較 廣的隨機範圍〞一樣,而M4~M6 就如同 5.3 提到的,因為合併影片而降低了相 似度,因此在圖5-2 上看出趨勢。
2~10 2~20 2~40 2~80 2~160 0.8
0.7 0.6 0.5 0.4 0.3 0.2 0.1
θ
rgARI
圖5-2 M1~M6 對θ 的效能曲線 rg
5.5
θ
agg 與θ
rat 之效能在這個小節中,我們討論四種θagg以及θrat對於ARI 曲線的變化,θagg為凝 聚法的四種模式,θrat為兩階段分群中首要階段分群的比例。本文4.6.5 提到θagg 為1 與 2 分別是θagg為3 與 4 在θrat為1 的特殊案例,因此我們在比較兩階段強 凝聚法時會把θagg為1 的效能一起討論,同樣地,θagg為2 的效能也會與兩階段
弱凝聚法一起討論,圖 5-3 是我們固定θdyn為 0.3、θ 的範圍是 2~160、rg θw為 0.1、θc是 person,六個影片對於 ARI 的變化曲線,圖 5-3(a)是兩階段弱凝聚法 的比較,圖5-3(b)為兩階段強凝聚法的比較。
θ
rat 0.80.7 0.6 0.5 0.4 0.3 0.2 0.1
00.7 0.75 0.8 0.85 0.9 0.95 1.0
ARI
(a) 0.8
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
ARI
θ
rat0.7 0.75 0.8 0.85 0.9 0.95 1.0
(b)
圖5-3 M1~M6 對θagg與θrat的效能曲線 (a) 兩階段弱凝聚法,(b) 兩階段強凝聚法
(a)(b)兩圖中相同顏色的曲線代表相同的影片,首先,觀察六組左右兩個相 同顏色的曲線會發現,兩階段強凝聚法曲線的效能確實比弱凝聚法好,以 M1、
M4、M5 以及 M6 特別明顯,平均效能也能領先一成左右,而這結論從我們設計
的限制條件就可找出端倪,由於強凝聚法硬性規定兩個發生時間軸重疊的串列永 不合併,將可避免不合理的分群錯誤。
再來我們觀察使用兩階段強凝聚法的六個影片與θrat的關係,六條曲線儘管 沒有太明顯的趨勢,但是以大方向來看,θrat在 0.85 到 1.05 之間時,平均效能 比起0.7 到 0.8 之間有稍微往上的趨勢,再者,若以曲線最高的範圍來說,六條 曲線的最好效能皆落在0.85 到 1.0 之間,自己另外觀察其他參數值組合時,大略 也有此現象,然而這現象並非偶然,這是因為當初在設計θrat這個參數時,是考 量到並不是所有串列都能找到與自己很相近的另一個串列而聚集在一起,因此我 們才利用兩階段的分群法,使相似度比較高的大部分串列先分群,剩下的再依照 1NN 的方式歸類,因此θrat的選取數值也與產生的演員串列的息息相關。
假若只有極少數的串列是由非單一人物的影像所組成,就代表系統產生的演 員串列純度極高,那麼θrat就可以大膽地挑選較高的數值甚至可直接執行強凝聚 法;另外一個觀點是,θrat也跟演員串列的辨識度有關,若演員串列都有足夠的 特徵使自己被分在對的群集裡,則θrat可挑選較的數值;反之,則應從較低的數 值選起。除此之外,我們也可由較高效能的θrat值反推演員串列的品質好壞,觀 察圖5-3(b),我們發現一個現象,M1 到 M3 的最高效能的位置都在 0.9 到 1.0 之 間,而M4 和 M5 卻都在 0.9 之下,M5 的最高效能也可被θrat為0.8 所取代,M1~M3 θrat偏高而 M4~M6 的θrat較低,我們認為這是由於 M4~M6 是由多個影片合併 的測試資料,因此影像特徵間的相似度並不如 M1~M3,所以產生較多的干擾 ( outlier ) ,也把最高效能的θrat直往下拉,避免直接分群造成效能降低。由此範 例的最高θrat可以推論,此系統所產生的演員串列品質是不錯的,因為只要事先 屏除一些 ( 0%~15% ) 干擾的串列就可以使分群有不錯的效能。
5.6
θ
w之效能我們利用相似度矩陣S 執行凝聚法決定最終的分群結果,在 S 中除了一般的
依照臉部、身體影像或是輔助的條件所建構的人物相似度矩陣S 外,我們加入P 叢集整合相似度矩陣S ,想了解E S 對分群結果的幫助,而E W 為E S 的權重值,E 也代表S 的重要性,因此E W 對 ARI 的數值曲線可以幫助我們了解E S 對分群結E 果的影響。圖5-4 我們固定θdyn為0.2、θ 的範圍是 2~40、rg θagg為強凝聚法、θrat 為1.0、θc是person,觀察W 對於 ARI 曲線的變化。 E
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
00 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
θ
wARI
圖5-4 M1~M6 對θw的效能曲線
實驗中θw一共挑選11 個參數值,從 0 至 1 之間以 0.1 為間隔測試,當θw為 0,代表只以S 執行凝聚演算法;反之,若P θw為1 則代表只以S 執行凝聚演算E 法。首先,我們對六條曲線的效能走勢觀察,發現曲線從 0 出發至θw在 0.1 至 0.4 之間有明顯的提升,0.4 之後即開始走下坡,並開始小幅震盪,若以最高效能 的θw值來觀察,M1~M6 都落在 0.1~0.3 之間,這代表加入S 的最好效能確實能E 獲得提升。再者,我們觀察曲線的兩個端點,θw為0 與 1 的效能,在六條曲線
中互有領先,因此我們無法對於S 與P S 哪一項的相似度資訊較正確的問題下定E 論,但觀察整體的曲線,M1 有 1 個θw的數值比θw為 0 的效能還要高,M2 有 10 個,M3 有 10 個,M4 有 2 個,M5 有 4 個,M2 也 4 有個,整體上看來加入SE 是有機會提升效能的,而挑選的原則是以0.1~0.3 之間的θw為較好的選擇,因此,
雖然我們無法得知S 與P S 哪一項的相似度資訊較正確,但以最佳效能而言,E SP 的影響力仍為S 的三倍以上 (E θw以0.3 計算 ),若再加強S 的可靠度,效能提E 升的幅度勢必更可觀,因此在影像中處理人物分群時,我們並不能捨棄S 只用P
S ,然而E S 也會是個提升效能的重要輔助資訊,兩者能相輔相成。 E
5.7
θ
dyn之效能θdyn的值從0 到 1 之間,在 4.1 節中就提到,它直接影響了選出的領導臉以 及領導臉的個數,這個參數設置的用意,是在於〝利用較少的領導臉代表整個串 列,而能使效能保持在一定的水準,運算量卻大大降低〞,以下我們以三個方面 來討論θdyn,5.7.1 是觀察θdyn與領導臉個數的關係,5.7.2 是以時間的觀點觀察
θdyn的變化,5.7.3 則是以效能的觀點觀察θdyn。
5.7.1
θ
dyn與領導臉個數在這一小節中,我們要觀察的是θdyn與領導臉個數的關係,在相異度矩陣 ( dissimilarity matrix )中,當θdyn愈大領導臉的個數就愈少,也愈接近〝one face〞
的情況,但領導臉的個數與θdyn的數值並非是嚴格正比的關係,下圖5-5 是 M1 的串列1 在不同θdyn情況下的領導臉數量,圖中當θdyn為0 時,演員串列擁有最 多的48 個領導臉,也就是〝all face〞;當θdyn為0.9 與 1 時,演員串列僅有一個
領導臉,即為〝one face〞的情況。圖 5-5 中,當θdyn下降時領導臉個數也隨之
下降,但下降的趨勢逐漸平緩,θdyn在0.4 之後領導臉個數的變化就不大,此時 我們也應當要注意,當領導臉的個數愈來愈少時,計算量也愈小,但是分群效能 是否能維持在一定水準呢?另外還有穩定性的問題,我們將在5.7.2 來討論。
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
θ
dyn1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
圖5-5 串列對θdyn的領導臉比例曲線
5.7.2
θ
dyn與時間、效能當初在設計θdyn這個參數主要就是因為,影片會擷取許多影像,而影像的 運算也很繁瑣,因此運算量頗大,若輸入的資料是多個合併的影片時,運算量會 爆增,因此我們希望能以最簡化的運算達到不錯的效能。但若只追求運算快速,
而不顧效能也是本末倒置,因此速度以及效能之間我們想取得一個平衡點,而效
能是我們優先考慮的因素,圖5-6 是 M1~M6 對θdyn的效能曲線,圖中的六條效 能曲線的趨勢並非很一致,因此我們無法下很斬斬釘截鐵的結論,只能發現當
θdyn愈大時,曲線變動範圍很大的機率就愈大,換句話說,愈大的θdyn,穩定性 就比較不足,我們愈無法掌控效能的變化,圖5-5 中是以θdyn為0.4 為界線θdyn比 0.4 大,變動幅度較大的趨勢就慢慢浮現,而這情況又以單一影片的 M1~M3 最 為明顯,因為在M1~M3 每個資料中串列彼此的平均相似度比 M4~M6 高,一旦 我們調整θdyn的數值,直接影響領導臉的個數,計算相似度也不再如此細膩,因 此好壞落差較大,但反觀M4~M6,由於串列間的平均相似沒那麼高,改變領導 臉個數的落差就沒M1~M3 大,因此顯現比較平穩的曲線變化。
0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
θ
dynARI
圖5-6 M1~M6 對θdyn的效能曲線
擁有好的效能之後,再來是考慮運算量的問題,由於輸入的資料未知,有可
能是單一影片資料、或許是漫長的影片資料,又或者是多個影片合併的資料,不 論怎樣,它們的運算量都不容小覷,因為這是讓使用者耗費相當大時間成本的關 鍵。4.1 節提到,改變θdyn數值直接影響領導臉的個數,也間接影響運算量,因 此我們希望以效能為第一考量點之後,減少領導臉的個數以達到〝利用些微的效 能換取更多的時間成本〞為目標,實驗中以執行k-medoid 的時間最為漫長,圖
能是單一影片資料、或許是漫長的影片資料,又或者是多個影片合併的資料,不 論怎樣,它們的運算量都不容小覷,因為這是讓使用者耗費相當大時間成本的關 鍵。4.1 節提到,改變θdyn數值直接影響領導臉的個數,也間接影響運算量,因 此我們希望以效能為第一考量點之後,減少領導臉的個數以達到〝利用些微的效 能換取更多的時間成本〞為目標,實驗中以執行k-medoid 的時間最為漫長,圖