第三章 實驗方法
3.5 演員串列分群
本節中將先介紹兩種分群策略。接著介紹論文中所使用之分群法 (clustering method)、和兩階段分群方法之後半段程序─分類法(classification method)。最後說明各 種不同方案之選擇。
3.5.1 分群策略
除了將所有串列一併進行分群之外,我們提出兩階段分群方法,其目的在於減低 Huang 等人在[14]中所提到的側臉影像對人臉辨識(Face Recognition)可能造成的影響,
即“不同角色、相同臉部姿勢”較“相同角色、不同臉部姿勢”更為相似。首先利用第 3.2.2 節中所得臉部姿勢判定結果,將串列中的非正臉(non-frontal face)暫時移除,若移除 後串列中仍含有影像,則將此串列歸類為較佳串列。反之,若串列中不含任何影像,則
歸類於較差串列。接下來僅以較佳串列搭配保留的正臉影像進行分群(第一階段),最
較佳串列
第一階段 (分群法)
(僅使用正臉影像)
(b) 兩階段分群方法流程圖 第二階段 (分類法)
(所有臉部影像)
結果 演員串列姿勢判定
較差串列
分 群 法
(所有臉部影像)
所有演員串列
群組數
結果
(a) 所有串列一併分群流程圖
圖 3-10:分群策略流程圖 群組數
後利用串列中的所有臉部影像進行較差串列的群組分類(第二階段)。兩種分群策略之 流程如圖 3-10。
3.5.2 分群法(Clustering)
“所有串列一併進行分群”以及“兩階段分群方法的第一階段”所使用的分群法有以下 幾種:階層式分群演算法(Hierarchical Clustering Algorithm)[19]、匈牙利演算法
(Hungarian Algorithm)[20]、以及 Karypis Lab 所提供的相關性資料(relational data)
分群程式[21]。
在分群的過程中我們也將時間資訊作為參考資訊,如同[13]中所提及,兩演員串列 於時間軸上發生重疊,則兩串列必定為不同演員,在此我們將此現象稱之為碰撞
(collision),若分群過程中採用此資訊,則碰撞的演員串列永遠無法被分類於同一群組 中。第四章中我們將針對碰撞資訊的使用進行討論。
階層式分群演算法:
在此,我們採用聚合型(agglomerative)階層式分群演算法進行分群,方法如下:
當兩群組Ci與C 合併形成群組j C 時,其餘群組q Cs與新形成之群組C 的距離之更新方q
式有下列幾種,公式中d
Cm,Cn
表示群組Cm與群組Cn之相異度:Single-link:
Cq Cs
d
Ci Cs
d
Cj Cs
d , min , , , (11) 輸入相異度矩陣M 以及群數 C 。
目前群組數 C = 矩陣之維度。
while( CC )
尋找M 中的最小相異度,假設為m 。 ij
合併群組Ci與群組C ,j CC1。 更新相異度矩陣M 。
End of while
Complete-link:
分群方式如 Goldberger 等人在[20]中所提,若矩陣之第(i,j)項為構成最小成本之一個元素,
則合併群組 i 與群組 j,持續進行合併,直到群組數到達指定個數為止。由於每回合都 點切割(graph partition)程式,輸入端點間相似度(即 similarity matrix)以及群組個數 後,即可得到分群結果。此方法之優點在於執行時間非常短;而缺點則是所有端點將被
平均分配至各群組中,即數量較少的演員將會與其他演員分配至同一群組,無法獨自形 成一群。
3.5.3 分類法(Classification)
兩階段分群方法的第二階段,我們利用較差串列與各群組內較佳串列之關係,將較 差串列分類至最合適的群組中,使用的方法有以下三種:
最小距離分類(Minimum Distance Classification)
將此較差串列分類至最相似較佳串列所在群組。
K-NN(K Nearest Neighbor)
相似於一般熟悉之 K-NN,找出與受測串列最相似的 K 個較佳串列,藉由此 K 個串 列的所屬群組,決定受測串列應被分類之群組。其中,為了避免有群組元素小於 3 造成 檢測過程的缺失(假設群組Cm僅含一個較佳串列,此較佳串列同時為與受測較差串列 最相似之串列,此時若第二與第三接近的較佳串列同在群組Cn內,則受測串列將被分 類至群組Cn當中),我們用以下公式來決定 K 值:
。 (16)
Modified K-NN
我們在每個群組內皆找出 K 個最相似的較佳串列並進行相似度之加總。最終此串列 將分類至相似度總合最高的群組。K 值求算方法同公式(16)。
在分類法進行時,我們有兩種模式可供選擇,第一種,較差串列僅與上階段中分群 完成的較佳串列進行比較;第二種,將完成分類工作的較差串列也列入後續較差串列分 類工作的比較對象,稱動態分類(dynamic classification)。假設目前有 15 個較佳串列與 5 個較差串列,若採取第一種分類模式,則 5 個較差串列都只有 15 個比較對象。若採取 第二種模式(動態分類),則第 1 個較差串列有 15 個比較對象、第 2 個較差串列有 16
個比較對象(加上第 1 個較差串列)、…、第 5 個較差串列有 19 個比較對象(加上第 1~4 個較差串列)。
3.5.4 Prototype 的使用
當演員串列中的人臉影像大於一給定數量時,串列中可能存在少數幾個相對離群的 人臉影像。為防止部分離群影像對相異度求算產生影響,我們利用模糊 C 均值演算法
(Fuzzy C-menas Algorithm;FCM)找出特定個數的群聚中心,並以這些群聚中心作為 串列的代表影像。此概念僅使用於分群法過程中,因此只有下列兩種狀況發生時頇對演 員串列元素進行模糊 C 均值演算法,一個是所有串列一併進行分群策略中元素個數超過 10 的演員串列;另一個是兩階段分群方法中元素個數大於 10 的較佳串列(僅含正臉)。