分群限制

三、實驗方法

3.4 演員串列分群

3.4.2 分群限制

分群限制，指的是在做階層式演算法（Hierarchical Clustering Algorithm）的凝聚法

（agglomerative）時，一般是選取最接近的兩個群，在此指的是相似值最大的兩群來做合併。而根據相關研究的文章中，大部分都會使用此限制來提高分群效率與準確度，即在同一張影格中出現的兩張臉不可能為同一個人。此假設非常直觀也非常有效，在[32]

的實驗中即展示了此方法確實可提升分群結果的正確性。於是在本實驗中，在階層式演算法之凝聚法中，選取兩群時會判斷此兩群出現的時間軸之間是否有重疊，若是有重疊則將此相似值直接設為 0，在計算新合併群的相似值時也會將此值傳遞下去。也就是說，

在作凝聚法時，會利用傳遞的方式來判斷是否有重疊，可省去每次合併時都需要重新計算是否有所重疊。

第四章實驗結果

4.1 評估工具

4.1.1 Adjusted RAND index (ARI)

本實驗其中一種評估方式是 ARI[34]，是由 Hubert 等人提出的公式。而計算 ARI 所需要分別計算四種情況的不同結果，下面分別對四種情況做解釋，在此假設有ｎ個物件，

而正確分群結果為 U，實際分群結果為 V。代表在 U 中屬於群組且在 V 中屬於之元素個數，代表屬於群組之元素數量，代表屬於群組之元素數量。

●

代表在分群 U 中在同一群分割中，且在 V 中也在同一群的物件對 (pairs) 數目。

●

代表在分群 U 中分為同一群的物件對 (pairs) 數目。

●

代表在分群 V 中分為同一群的物件對 (pairs) 數目。

計算完成此四個數值後即可計算 ARI，公式如下：

(17)

ARI 的計算含意可以從四種情況中窺探出，此數值對於每一對物件對的分群結果是否保持著相同狀態較為敏感，而狀態可分為同一群和不同群兩種，此種評估工具會因最後分群的群組數而有巨大的影響。如實際上為 5 個群，而我們將它分為 3 群，則會有許多不同群的被分在同一群裡。因此，此評估工具在本實驗中以未知群組數量的方法下會比 CVC 這種取純度的評估方法還要有評量比較的意義。ARI 的數值若是 1 代表完全分群正確，數值越低代表分群結果較差，而某些極端的測詴資料也會造成負數，如每一群只有

一個物件的測詴資料。

4.1.2 Classification via Clustering (CVC)

另外有一種較為常見的評估方法是 CVC，但評估的數值並不是太有意義，因此數值所計算的是群的純度(purity)。計算的方法即是將每一個群中，挑選占比例最大的物件種類作為正確分群種類，然後將所有群組中最大的種類個數加總放在分子，分母則是所有物件個數，此數值即為 CVC。

圖 4-1 : CVC 分群評估範例。

群組一之中最多數的是○，故將群組一當作是○的群，將○的總數當作群組中被正確分類的物件數目，而群組二以及群組三分別為△和□的群組，因此這三組群組的正確分群數目是 4+5+4=13，再除以總數(6+8+5=19)就得到 CVC 的值。而 CVC 的數值就介於 0 與 1 之間，且最後的群組數量越小，CVC 值也會越小，因每兩群合併必定會使正確被分群的物件數變少，最好情況也只是相等而已，因此也可用來判斷演算法是否有出錯。

在本實驗中使用這兩種評估工具來做為判斷依據，但大部分情況下，此兩種數據不會同時上升或下降。所以我是以 ARI 作為最後分群結果的主要依據，而 CVC 可以用來觀察分群演算法是否有錯誤以及固定分群數目時的簡單評估依據。另外本實驗擷取演員串列作為分群的最小單位，因此在做評估時，會針對每一組串列去乘上它所包含的人臉數量，以便精準的算出以臉為單位的辨識率。

4.2 測詴資料介紹

本實驗中共使用了三段影片昨為測詴資料，美國影集“Friends”及“Everybody Loves

Raymond”。第一份測詴資料為“Friends”影集，經過影片切割後總共有 6520 張影格。經過人臉偵測和追蹤處理之後得到了 529 個演員串列，而所有串列包含了 4222 張偵測到的人臉(包含非人臉之錯誤偵測)。測詴資料二也是使用“Friends” 影集的其中一段，總共包含 5295 張影格，人臉追蹤處理後得到了 436 個演員串列，包含 4102 張偵測到的人臉。測詴資料三使用的是“Everybody Loves Raymond”影集，共有 6456 張影格，463 個演員串列，3765 個人臉影像。

測詴資料一的影像中，演員在整段影像中切換次數較少，演員身上的衣物也較少更換，而分鏡變換也僅有幾次，較接近一般家庭式錄像的影片，但其中有一段打美式足球的片段，大大影響人臉偵測的準確度，使得在演員串列建立時無法正確將人臉影像串接起來而被後續演算法刪除。測詴資料二的影像與第一份測詴資料不同的地方在於演員的服裝穿著，在影片中演員多次更換身上衣物，因此在分群時會將身體權重變數設為較低的值。且此影片中分鏡出現在公共場合，整段影片中被偵測出的演員共有 20 位，且其中包含了 3 位小朋友，也使得使用此測詴資料得到結果較的一種測詴資料差。測詴資料三則是較為靜態的影片，演員身上的穿著並無太大變化，但影片中演員之間的年齡相差較大，其中有一對雙胞胎小嬰兒及一對老夫婦和一對中年夫妻。因此會將演員串列中的身體權重變數設為較高的值，但目前除了使用先前提的分群限制外，尚未處理雙胞胎的問題。圖 4-2 展示了完成人臉追蹤後的演員串列以及其身體的區塊。

圖 4-2 : 演員串列以及身體區塊展示。

4.3 不同條件下的實驗比較

在此章節中，我針對不同環境下的參數做分群結果的比較，如人臉投影的方法、人

臉尺寸大小的設定、使用姿勢資訊與法等比較結果。最後再列出本實驗的最終版本，並

從表 4-1 中可以從左邊往右邊慢慢比較，最左邊兩個分別是針對 PCA 以及 2DPCA Tracks Number =529

K=30 Tracks Number =529

K=30

Agglomerate into K clusters.(2DPCA 40x40) Pose Threshold=0.4, didn’t set .

表格中的粗體字代表每一列最大的數值，K 表示最後分成多少群。從表格中清楚看見無

信的的臉部辨識結果，透過較信任的臉部辨識結果來計算新的相似度或距離。此處的重點在於 average-linked 在計算新距離時所使用的取樣數量，可以從表格中看到，若是一般的 average-linked 將全部的可用數據一起計算新的距離，(3)和(4)的結果差異不大，無法判斷何種比較優秀。但在我的實驗中，透過限制 average-linked 的取樣數量，我們選取最接近的 N 個臉部相似值重新計算新距離。透過表格數據，我們看到了令人驚訝的結果，經過上述方式處理後，不但在 CVC 有了明顯的提升，在 ARI 甚至提升了一倍之多，

從 15% 提升到 35% 左右。這也是為什麼我會採用 3.5.1 所提出的方法。

最後我希望能加上新條件來提升分群的正確性。我提出了公式(16)將每次在分群法做合併時將姿勢相似度的閾值依群的大小作提升。但在表格 4-4 之中顯示的數據僅有在 CVC 且分群數量較高時有不錯的結果，而其他的數據相較於無使用此方法的結果卻是更差，因此這方法的可行性還有待未來在深加探討，我相信透過適當的設定此姿勢相似度閾值的可以提升一定程度的分群結果。

4.3.2 臉部與身體資訊結合參數比較

接下來就是將上一階段得到的人臉相似值與身體相似值整合。如在 3.3.4 提到的方法，透過公式(11)和(12)來計算整合的數值。根據公式(11)，計算此權重值必頇要設定兩個參數，分別是和。分別代表身體資訊的權重比例與身體權重參數下降的速度。在我的實驗中設定從 0.1 到 0.9 間隔 0.1 做測詴，而從 0.1 到 10 之間做測詴。由於實驗結果數據過於繁雜，在此僅列出最佳參數選取理由的數據曲線。表 4-4 的測詴資料為測詴資料一。

表 4-5 : 測詴資料一，合併身體與臉部資訊時的權重變數設定。

折線圖分別代表 CVC(上方)與 ARI(下方)在參數改變時的變化。

圖 4-3 : 測詴資料一，縱座標為 CVC(上圖)與 ARI(下圖)在各種參數環境下的折線圖。在此處為 0.4 而橫坐標為的數值。

雖然透過圖 4-3 可以輕易地找到最佳的設定值，但與必頇事先設定好，

因此針對不同類型的影片所要設定的最佳參數就不同。如同前幾章提及的，若影片中演員的衣物穿著多次變換，則身體資訊的權重設低才可以得到較佳結果，反之若是人臉之間太過於相似，則身體權重設高則能得到較好的結果。在經過一些測詴影片的實驗後，

此兩參數並沒有絕對優異的值，非常容易因影片的內容而有大幅度的跳動。因此根據我們的三種測詴資料，也僅能大概猜測某範圍的數值，而是否有更好的技術來解決此問題，

也是個未來研究的方向。

表 4-6 : 測詴資料二，合併身體與臉部資訊時的權重變數設定。

圖 4-4 : 測詴資料二，縱座標為 CVC 與 ARI 在各種參數環境下的折線圖。在此處為 0.5 而橫坐標為的數值。

0 0.5 1

1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7

K=30 K=20 K=10

0 0.2 0.4 0.6

1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7

K=30

K=20

K=10

K=8

表 4-7 : 測詴資料三，合併身體與臉部資訊時的權重變數設定。

圖 4-5 : 測詴資料三，縱座標為 CVC 與 ARI 在各種參數環境下的折線圖。在

第五章結論與未來展望

本論文不僅是提出了完整的影像人臉註記的流程，也加上了姿勢資訊來校正角度差異過大的臉。整個完整的流程包含了人臉偵測，以膚色偵測來過濾非人臉的區塊，追蹤影片中連續出現的同一張人臉，然後經過前置處理的光線平衡與高低通濾波將影像正規化，接著才進行 2DPCA 投影，其中加上了利用 Gabor Wavelet Transform 擷取紋理的方式來辨別姿勢的相似關係，最後還使用改良的分群計算方式做階層式分群法。每一階

一開始就得到好的結果，並不一定代表此想法是錯的，或許轉個方向即可突破現狀。

另外，在同一類型的研究中都有著通病，權重的數據必頇事先設定，且沒有固定的

在文檔中根據姿勢與外貌整合的影像人臉註記 (頁 33-0)

三、 實驗方法

3.4 演員串列分群

3.4.2 分群限制

第四章 實驗結果

0 0.5 1

K=30 K=20 K=10

0 0.2 0.4 0.6

K=30

K=20

K=10

K=8

第五章 結論與未來展望

三、實驗方法

第四章實驗結果

第五章結論與未來展望