三、 實驗方法
3.4 演員串列分群
3.4.2 分群限制
分群限制,指的是在做階層式演算法 (Hierarchical Clustering Algorithm)的凝聚法
(agglomerative)時,一般是選取最接近的兩個群,在此指的是相似值最大的兩群來做 合併。而根據相關研究的文章中,大部分都會使用此限制來提高分群效率與準確度,即 在同一張影格中出現的兩張臉不可能為同一個人。此假設非常直觀也非常有效,在[32]
的實驗中即展示了此方法確實可提升分群結果的正確性。於是在本實驗中,在階層式演 算法之凝聚法中,選取兩群時會判斷此兩群出現的時間軸之間是否有重疊,若是有重疊 則將此相似值直接設為 0,在計算新合併群的相似值時也會將此值傳遞下去。也就是說,
在作凝聚法時,會利用傳遞的方式來判斷是否有重疊,可省去每次合併時都需要重新計 算是否有所重疊。
第四章 實驗結果
4.1 評估工具
4.1.1 Adjusted RAND index (ARI)
本實驗其中一種評估方式是 ARI[34],是由 Hubert 等人提出的公式。而計算 ARI 所 需要分別計算四種情況的不同結果,下面分別對四種情況做解釋,在此假設有n個物件,
而正確分群結果為 U,實際分群結果為 V。 代表在 U 中屬於群組 且在 V 中屬於 之元 素個數, 代表屬於群組 之元素數量, 代表屬於群組 之元素數量。
●
代表在分群 U 中在同一群分割中,且在 V 中也在同一群的物件對 (pairs) 數目。
●
代表在分群 U 中分為同一群的物件對 (pairs) 數目。
●
代表在分群 V 中分為同一群的物件對 (pairs) 數目。
計算完成此四個數值後即可計算 ARI,公式如下:
(17)
ARI 的計算含意可以從四種情況中窺探出,此數值對於每一對物件對的分群結果是否保 持著相同狀態較為敏感,而狀態可分為同一群和不同群兩種,此種評估工具會因最後分 群的群組數而有巨大的影響。如實際上為 5 個群,而我們將它分為 3 群,則會有許多不 同群的被分在同一群裡。因此,此評估工具在本實驗中以未知群組數量的方法下會比 CVC 這種取純度的評估方法還要有評量比較的意義。ARI 的數值若是 1 代表完全分群正 確,數值越低代表分群結果較差,而某些極端的測詴資料也會造成負數,如每一群只有
一個物件的測詴資料。
4.1.2 Classification via Clustering (CVC)
另外有一種較為常見的評估方法是 CVC,但評估的數值並不是太有意義,因此數 值所計算的是群的純度(purity)。計算的方法即是將每一個群中,挑選占比例最大的物件 種類作為正確分群種類,然後將所有群組中最大的種類個數加總放在分子,分母則是所 有物件個數,此數值即為 CVC。
圖 4-1 : CVC 分群評估範例。
群組一之中最多數的是○,故將群組一當作是○的群,將○的總數當作群組中被正確 分類的物件數目,而群組二以及群組三分別為△和□的群組,因此這三組群組的正確分 群數目是 4+5+4=13,再除以總數(6+8+5=19)就得到 CVC 的值。而 CVC 的數值就介於 0 與 1 之間,且最後的群組數量越小,CVC 值也會越小,因每兩群合併必定會使正確被 分群的物件數變少,最好情況也只是相等而已,因此也可用來判斷演算法是否有出錯。
在本實驗中使用這兩種評估工具來做為判斷依據,但大部分情況下,此兩種數據不 會同時上升或下降。所以我是以 ARI 作為最後分群結果的主要依據,而 CVC 可以用來 觀察分群演算法是否有錯誤以及固定分群數目時的簡單評估依據。另外本實驗擷取演員 串列作為分群的最小單位,因此在做評估時,會針對每一組串列去乘上它所包含的人臉 數量,以便精準的算出以臉為單位的辨識率。
4.2 測詴資料介紹
本實驗中共使用了三段影片昨為測詴資料,美國影集“Friends”及“Everybody Loves
Raymond”。第一份測詴資料為“Friends”影集,經過影片切割後總共有 6520 張影格。經過人 臉偵測和追蹤處理之後得到了 529 個演員串列,而所有串列包含了 4222 張偵測到的人臉(包 含非人臉之錯誤偵測)。測詴資料二也是使用“Friends” 影集的其中一段,總共包含 5295 張 影格,人臉追蹤處理後得到了 436 個演員串列,包含 4102 張偵測到的人臉。測詴資料三使 用的是“Everybody Loves Raymond”影集,共有 6456 張影格,463 個演員串列,3765 個人 臉影像。
測詴資料一的影像中,演員在整段影像中切換次數較少,演員身上的衣物也較少更 換,而分鏡變換也僅有幾次,較接近一般家庭式錄像的影片,但其中有一段打美式足球 的片段,大大影響人臉偵測的準確度,使得在演員串列建立時無法正確將人臉影像串接 起來而被後續演算法刪除。測詴資料二的影像與第一份測詴資料不同的地方在於演員的 服裝穿著,在影片中演員多次更換身上衣物,因此在分群時會將身體權重變數設為較低 的值。且此影片中分鏡出現在公共場合,整段影片中被偵測出的演員共有 20 位,且其 中包含了 3 位小朋友,也使得使用此測詴資料得到結果較的一種測詴資料差。測詴資料 三則是較為靜態的影片,演員身上的穿著並無太大變化,但影片中演員之間的年齡相差 較大,其中有一對雙胞胎小嬰兒及一對老夫婦和一對中年夫妻。因此會將演員串列中的 身體權重變數設為較高的值,但目前除了使用先前提的分群限制外,尚未處理雙胞胎的 問題。圖 4-2 展示了完成人臉追蹤後的演員串列以及其身體的區塊。
圖 4-2 : 演員串列以及身體區塊展示。
4.3 不同條件下的實驗比較
在此章節中,我針對不同環境下的參數做分群結果的比較,如人臉投影的方法、人
臉尺寸大小的設定、使用姿勢資訊與法等比較結果。最後再列出本實驗的最終版本,並
從表 4-1 中可以從左邊往右邊慢慢比較,最左邊兩個分別是針對 PCA 以及 2DPCA Tracks Number =529
K=30 Tracks Number =529
K=30
Agglomerate into K clusters.(2DPCA 40x40) Pose Threshold=0.4, didn’t set .
表格中的粗體字代表每一列最大的數值,K 表示最後分成多少群。從表格中清楚看見無
信的的臉部辨識結果,透過較信任的臉部辨識結果來計算新的相似度或距離。此處的重 點在於 average-linked 在計算新距離時所使用的取樣數量,可以從表格中看到,若是一 般的 average-linked 將全部的可用數據一起計算新的距離,(3)和(4)的結果差異不大,無 法判斷何種比較優秀。但在我的實驗中,透過限制 average-linked 的取樣數量,我們選 取最接近的 N 個臉部相似值重新計算新距離。透過表格數據,我們看到了令人驚訝的結 果,經過上述方式處理後,不但在 CVC 有了明顯的提升,在 ARI 甚至提升了一倍之多,
從 15% 提升到 35% 左右。這也是為什麼我會採用 3.5.1 所提出的方法。
最後我希望能加上新條件來提升分群的正確性。我提出了公式(16)將每次在分群法 做合併時將姿勢相似度的閾值依群的大小作提升。但在表格 4-4 之中顯示的數據僅有在 CVC 且分群數量較高時有不錯的結果,而其他的數據相較於無使用此方法的結果卻是 更差,因此這方法的可行性還有待未來在深加探討,我相信透過適當的設定此姿勢相似 度閾值的可以提升一定程度的分群結果。
4.3.2 臉部與身體資訊結合參數比較
接下來就是將上一階段得到的人臉相似值與身體相似值整合。如在 3.3.4 提到的方 法,透過公式(11)和(12)來計算整合的數值。根據公式(11),計算此權重值必頇要設定兩 個參數,分別是 和 。分別代表身體資訊的權重比例與身體權重參數下降的 速度。在我的實驗中設定 從 0.1 到 0.9 間隔 0.1 做測詴,而 從 0.1 到 10 之間 做測詴。由於實驗結果數據過於繁雜,在此僅列出最佳參數選取理由的數據曲線。表 4-4 的測詴資料為測詴資料一。
表 4-5 : 測詴資料一,合併身體與臉部資訊時的權重變數設定。
折線圖分別代表 CVC(上方)與 ARI(下方)在參數改變時的變化。
圖 4-3 : 測詴資料一,縱座標為 CVC(上圖)與 ARI(下圖)在各種參數環境下的折 線圖。 在此處為 0.4 而橫坐標為 的數值。
雖然透過圖 4-3 可以輕易地找到最佳的設定值,但 與 必頇事先設定好,
因此針對不同類型的影片所要設定的最佳參數就不同。如同前幾章提及的,若影片中演 員的衣物穿著多次變換,則身體資訊的權重設低才可以得到較佳結果,反之若是人臉之 間太過於相似,則身體權重設高則能得到較好的結果。在經過一些測詴影片的實驗後,
此兩參數並沒有絕對優異的值,非常容易因影片的內容而有大幅度的跳動。因此根據我 們的三種測詴資料,也僅能大概猜測某範圍的數值,而是否有更好的技術來解決此問題,
也是個未來研究的方向。
表 4-6 : 測詴資料二,合併身體與臉部資訊時的權重變數設定。
圖 4-4 : 測詴資料二,縱座標為 CVC 與 ARI 在各種參數環境下的折線圖。 在 此處為 0.5 而橫坐標為 的數值。
0 0.5 1
1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7
K=30 K=20 K=10
0 0.2 0.4 0.6
1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7
K=30
K=20
K=10
K=8
表 4-7 : 測詴資料三,合併身體與臉部資訊時的權重變數設定。
圖 4-5 : 測詴資料三,縱座標為 CVC 與 ARI 在各種參數環境下的折線圖。 在
第五章 結論與未來展望
本論文不僅是提出了完整的影像人臉註記的流程,也加上了姿勢資訊來校正角度 差異過大的臉。整個完整的流程包含了人臉偵測,以膚色偵測來過濾非人臉的區塊,追 蹤影片中連續出現的同一張人臉,然後經過前置處理的光線平衡與高低通濾波將影像正 規化,接著才進行 2DPCA 投影,其中加上了利用 Gabor Wavelet Transform 擷取紋理的 方式來辨別姿勢的相似關係,最後還使用改良的分群計算方式做階層式分群法。每一階
一開始就得到好的結果,並不一定代表此想法是錯的,或許轉個方向即可突破現狀。
另外,在同一類型的研究中都有著通病,權重的數據必頇事先設定,且沒有固定的
另外,在同一類型的研究中都有著通病,權重的數據必頇事先設定,且沒有固定的