身體相似度

三、實驗方法

3.3 結合身體與臉部相似資訊

3.3.3 身體相似度

某些時候，要在影片中分辨兩個人，用衣服顏色來判斷會比用臉來的更明確。而且這常常發生在年紀相仿或是長相相似的演員們身上。在[5]的文章中就針對了各種可能的資訊實驗，透過不斷更新比重參數，最後得到了這些比重的最佳比例：頭髮、身體和臉。

而其中比重最高的即是臉與身體，但他的實驗結果顯示，如果影像的間隔越長，身體資訊的比重就逐漸趨近於零。在本小節指介紹如何計算兩身體的相似度，而權重比例的參數設定留待章節 3.4.4 再介紹。

所謂身體的相似度，其實是指演員身上所穿的衣服，也因此要判斷一位演員的衣服是否不同，用顏色的改變量是非常直覺的方式。所以在此我使用與分鏡偵測相同的方法

－直方圖。在計算之前，將欲計算的身體影像統一調整大小至臉部區域的兩倍長寬，也就是 80x80，如此一來像素的數量才會統一。而直方圖的區間大小經測詴後，32 或是 16 之間的差別不大，因此在此採用大小為 16 的區間，也就是每張圖層都有個數值，

三張圖層合併後共的向量有 48 個數值。要計算相似度之前先要計算相異距離，這裡使用的是歐式距離。得到兩身體的距離後，代入與公式(9)相同的公式(10)，即取得兩身體之間的相似值。其中是指軀體彩色直方圖之間的距離，而在本實驗中為了減少計算量而使用了亂數選取的方式來計算標準差。

， ; (10)

然而這數值將會在章節 3.4.4 與臉部資訊整合，其中權重參數的設計與實驗會在下面章節介紹。

3.3.4 身體與臉部資訊整合

在此小節裡面，會分別介紹如何計算臉部或身體的相似度，而在臉的這部分會與姿勢的相似度整合，其主要目的是改良在進行分群的時候，由於姿勢不相同而降低人臉辨識率的影響程度。簡單的說，即是在將兩張臉比較時另外計算可信賴度，在這邊指的是前一節中介紹的姿勢相似度。在姿勢不相同的情況下，往往不同的臉在相同姿勢下的相似程度會高於相同一張臉在不同姿勢下的相似度。這問題大大影響了人臉辨識的結果，

尤其在影片當中，人們的臉部表情與姿勢非常豐富，與在拍照時的固定對準鏡頭有所區別。在實驗結果的部分，分群結果之數據也顯示此方式大幅提升了分群的準確度。

根據[5]文章中的實驗結果，我們可以了解在臉、身體、頭髮之中，以人臉以及身體的色彩最為之重要。因此在我的實驗中，也加入了身體的直方圖來修正人臉之間的相似程度。如同[32]所使用的方式，軀體的部分會先以直方圖計算此身體的特徵向量，以區間大小 16 而言，可以分為 16 個區間(0~255)，也就是得到一個具有 16 個數值的向量。

計算每一對的軀體的三個色彩空間(16 x 3)，可以得到軀體之間色彩直方圖的距離，最後再利用公式 (10)得到軀體之間的色彩直方圖相似值。

在本實驗中使用與[32]相同的結合方式來將臉部與軀體的相似值做結合。如公式 (11)(12)。

(11) ; (12)

其中代表使用軀體的比重參數，反之則是代表臉部資訊的比重。而是以公式(12)來計算臉與身體比重的比例，其中的值代表此兩張臉之間的隔了多少影格數量，為此值的標準差，在此假設所有不同距離出現機率相同，使用固定比例的方式計算之，以降低計算複雜度。參數用來修正權重下降的速度，此值越大，

的影響力也就越小，權重因增加而下降的影響也就越小。若是在影片之中角色的穿著並不會有太大的改變，則此參數設高一點可以得到較佳的結果。

反之若角色在影片中多次改變穿著，或是不同角色穿著類似的衣物，則此參數設成較低的值可以得到較佳的分群結果。參數是公式(12)的整個權重比例，將原先介於 0 到 1 之間的後半部參數乘上一個百分比係數，意義是用來控制身體權重的影響程度。若

影片中的角色臉部外觀非常相似，而身穿不同的衣物，則此時將參數設高，使其在計算整合相似值時能根據較多的軀體權重來計算。所根據的觀念是，一段影片的同一個人不會在短時間內更換衣物，於是身體的部分即是很有意義的特徵，但在使用這特徵時也需要注意上面所提及的影片特性，於是除了利用間隔越遠身體資訊影響越小的方法外，還必頇根據影片的特性來選取及參數。在第四章節中會使用兩段不同特色的同一系列影片做此兩參數的比對，可以用來驗證上面所提及的說明。

3.3.5 臉部與姿勢資訊整合

有了臉與姿勢的相似值與，在這裡會利用姿勢的資訊來修正人臉辨識的誤差。參閱在臉部辨識領域的文章，可以得到利用臉部校正來提升辨識率的結果。

因此我希望能以相似姿勢的臉來辨識比較，以得到較為精確的結果。

在本實驗中所使用的判斷依據非常簡單，透過前幾章節所的到的臉部相似值以及姿勢相似值，我們根據要做比較的臉之間的姿勢相似值來判斷此辨識結果是否有足夠的價值，也就是所謂的信心值( Confidence ) 。若是兩臉間的信心值（姿勢相似值）低於我們自行設定的閾值（ Threshold ），則此兩臉的相似值就視為無效的值。在實際的程式碼中，我們僅加入了一段判斷式。

本實驗事先建立演員串列，在做分群合併時，以串列為合併之最小單位，也因此本公式主要使用在進行分群法時，針對串列與串列之間再計算相似值時所用，在串列與串列之間的相似值，僅使用姿勢在我們設定的合理範位內之數值。在此章節僅介紹如何使用姿勢來篩選臉部的相似值，而在 4.3.4 會進一步介紹不同大小群合併時所取樣數的不同，以及此閾值的改變來提升整體的辨識率。在第四章的實驗結果中也顯示了使用姿勢當作閾值與否的結果數據，可以在第四章的表格中看到使用姿勢的結果得到了很大的提升。

if ( ＜ Threshold ) 將此設為無效的值。

3.4 演員串列分群

在此小節中所要做的就是利用計算出來的相似值來將影片中的人物做分群。由於為了使用時間軸的關聯性，我們根據之前人臉追蹤所製造的演員串列來加以分群。分群時將每一個演員串列視為已經分群完成的一小群，接著做階層式演算法（Hierarchical Clustering Algorithm）時，就是每兩群之間再計算新合併群與其他群的相似值。

3.4.1 分群方法

有了臉與姿勢的相似值與，在這裡會利用姿勢的資訊來修正人臉辨識的誤差。本實驗使用的分群法為階層式演算法（Hierarchical Clustering Algorithm）

[33]，而內部的演算法也有多種選擇性，在此我選擇凝聚法（agglomerative）演算法來做為主要的方法。

在群與群合併時，階層式演算法的凝聚法即是找距離最小（相似度最高）的兩群做合併。而群與群之間的距離要如何計算又可以分為下列四種：

Single-link：

(13) Complete-link：

(14) Average-link：

(15) 及分別為群及內元素個數

其中群組是群組與的合併，而表示其餘的群。

而表示與的距離。

本實驗採用公式(15)，在廣泛的實驗數據中，一般是使用平均值可以獲得最穩定的

數據，而本實驗針對前三中方法也有做數據的比較。而姿勢相似度與臉部相似度的整合演算法如下。

姿勢的主要作用是用來篩選刪除姿勢相差過大的配對，因此在使用階層式演算法計算群之間相似度時，就能只用信賴度高的配對來計算。至於 Threshold 的值以“Friend”

影片數據而言，將其設為 0.4 是最佳的設定。

另外在階層式演算法中群之間距離的計算我也嘗詴了一些不同的方法，在計算 Average-link 時，原始的方式是將全部的數值平均，其意義是降低特例點對於整體數值的影響，但加入了閾值來過濾信賴度低的配對時，也將大部分可能發生特例的情況一起刪除，也因為這個理由，我修改了 Average-link 的定義。改變的地方在於，在計算平均值時，如果所擁有可用的數據個數大於 N 時，則只使用 N 大的相似值(用距離則為最小) 來計算平均值。而決定 N 的方法我實驗了三種不同的方式。

(1).

(2).

(3). 可用數值的個數取全部

對於這三種 N 值的設定方式，在第四章的表格會將三種方式在處理同一段影片得到的數據列出，不難看出，雖然以第三種方式較為穩定，但很明顯第二種方式得到了最佳的結果。其推測的理由是，在經過姿勢的判定後，通過閾值的臉部相似度的可信度很高，

計算群與之間的相似度

計算群中所有臉之間的相似度與姿勢相似度。 if ( ＜ Threshold )

將此設為無效的值。

用剩餘能用的數值來計算群之間的相似度。

輸出距離或是相似度。

也就是說若 N 使用了全部的數值去降低特例的影響，反倒使得正確的臉部相似值被混濁了，反而是僅僅選取少量配對的方法(1)得了最佳的結果。

另外我也針對閾值 ( Threshold ) 做了些修正，此數值會依據合併時兩個群的大小作提高的修正。理由是在計算信心值（姿勢相似值）時，如果有更多數量的臉可以使用時，希望能提高閾值 ﹙ Threshold ﹚來篩選出較正確的姿勢配對。公式如下。

) (16)

符號表示兩群之間的配對數量，以兩群數量及而言，之間的 edge 數量為。而為以影片中全部臉的數目之一定比例計算的常數值。此公式代表 Threshold 會根據群的增大從 0.4 往 1 的方向增加。此方法在部分實驗情況下可以得到不錯數據，但是並不是非常穩定，故此參數的設定可以再深加探討。

在文檔中根據姿勢與外貌整合的影像人臉註記 (頁 28-0)

三、 實驗方法

3.3 結合身體與臉部相似資訊

3.3.3 身體相似度

三、實驗方法