文獻探討 - 以人臉為依據建立視訊影片中人物出現時間之索引

2.1 視訊瀏覽（Video Browsing）

如同 Zhong 等人在[1]所採用，常見的視訊瀏覽包含場景轉換偵測（shot detection）

和場景分群（shot clustering）兩大部分。首先利用 RGB 色彩直方圖進行畫面的表示，

若相鄰兩畫面之色彩直方圖差異大於給定的數值，則兩畫面屬於不同場景，即發生場景轉換。接著各場景中皆挑選出一色彩直方圖作為場景代表，最後藉由各場景之色彩直方圖搭配分群演算法進行場景分群，將視訊影片當中具有類似特性之畫面或片段分配至相同單元中，提供影片檢視之功能。為了獲得多影片資訊，Zhong 等人在[1]中提出階層性瀏覽（hierarchical video browsing）的概念，針對各場景群組再進行更細部的分群動作，

透過多階層的場景分類，提供更多且更精確的視訊資訊。以新聞影片為例，在第一階層中劃分為主播台、人物受訪、運動新聞、氣象報導等不同單元。接下來針對不同單元繼續作分類，例如將主播台單元再分成雙主播螢幕、單一主播等各種播報型態，或是將人物受訪單元進行人物的區分。

不同於上述技術，Tan 等人在[2]中提出利用圖型理論中端點切割（graph partition）

之概念進行場景的分群，每一個場景均代表一個端點（node），利用 HSV 色彩空間

（hue-saturation-value color space）之色彩直方圖進行相似度（likeness）的評估，若兩場景具有高相似度，則以邊（edge）連結兩場景所對應之端點，最後，對此圖型進行切割達到場景分群之結果。

除了針對畫面內容進行的瀏覽外，許多以演員為瀏覽對象的方法也被廣泛討論，將演員出現的片段標示於時間軸上，提供使用者關於演員的演出資訊。例如 Ma 等人在[3]

中提出，針對自製影片內的演員片段進行分類，利用演員的臉部影像作為分群元素，搭配人臉辨識技術進行分群，達到人物索引之目的。Peker 等人在[4]中同樣提出人物索引的分法，將新聞節目以及脫口秀影片進行人物的分群，並將瀏覽單元分為單人物、雙人物、多人物等多種以人物為主要對像的視訊瀏覽功能。

2.2 人臉偵測（Face Detection）

現存的人臉偵測演算法大多都將“膚色像素（skin color pixel）”所組成膚色區塊（skin region）作為人臉偵測的首要處理對象，再搭配不同的機制來進行人臉的偵測。Czirjek 等人在[6]提出以膚色區塊的面積、形狀、旋轉角度等資訊作為第一階段篩選之依據，接著利用 Eigenfaces 對通過第一階段的膚色區塊進行人臉之判定。相似於[6]中所提出的判定方法，Jin 等人在[7]提出先對膚色區塊進行眼睛偵測（eye detection），利用眼睛座標將膚色區塊旋轉至水平的正臉，最後再與資料庫人臉進行比對計算（template matching），決定是否為真實人臉。而 Hsu 等人在[8]中所提出：將膚色區塊分別進行眼睛偵測、嘴巴偵測、以及橢圓偵測，利用這三個偵測結果判定膚色區塊是否為真實人臉，除此之外，

這三個偵測結果還能夠提供我們臉部姿勢（face pose）資訊。

除了上述的幾種偵測方法，Hjelmas 等人在[5]中整理了所有常見的臉部偵測方法，

主要分成特徵導向（feature-based）和影像導向（image-based）兩種方式，其中特徵導向包含：低階分析（low-level analysis）、特徵分析（feature analysis）和有效形狀分析（active shape models）三種主要形式；而影像導向則分為：線性子空間方法（linear subspace methods）、類神經網路（neural networks）和統計方法（statistical approaches）等。

2.3 人臉辨識（Face Recognition）

在人臉辨識的工作上，由於大部分的人臉影像包含數百甚至數千個像素，以大小70

*70的影像為例，就有4900個像素，為了降低高維度所帶來的高度計算量，各種利用較低維度向量表示人臉的方法一一被提出，Turk 等人在[9]中介紹了最為著名且常見的方法─Eigenfaces。

除了Eigenfaces外，Kepenekci在[10]中整理了相當多進行人臉辨識的方法，例如：

FLD（Fisher’s Linear Discriminant）、LDA（Linear Discriminant Analysis）、SVD（Singular Value Decomposition）、Hidden Markov Model、Template Based Matching等多種辨識方法，並提出Gabor Wavelet，將人臉以空間頻率（spatial frequency）、空間局部性（spatial locality）、方向選擇性和（orientation selectivity）等特徵來表示。此外LBP（Local Binary

Patterns）也是常被拿來進行臉部影像描述的工具，例如Ahonen等人在[11]即是使用此工具來進行人臉辨識。

Zhao等人在[12]中對臉部辨識的方法進行統整，將辨識方法分類為以下三種：整體匹配方法（holistic matching methods）、基於特徵的匹配方法（feature-based (structural) matching methods）和混合方法（hybrid methods），除了對各方法一一進行說明外，也討論了許多相關議題，例如光影對影像的影響、影片品質的影響、以及圖片或視訊影片來源之人臉影像等進行了探討。

2.4 人臉分群（Face Clustering）

所謂的人臉分群，即是多個臉部影像同時進行人臉辨識之行為，直覺上，我們可以藉由上段所介紹的臉部描述方法，配合分群演算法對量化的臉部資訊進行分群，然而在實際應用時，卻常因為臉部影像的過大變化，造成分群效果的低落，因此各種針對不同特性之人臉影像所產生的分群方法被相繼提出。

如同[12]中所說，來自圖片與來自視訊影片之人臉是不同的，來自視訊影片之臉部影像較來自圖片的影像有更多額外資訊可以使用。例如 Tao 等人在[13]中使用畫面相依性及時間軸兩種資訊，藉由畫面之間的相依特性，將影片中連續出現的人臉結合成為演員串列（Actor Sequence），接著將各串列依照臉部姿勢切割成數個子串列，最後利用“在時間軸上重疊的串列，必屬於不同演員”以及“來自相同串列的子串列，必屬於相同演員”

兩項時間軸資訊來幫助分群工作的進行。

上段中，Tao 等人希望透過上述方式[13]，解決臉部姿勢所造成的人臉分群問題，

其中最常見的情況為：“不同角色、相同臉部姿勢”較“相同角色、不同臉部姿勢”更為相似，即多視角臉部分群（face clustering with multi-views）問題。針對此問題，Huang 等人在[14]中提出兩階段式分群，首先依據臉部姿勢進行第一階段分群，接著針對不同臉部姿勢的群組，分別進行一般的人臉分群演算法。面對類似問題，Ramanan 等人在[15]

中提出以頭髮、衣服等額外資訊進行輔助，避開需要複雜的臉部姿勢矯正。

[15]所提出的方法，除了可以幫助不同臉部姿勢的人臉進行分群，也可藉由資訊權

重的設定，提升人臉間的描述力，例如影集資料中，同一集內的人臉分群和不同集間的人臉分群所使用的資訊權重是不同的，同一集中，可以大量倚重頭髮及衣服的資訊，不同集中，衣服資訊將不被使用。Khoury 等人也在[16]提出臉部資訊搭配衣服資訊的人物分群方法，藉由臉部影像之 SIFT(Scale Invariant Feature Transform)特徵、膚色資訊、身體區塊的色彩直方圖和衣服主要色彩等資訊，搭配其提出的階層式分群方法進行脫口秀節目中的人物分群。除了人物本身的資訊外，Yamamoto 等人在[17]提出場景資訊的使用，

藉由人臉所在場景特性的應用，提升人臉分群之效率。

在文檔中以人臉為依據建立視訊影片中人物出現時間之索引 (頁 14-18)