2.1 視訊瀏覽(Video Browsing)
如同 Zhong 等人在[1]所採用,常見的視訊瀏覽包含場景轉換偵測(shot detection)
和場景分群(shot clustering)兩大部分。首先利用 RGB 色彩直方圖進行畫面的表示,
若相鄰兩畫面之色彩直方圖差異大於給定的數值,則兩畫面屬於不同場景,即發生場景 轉換。接著各場景中皆挑選出一色彩直方圖作為場景代表,最後藉由各場景之色彩直方 圖搭配分群演算法進行場景分群,將視訊影片當中具有類似特性之畫面或片段分配至相 同單元中,提供影片檢視之功能。為了獲得多影片資訊,Zhong 等人在[1]中提出階層性 瀏覽(hierarchical video browsing)的概念,針對各場景群組再進行更細部的分群動作,
透過多階層的場景分類,提供更多且更精確的視訊資訊。以新聞影片為例,在第一階層 中劃分為主播台、人物受訪、運動新聞、氣象報導等不同單元。接下來針對不同單元繼 續作分類,例如將主播台單元再分成雙主播螢幕、單一主播等各種播報型態,或是將人 物受訪單元進行人物的區分。
不同於上述技術,Tan 等人在[2]中提出利用圖型理論中端點切割(graph partition)
之概念進行場景的分群,每一個場景均代表一個端點(node),利用 HSV 色彩空間
(hue-saturation-value color space)之色彩直方圖進行相似度(likeness)的評估,若兩場 景具有高相似度,則以邊(edge)連結兩場景所對應之端點,最後,對此圖型進行切割 達到場景分群之結果。
除了針對畫面內容進行的瀏覽外,許多以演員為瀏覽對象的方法也被廣泛討論,將 演員出現的片段標示於時間軸上,提供使用者關於演員的演出資訊。例如 Ma 等人在[3]
中提出,針對自製影片內的演員片段進行分類,利用演員的臉部影像作為分群元素,搭 配人臉辨識技術進行分群,達到人物索引之目的。Peker 等人在[4]中同樣提出人物索引 的分法,將新聞節目以及脫口秀影片進行人物的分群,並將瀏覽單元分為單人物、雙人 物、多人物等多種以人物為主要對像的視訊瀏覽功能。
2.2 人臉偵測(Face Detection)
現存的人臉偵測演算法大多都將“膚色像素(skin color pixel)”所組成膚色區塊(skin region)作為人臉偵測的首要處理對象,再搭配不同的機制來進行人臉的偵測。Czirjek 等人在[6]提出以膚色區塊的面積、形狀、旋轉角度等資訊作為第一階段篩選之依據,接 著利用 Eigenfaces 對通過第一階段的膚色區塊進行人臉之判定。相似於[6]中所提出的判 定方法,Jin 等人在[7]提出先對膚色區塊進行眼睛偵測(eye detection),利用眼睛座標 將膚色區塊旋轉至水平的正臉,最後再與資料庫人臉進行比對計算(template matching), 決定是否為真實人臉。而 Hsu 等人在[8]中所提出:將膚色區塊分別進行眼睛偵測、嘴巴 偵測、以及橢圓偵測,利用這三個偵測結果判定膚色區塊是否為真實人臉,除此之外,
這三個偵測結果還能夠提供我們臉部姿勢(face pose)資訊。
除了上述的幾種偵測方法,Hjelmas 等人在[5]中整理了所有常見的臉部偵測方法,
主要分成特徵導向(feature-based)和影像導向(image-based)兩種方式,其中特徵導 向包含:低階分析(low-level analysis)、特徵分析(feature analysis)和有效形狀分析(active shape models)三種主要形式;而影像導向則分為:線性子空間方法(linear subspace methods)、類神經網路(neural networks)和統計方法(statistical approaches)等。
2.3 人臉辨識(Face Recognition)
在人臉辨識的工作上,由於大部分的人臉影像包含數百甚至數千個像素,以大小70
*70的影像為例,就有4900個像素,為了降低高維度所帶來的高度計算量,各種利用較 低維度向量表示人臉的方法一一被提出,Turk 等人在[9]中介紹了最為著名且常見的方 法─Eigenfaces。
除了Eigenfaces外,Kepenekci在[10]中整理了相當多進行人臉辨識的方法,例如:
FLD(Fisher’s Linear Discriminant)、LDA(Linear Discriminant Analysis)、SVD(Singular Value Decomposition)、Hidden Markov Model、Template Based Matching等多種辨識方 法,並提出Gabor Wavelet,將人臉以空間頻率(spatial frequency)、空間局部性(spatial locality)、方向選擇性和(orientation selectivity)等特徵來表示。此外LBP(Local Binary
Patterns)也是常被拿來進行臉部影像描述的工具,例如Ahonen等人在[11]即是使用此工 具來進行人臉辨識。
Zhao等人在[12]中對臉部辨識的方法進行統整,將辨識方法分類為以下三種:整體 匹配方法(holistic matching methods)、基於特徵的匹配方法(feature-based (structural) matching methods)和混合方法(hybrid methods),除了對各方法一一進行說明外,也 討論了許多相關議題,例如光影對影像的影響、影片品質的影響、以及圖片或視訊影片 來源之人臉影像等進行了探討。
2.4 人臉分群(Face Clustering)
所謂的人臉分群,即是多個臉部影像同時進行人臉辨識之行為,直覺上,我們可以 藉由上段所介紹的臉部描述方法,配合分群演算法對量化的臉部資訊進行分群,然而在 實際應用時,卻常因為臉部影像的過大變化,造成分群效果的低落,因此各種針對不同 特性之人臉影像所產生的分群方法被相繼提出。
如同[12]中所說,來自圖片與來自視訊影片之人臉是不同的,來自視訊影片之臉部 影像較來自圖片的影像有更多額外資訊可以使用。例如 Tao 等人在[13]中使用畫面相依 性及時間軸兩種資訊,藉由畫面之間的相依特性,將影片中連續出現的人臉結合成為演 員串列(Actor Sequence),接著將各串列依照臉部姿勢切割成數個子串列,最後利用“在 時間軸上重疊的串列,必屬於不同演員”以及“來自相同串列的子串列,必屬於相同演員”
兩項時間軸資訊來幫助分群工作的進行。
上段中,Tao 等人希望透過上述方式[13],解決臉部姿勢所造成的人臉分群問題,
其中最常見的情況為:“不同角色、相同臉部姿勢”較“相同角色、不同臉部姿勢”更為相 似,即多視角臉部分群(face clustering with multi-views)問題。針對此問題,Huang 等 人在[14]中提出兩階段式分群,首先依據臉部姿勢進行第一階段分群,接著針對不同臉 部姿勢的群組,分別進行一般的人臉分群演算法。面對類似問題,Ramanan 等人在[15]
中提出以頭髮、衣服等額外資訊進行輔助,避開需要複雜的臉部姿勢矯正。
[15]所提出的方法,除了可以幫助不同臉部姿勢的人臉進行分群,也可藉由資訊權
重的設定,提升人臉間的描述力,例如影集資料中,同一集內的人臉分群和不同集間的 人臉分群所使用的資訊權重是不同的,同一集中,可以大量倚重頭髮及衣服的資訊,不 同集中,衣服資訊將不被使用。Khoury 等人也在[16]提出臉部資訊搭配衣服資訊的人物 分群方法,藉由臉部影像之 SIFT(Scale Invariant Feature Transform)特徵、膚色資訊、身 體區塊的色彩直方圖和衣服主要色彩等資訊,搭配其提出的階層式分群方法進行脫口秀 節目中的人物分群。除了人物本身的資訊外,Yamamoto 等人在[17]提出場景資訊的使用,
藉由人臉所在場景特性的應用,提升人臉分群之效率。