文獻探討 - 視訊人物分群方法之分析與改進

Everingham 和 Zisserman [1]提出自動化視覺辨認情境喜劇中腳色的方法，給定一個特定人物與一段未被標記的(unlabeled)影片，可以偵測出這個人物是否出現在這段影片內。Everingham 和 Zisserman [2]提出在影片中自動辨識人物的方法，

結合了電腦視覺(computer vision)與機器學習(machine learning)的方法來達到目的。

Hu 等[3][4]提出用 SANP(Sparse Approximated Nearest Points)來做影像集辨識(image set classification)。Turk 和 A. P. Pentland [5]提出使用 Eigenface 來做人臉辨識的方法，將人臉辨識視為二維辨識的問題，再利用臉部多為正向(upright)，

可以用二維特性曲線圖(characteristic view)描述的既定事實來分群。Liu 和 Chen [6]

提出用適應性的(adaptive)的隱馬可夫模型(HMM， Hidden Markov Models)來做視訊人臉辨識(video-based face recognition)，可以達到優於多數決(majority voting) 的表現。Chu 等[7]提出核心鑑別式轉換(KDT，kernel discriminant transformation) 來做影像集人臉辨識(image set-based face recognition)，實驗顯示其辨識表現優於現行的靜態影像人臉辨識方法(still-image-based face recognition method)與影像集人臉辨識方法。缺點是當訓練影像(training image)增加時，KDT 演算法的時間複雜度將會大幅增加。Harandi 等[8]提出將直推式學習(transductive learning)運用在影像集人臉辨識的方法，可以將影像集與單一影像的配對問題(image-set to single

image matching problem)轉換為典型相關的集合配對(set matching using canonical correlation)。

Ahonen 等[9][10]提出用局部二元特徵(LBP，Local Binary Pattern)來代表一張臉部影像(face image)，加強人臉辨識的正確率。LBP 的概念是將灰階像素用該值與周圍鄰居的相對關係來取代，例如取鄰近 8 個鄰居，則該 LBP 值為 0 至 255。

Cevikalp 和 Triggs [11]提出了使用 affine hull 或 convex hull 代表影像集(image set)，

以他們之間的幾何距離當作影像集之間的歧異度(dissimilarity)，來對影像集分群。

我們的實驗直接使用[11]的作者提供的程式。Yang 等[12]提出了使用

2DPCA(two-dimensional principal component analysis)來代表影像的方法，並比較 2DPCA 與 PCA(eigenface)，並分析前者優於後者的原因。

2.2 人臉分群(Face clustering)

Yamamoto 等[13]提出兩種以鏡頭相似度為依據的分群方法(SSC，similar shot-based clustering)，第一種方法只使用依據鏡頭相似度的分群，第二種方法增加使用縮小版臉部的分群(FTC，face thumbnail clustering)。Le 等[14]用

SIFT(scale-invariant feature transform)產生的影像特徵(image feature)進行階層人臉分群，El Khoury 等提出可用臉部與服裝綜合資訊分群的方法，先找出影片中的關鍵臉(keyface)，使用 SIFT 進行臉部匹配(face matching)，再用三維直方圖 (three dimensional histogram)與主色(dominant color)分析做服裝匹配(clothing matching)，最後結合 SIFT 特徵(feature)、膚色、三維直方圖與服裝質地(feature)

等做三階段階層分群，Zhang 等提出結合背景(context)輔助人臉分群的方法，Chu 等[17]提出結合背景資訊與局部特徵點(local feature point)輔助人臉分群的方法。

Huang 等[18]提出“相同姿勢，不同人物＂的相似度比“相同人物，不同姿勢＂

更好，所以先依據姿勢分群，再做各姿勢的人物分群。Tao 和 Tan [19]提出了當人們搜尋影片中特定腳色時，可以極有效率的臉部串列分群方法。先將臉部串列分割成相同姿勢為一組的子串列，再導入實驗所需的限制使用近鄰傳播分群，最後再用作者提出的查詢瀏覽系統達到目的，Kayal [20]將各種人臉分群方法對新聞影片的影像集進行實驗，並比較這些方法之間的優劣關係。Kayal [21]和 Zhang 等[22]提出用時間資訊輔助人臉分群的方法，Foucher 和 Gagnon [23]以及

Orfanidis 等[24]提出可將光譜分群(spectral clustering)應用於人臉分群，Czirjek 等 [25]提出人臉偵測與分群在影片索引(video indexing)方面的應用，Cui 等[26]根據人臉分群技術開發了互動式相片註記系統(interactive photo annotation system)，Li 和 Tang [27]提出可用支持向量機(SVM, support vector machine)與人臉分群的技術改進人臉辨識。

2.3 近鄰傳播(Affinity Propagation)

Frey 和 Dueck [28]率先提出近鄰傳播分群方法，指出此方法相較於其他分群方法，可以減少錯誤率，且節省 99%以上的時間。Wang 等[29]指出了近鄰傳播的兩個限制：我們很難知道怎樣的參考度(preference)可以找出最好的分群結果，

而且震動(oscillation)一旦發生就不能消除。因此提出了適應性的(adaptive)的近鄰

傳播，適度調整參考度找出最好的分群結果，與阻尼係數(damping factor)以避免震動。Lu 和 Carreira-Perpinan [30]指出了成對的限制(pairwise constraints)可區分兩個不同物體是否屬於同一群，所以透過成對的限制改善近鄰傳播分群。Givoni 和 Frey [31]提出了二維變數模型(binary variable model)簡化近鄰傳播分群，可以簡化訊息更新的推導。

2.4 叢集整合(Clustering Ensemble)

Strehl 和 Ghosh [32]提出了叢集整合的概念，藉由整合多次的分群結果以找出一個共識解(consensus solution)。叢集整合屬於強韌叢集演算法(robust

clustering)，可以提升分群結果的品質(quality of clustering)，並達到知識重用 (knowledge reuse)的好處。Topchy 等[33]指出叢集整合是結合多個分割(partition) 以找出一個最好品質的解，提出了適應性的取樣(sampling)與分群(clustering)的概念。Minaei-Bidgoli 等[34]提出藉由資料重複取樣(data resampling)來做分割整合 (ensembles of partitions)的方法，即為叢集整合的精髓。實驗發現每一組件 (component)分割的群數量與整合的分割數量之間有著權衡(tradeoff)的關係。

第三章實驗方法

在文檔中視訊人物分群方法之分析與改進 (頁 14-18)