研究背景與目的

第一章緒論

1.1 研究背景與目的

第一章緒論

1.1 研究背景與目的

教室觀察為教育研究中一個重要的過程，其係指針對教室內外的情境脈絡、

教師的各種教學行為和方法、學生的學習情形及教材的使用等方面，進行系統化的描述、記錄、解釋、分析及預測的歷程。陳美玉(陳美玉，2012)便指出，教室觀察是教師獲得實踐知識的重要來源，也是教師用以蒐集學生資料、分析教學方法的有效性，以及瞭解教與學行為的基本途徑。

一般而言，教室觀察大致可分為兩個取向：一為「量化觀察法」：以系統的規則、紀錄方式來進行的系統觀察；另一為「質化觀察法」：結合人種誌的觀察技巧(陳美玉，1998；Croll，1986)。以研究的角度來說，量化觀察法由於其客觀程度較高，觀察者的技術門檻較低，為研究的主流。不過，在某些情況下，基於可行性以及對於問題的定義，質化觀察法有其存在之必要性，或者應搭配量化觀察法，統整兩者，以達兼顧廣度與深度的研究成果。

至於教室觀察到底應該觀察什麼，則是眾說紛紜。Borich(Borich，1994)提出八項重要規準，包括：學習氣氛、班級經營、課程清晰、教學多樣、任務取向、

學習參與、學習成效、成就表現與高層次的思考；王淑俐(王淑俐，1998)則認為國內的教室觀察項目應包含：1. 教學計畫；2. 班級管理；3. 教學呈現；4. 溝通技巧；5. 教室氣氛；6. 教學組織與策略；7. 教學評量；8. 學習環境；9. 教學改善與專業成長。實務方面，世界各地的學者和教育人員亦制定了各式的 check

此外，明尼蘇達大學也將該校制定的 classroom observation checklist 放在網頁中供師生下載，顯見教室觀察對現今的教育來說已是不可或缺。一套代碼系統(coding system)，記錄在教室中的師生口語互動情形，以分析教學行為，進而幫助教師改進教學行為。這套系統將師生互動進行抽象的分類，讓觀

人臉偵測在影像處理領域之中的研究已有相當歷史，當中也不乏穩定快速的技術，只是大部分的人臉偵測技術都無法適應任意頭部姿勢變化。原因是前述方法採用的特徵在影像上多半會受五官造成的光影分布影響，所以在各種頭部姿勢變化之下的穩定性很低。以 Haar feature 為例，此特徵主要與邊緣(edge)在人臉上的分布情況有關，而正臉與側臉的邊緣分布情況又十分不同，因此被訓練來偵測教室以及不同的照明狀況之下，膚色在各維度的 intensity 值範圍不盡然相同，若以同一個膚色範圍在不同教室中偵測，必然無法獲得穩定的正確率。

圖 1.1 以 Cr 屬於[133 173]、Cb 屬於[77 127]作為膚色範圍的失敗範例。左邊為輸入影像，右邊為膚色擷取後的結果。上排：因照明情況偏白而使的膚色偵測結

果破碎；下排：由於背景中有許多膚色物體而造成擷取範圍過大。

(資料來源：http://vision.caltech.edu) 1.2 文獻探討

本研究分成三個部分：第一是初步的前景擷取；第二是以 graph cut 演算法 強化前景擷取的結果，讓前景區域更為連續完整，並以 dynamic graph cut 增進其速度；第三是在前景區域中偵測膚色區塊，並且由多個膚色區塊中選取屬於人臉的部分。以下文獻探討也會以此順序排列之。

1.2.1 前景擷取方法

前景擷取時較直觀的想法是計算兩張連續影像之間對應位置像素的 intensity 差值(temporal difference)。由於前景物體在影像中往往是處於移動狀態，一個瞬間由背景變化為前景的像素，其 intensity 值必定會有相當程度的變動，可以藉由設定這個差值的門檻值偵測前景。假設 f 為時間_t t 的輸入影像，f_t_₁( , )i j 與 f_t( ji, )

6 值來區分前景背景。圖 1.2(b)為用 temporal difference 方法且取得適當門檻值之期望結果。而圖 1.2(c)、(d)則分別顯示其門檻值設定過高與過低之結果。進行分析，進而建立背景機率模型。比較基本的做法是以 histogram 為主的 probability model(圖 1.3)。建好所有位置的模型之後，對於每一張輸入影像，拿取每一個位置的像素與該位置的模型做比對，依此判斷該像素值應屬於前景或背

圖 1.2 Temporal difference 示意圖(a) 輸入影像(b) Temporal difference (c) thresholding too high(d) thresholding too low(Piccardi，2004)

圖 1.3 單一位置像素 intensity 值的 histogram(Piccardi，2004)

Mixture of Gaussian (以下簡稱 GMM) 的技術可以用來建立背景模型，它利用多個 Gaussian 模型 model 背景中每一個單一像點的 intensity 值，可以在規律性的背景變化(如晝夜變化) 下穩定的擷取前景。其缺點是該方法無法自動決定每一像素的最適當 Gaussian 函數個數。然而，由於其穩定且優越的結果，依然有大量的研究使用 GMM 為主的前景擷取方法(Stauffer，2000)。

(b) (b)

(a)

Elgammal et al.(Elgammal et al.，2002) 以數張單純背景的影像為基礎，在影

像中各個像素位置分別建立一個三維(即 R,G,B)的 Gaussian probability model，並以某像素屬於背景的機率值決定該像素是否屬於背景。此一技術的優點是能夠同時考慮 RGB，引進了這三個維度在機率上的相關性。若是將三個維度分別用一維建模，就只能視其為機率獨立，但這與現實狀況不太相符。不同於一維的 Gaussian distribution，多維 Gaussian distribution 的參數由原來的平均值和變異數改為平均向量



和變異矩陣



。

Elgammal et al.(Elgammal et al.，2002)假設一給定 GMM 中有 K 個 channels，

每個 channel 皆為 Gaussian distribution。第 j 個 channel 其權重為



_j，平均向量和

變異矩陣分別為



_j和



_j；若以x 代表某像素的 intensity 值，則其分布函數可表_t 所有的背景像素 intensity 值都符合 Gaussian distribution 的模型，而提出更一般的 kernel distribution 概念。此外，Elgammal 放棄前段所建立的三維模型，將三 個維度分開建模之後以相乘的方式結合。假設此模型中每個像素除存有 N 個歷

9 於光線變換的容忍程度有相當程度的提高，normalized RGB 的定義如下：

; ; ;

由這個定義來看，normalized RGB 將原來的三個特徵正規化到[0, 1]區間。因此，

對於倍數和小幅平移式的光線變換都有一定的容忍程度。

Kae and Bow(Kae and Bow

，2001)也利用三維的 Gaussian distribution 對各個位置像素的 intensity 分布情形建立模型，由於該方法不需要事先做建背景的動作，在該領域的研究中為一重大突破。他們假定單一位置的像素以背景出現的機

在背景像素的 intensity 值所佔時間比例較大的基本假設之下，以一個有效率且不致偏頗的方式去估計背景的分布。然而，該論文也提到，對於初始點為前景的像素，要收斂到完美的背景分布需要極長的時間，儘管該論文提出另一個 EM 的學

習方法來解決這一個問題，前景的分布情形依然是決定正確率的最大因素。

總而言之，單一像素的 intensity 值的背景模型建立為現今前景擷取的研究者主要的思考方向，但卻有幾個問題尚待解決： Cheng et al.(Cheng et al.，2011)，該研究使用修正後的 SVM 作為建模的方法，用 以抵抗背景隨時間的變化，並以 GPU CUDA library 平行化程式，兼顧 real-time 的效果。但第二和第三個問題，本質上並不是單點建模所能夠處理的情況。

1.2.2 Graph cut 演算法

在背景建立時，除了考慮單一位置像素不同時間的 intensity 值的垂直關係 外，若能夠將橫向的相鄰像素之關係也加以考慮，就能夠改進單點建模的缺點。

舉例來說，若某個像素的 intensity 值比較接近背景，但是其鄰近像素的 intensity 值卻比較接近前景，此時基於鄰近像素分類的一致性，將這個類似背景的像素視為前景是一個比較合理的結論。

以此概念為主的前景擷取方法也已經被提出，即 graph cut(Wu and Leahy，

1993)演算法。該演算法以像素之 intensity 值做為特徵值 e 定義 energy function。

基於最小化 energy function 的概念，可以在使用者提供某些 hard constraint (標記某些像素點為前景或背景)之後(圖 1.4)，以 max-flow min-cut 的演算法得到前景擷取的穩定結果。在圖 1.4(a)(b)中，使用者在影像上以紅色劃記一些背景像素，

以白色劃記某些前景像素之後，先以此建立機率模型，在考慮像素之間的位置關係，以取得完整的前景。

上述方法已經在單張影像中實現，在連續影像之中必然也有效果。然而，將

graph cut 技術擴展到連續影像上的主要議題有二：

一、如何用連續影像提供的自動的資訊取代單張影像所需要的手動的 hard constraint，也就是將系統由互動變為自動；

二、如何加速演算法使其能夠達到即時效果。

Ying et al. (Ying et al.，2007)先將畫面切割成許多 blocks 之後，再經由類似 graph cut 的技術於影片中擷取前景。Graph cut 的優勢在於不需要每個像素位置皆儲存一個模型，大大降低記憶體的佔有率。另外在該演算法中，顏色相近的鄰近像素之間有內聚力，會讓前景擷取結果較完整。不過，由於 graph cut 在實作上也需要用到 mixture of Gaussian 的模型，如此亦不能避免之前提及 GMM 的缺點。另外，這個技術對於背景與前景像素分布較接近的影像在理論上較無抵抗能力，而這卻是單點建模相對有優勢的地方，因為單點建模只考慮單一個像素的 intensity 值分布情形，即使整體來看背景與前景色系相近，只要在單一位置能夠清楚劃分背景與前景即可。

圖 1.4 Graph cut 前景擷取範例(a)(b)hard constraint(c)(d)前景擷取結果 1.2.3 膚色偵測

膚色偵測前須先決定一個色彩空間(color model)，並且決定膚色之 intensity

值在此色彩空間之中的分布範圍。色彩空間為一三維實數空間，用來將各種不同

(a) (b)

的彩色向量化(即將不同顏色以不同的實數向量表示)。目前已被提出並且廣泛運用於各個領域的色彩空間有十幾種，例如 HSI、HSV、YUV、YCrCb 等。

最常用的色彩空間為 RGB 三維色彩空間，其中 R 為紅色(red)、G 為綠色

13 (參考資料：http://andrewharvey4.wordpress.com)

YCrCb 色彩空間用 Y 來表示色彩的強度，以 Cr 和 Cb 表示 R 和 B 的色度。 天膚色差異，其呈現在影像中之像素的 intensity 值在 H-S 和 Cb-Crchannels 中依然維持相當的集中度。以下列舉一些相關的研究工作。

Chai and Ngan (Chai and Ngan，1999)以數十張人臉影像統計與測試的結果中觀察到膚色的最佳定義範圍為 77



127，133



173。以此膚色範圍偵測出大概的膚色區域之後，再以形態學之技術來填補缺漏並濾掉雜訊，可以得到不

14 訓練好的各群膚色中心點之 Mahalanobis distances，若存在與某群中心之距離小於一個門檻值，此像素才會被確認為膚色像素。

在文檔中以Graph cut演算法為基礎的連續影像人臉偵測系統 (頁 14-0)

第一章 緒論

1.1 研究背景與目的

第一章 緒論

Elgammal et al.(Elgammal et al.，2002) 以數張單純背景的影像為基礎，在影





Elgammal et al.(Elgammal et al.，2002)假設一給定 GMM 中有 K 個 channels，







Kae and Bow(Kae and Bow









第一章緒論

第一章緒論