講者行為分析

第三章研究方法

3.3 講者行為分析

講者在課堂上肢體行為會隨著講述的狀態而有改變。舉例來說，講者一開始會將講課內容抄在黑板上，並背對學生；接著講者會開始側身針對黑板上的內容對學生進行講解；當講解完之後，講者會放下粉筆面對學生對於剛剛的內容再講述觀念；並且在當講者擦黑板的時候，會背對著學生擦拭。以上所有的狀態將會隨著講述狀態改變而反覆更迭，不同的講述狀態就代表著不同的講課狀態。因此，

講述的狀態可以經由講者的姿態改變決定。因此本論文會先利用膚色偵測(skin detection)的方法，取出影像中的膚色區塊，再建立出膚色區塊的連通單元 (connected component)，最後計算各連通單元的質心位置做為特徵，利用 SVM 分類器來做講者行為的分類。

3.3.1 講者肢體擷取

在教學上課的環境下，講者的肢體變化並非非常迅速，因此本研究中針對於影片每一秒擷取一張影像出來做分析。在做肢體擷取時，採用膚色偵測[20]的方法從影像中擷取人體膚色的區塊，本研究中影像使用 HSV 的色彩空間，參考[20]

提供膚色在成分的範圍，先分別對色相（Hue）、飽和度（Saturation）和明度（Value）

取出滿足條件的部分再取此三者交集的區域形成遮罩，即影像中人類膚色的地方。

表一、膚色範圍

3.3.2 連通單元建立

再經過膚色過濾之後，為了能擷取出肢體部分，我們需要透過連通單元

(connected component)的分析，來標示出可能為肢體的膚色區塊，連通單元是將影像二元化後，將相鄰的區塊連結起來，在此為使用 8 連通(8-connected)的方式，

我們使用像素(pixel)為單位，若某屬於膚色的像素其緊鄰的 8 個方位中也有同屬於膚色的像素，則視為相鄰且標示為同一區塊，反之則為不相鄰且標示為不同區塊。由於影像中膚色區塊常會產生破碎的現象，在建立完連通單元後，我們計算連通單元區塊內的像素個數，若小於某一門檻值(threshold)則捨棄此區塊，最後結果如圖三。

圖三、連通單元: 講師背對學生寫黑板（左下）講師側身講述內容（右）講師面對學生說話(左上)。

3.3.3 質心計算

在建構出膚色區塊的連通單元後，我們可以得知影像中包含多少個膚色區塊

(region numbers)，亦及偵測出來的肢體各數，接著計算一連通的膚色區塊中所有像素的 X 軸座標以及 Y 軸座標的平均值為此膚色區塊的質心座標。

3.3.4 講者姿態判斷

在建構出講者的肢體之後，可以觀察到講者在講述過程中的一些行為，在以黑板授課的課堂中，老師一開始會先背對學生(將會偵測不到頭部的膚色)寫黑板，

學生可能再抄寫筆記或者等待老師寫完(還不需要理解老師正在寫的內容)；老師在講者黑板內容的過程中，會側對學生寫黑板或者手指向正在講解的地方，待講解完畢，老師可能放下粉筆面對學生講述。

因此，可以整理出主要的三個姿態，背面(寫黑板或者擦黑板)、側面(側身講解內容)、正面(講述觀念)。在背面時候，因為沒有偵測到講者的頭部膚色區塊，只有偵測到雙手的膚色區塊，因此膚色區塊只有兩個；側面及正面時候，雖然有偵測出講者雙手以及頭部區塊，膚色區塊皆有三個，但是側身時候講者會舉起一隻手講解黑板內容，正面時候講者雙手位於身體兩旁，所以在側面及正面時，

區塊的相對位置會有所差異，我們利用此特性為辨識姿態的特徵。本研究設計一二元決策樹(如圖四)，先利用膚色區塊個數(region number)分類出書寫模式。

在分析出書寫模式後，側身與講述模式皆有三個區塊，但依照上段的觀察，

側身時後講者會舉起一隻手講解黑板內容，因此此區塊的質心位置會與正面講述狀態有所差異，且由於講者可能出現在畫面的各種位置，因此我們取三個膚色區塊中最左下角區塊的質心為新的座標原點，接著剩餘兩個膚色區塊由左而右取其質心相對於新座標的相對 X 軸座標以及 Y 軸座標為特徵，之後再利用 SVM 分類器將側身與講述狀態分類出來。

圖四、判斷講者手勢的決策樹

在文檔中基於視覺和聽覺的教學影片內容分析與分類 (頁 21-25)

第三章 研究方法

3.3 講者行為分析

第三章研究方法