第三章 研究方法
3.3 講者行為分析
講者在課堂上肢體行為會隨著講述的狀態而有改變。舉例來說,講者一開始 會將講課內容抄在黑板上,並背對學生;接著講者會開始側身針對黑板上的內容 對學生進行講解;當講解完之後,講者會放下粉筆面對學生對於剛剛的內容再講 述觀念;並且在當講者擦黑板的時候,會背對著學生擦拭。以上所有的狀態將會 隨著講述狀態改變而反覆更迭,不同的講述狀態就代表著不同的講課狀態。因此,
講述的狀態可以經由講者的姿態改變決定。因此本論文會先利用膚色偵測(skin detection)的方法,取出影像中的膚色區塊,再建立出膚色區塊的連通單元 (connected component),最後計算各連通單元的質心位置做為特徵,利用 SVM 分 類器來做講者行為的分類。
3.3.1 講者肢體擷取
在教學上課的環境下,講者的肢體變化並非非常迅速,因此本研究中針對於 影片每一秒擷取一張影像出來做分析。在做肢體擷取時,採用膚色偵測[20]的方 法從影像中擷取人體膚色的區塊,本研究中影像使用 HSV 的色彩空間,參考[20]
提供膚色在成分的範圍,先分別對色相(Hue)、飽和度(Saturation)和明度(Value)
取出滿足條件的部分再取此三者交集的區域形成遮罩,即影像中人類膚色的地 方。
12
表一、膚色範圍
3.3.2 連通單元建立
再經過膚色過濾之後,為了能擷取出肢體部分,我們需要透過連通單元
(connected component)的分析,來標示出可能為肢體的膚色區塊,連通單元是將 影像二元化後,將相鄰的區塊連結起來,在此為使用 8 連通(8-connected)的方式,
我們使用像素(pixel)為單位,若某屬於膚色的像素其緊鄰的 8 個方位中也有同屬 於膚色的像素,則視為相鄰且標示為同一區塊,反之則為不相鄰且標示為不同區 塊。由於影像中膚色區塊常會產生破碎的現象,在建立完連通單元後,我們計算 連通單元區塊內的像素個數,若小於某一門檻值(threshold)則捨棄此區塊,最後 結果如圖三。
13
圖三、連通單元: 講師背對學生寫黑板(左下)講師側身講述內容(右)講師面 對學生說話(左上)。
3.3.3 質心計算
在建構出膚色區塊的連通單元後,我們可以得知影像中包含多少個膚色區塊
(region numbers),亦及偵測出來的肢體各數,接著計算一連通的膚色區塊中所有 像素的 X 軸座標以及 Y 軸座標的平均值為此膚色區塊的質心座標。
3.3.4 講者姿態判斷
在建構出講者的肢體之後,可以觀察到講者在講述過程中的一些行為,在以 黑板授課的課堂中,老師一開始會先背對學生(將會偵測不到頭部的膚色)寫黑板,
學生可能再抄寫筆記或者等待老師寫完(還不需要理解老師正在寫的內容);老師 在講者黑板內容的過程中,會側對學生寫黑板或者手指向正在講解的地方,待講 解完畢,老師可能放下粉筆面對學生講述。
14
因此,可以整理出主要的三個姿態,背面(寫黑板或者擦黑板)、側面(側身 講解內容)、正面(講述觀念)。在背面時候,因為沒有偵測到講者的頭部膚色區 塊,只有偵測到雙手的膚色區塊,因此膚色區塊只有兩個;側面及正面時候,雖 然有偵測出講者雙手以及頭部區塊,膚色區塊皆有三個,但是側身時候講者會舉 起一隻手講解黑板內容,正面時候講者雙手位於身體兩旁,所以在側面及正面時,
區塊的相對位置會有所差異,我們利用此特性為辨識姿態的特徵。本研究設計一 二元決策樹(如圖四),先利用膚色區塊個數(region number)分類出書寫模式。
在分析出書寫模式後,側身與講述模式皆有三個區塊,但依照上段的觀察,
側身時後講者會舉起一隻手講解黑板內容,因此此區塊的質心位置會與正面講述 狀態有所差異,且由於講者可能出現在畫面的各種位置,因此我們取三個膚色區 塊中最左下角區塊的質心為新的座標原點,接著剩餘兩個膚色區塊由左而右取其 質心相對於新座標的相對 X 軸座標以及 Y 軸座標為特徵,之後再利用 SVM 分 類器將側身與講述狀態分類出來。
15
圖四、判斷講者手勢的決策樹