基於視覺和聽覺的教學影片內容分析與分類

全文

(1)國立台灣師範大學資訊工程研究所碩士論文. 指導教授：李忠謀博士. 基於視覺和聽覺的教學影片內容分析與分類 Content-Based Lecture Videos Analysis and Classification Based on Audio and Visual Cues. 研究生：楊儒松撰. 中華民國一百零一年一月.

(2)

(3) 摘要現在大部分的教室仍使用黑板，以黑板授課的教學影片亦相當普及，但黑板授課的教學影片在多媒體語意分析的領域深具挑戰性但極少被討論。本論文針對黑板授課的教學影片，提出一個基於視覺和聽覺的研究方法，針對講者的肢體行為與語音內容進行探討，用以提醒學生在不同時段的教學影片上要投入多少的注意力。在視覺分析上，針對講者於教學中出現的各種姿態作分析，辨別出講者姿態所代表的意義；而在聽覺分析上本研究提出一個基於語音情緒辨識的模型，針對講者的語音內容將講者語音分類為快樂、生氣、厭倦、悲傷、正常等五種聲音情緒，再藉由講者語音情緒上的變化來分析講者的教學狀態。綜合視覺與聽覺的分析結果，我們可以評估出講者在教學時候各時段的重要性，同時也反映語意的強度。學習者可以根據每個時段下講者教學的重要性投注適當的注意力，讓學習者更有效率的藉由教學影片學習。. 關鍵字：教學影片分析、語音情緒辨識、肢體辨識.

(4) Abstract Most of the classrooms come with blackboards, and blackboards are widely used as a teaching prop in lecture video recordings. However, there are very few discussions about lecture video recordings that use blackboard as teaching prop concerning its multimedia semantics analysis. The article used a visual and optical based research method to explore speaker’s body languages and tone of speech in the blackboard lecture recordings, and how the amount of attention to pay in different segments of lecture recordings to enhance students’ learning. The visual analysis focused on semantics implied in speaker’s postures. The optical analysis focused on the variations of speaker’s speech emotions in his flow of teaching. The article proposed a speech emotion recognition model that divides speech emotions into five categories of happy, angry, bored, sad, and normal. The results of the analysis showed semantic intensity of the speaker and the importance of speakers teaching in different segments, and how students can learn more effectively with their variations in amount of attention according to the importance of speakers’ teaching throughout lecture video recordings.. Keywords: lecture videos analysis, speech emotion recognition, gesture recognition.

(5) 誌謝首先要感謝最敬愛的指導教授. 李忠謀老師，老師在這兩年來不管是在研究. 上的指導或者正確的做事態度都讓我有非常大的受益，謝謝老師。感謝育慈學姊兩年來某週都撥出時間對我個別指導，不但提供我許多研究方向的資源，在我遇到瓶頸時也給予我許多意見與鼓勵。感謝中山女高的林老師以及石牌國中的蔡老師，協助我拍攝教學影片並且幫助我完成實驗資料以及學生的問卷調查感謝實驗的最可愛的夥伴們；最用功但是有問題也是最熱心幫忙的小白、網球很強但是是我們吉祥物的振遠、美術設計超強有這方面需求找他就對了的阿呆、雖然去了瑞典當交換學生但是碩一時後跟我最要好的敬恩、最謙虛有禮貌但是老是趕著回家的昇龍、以及提升我們音樂素養的純劭，有你們的陪伴讓我這兩年來的碩士生活過得非常的充實。還有感謝實驗室的學弟妹們，有你們的陪伴讓我們在碩二的生活更加的多彩多姿。最後，感謝我最摯愛的家人，在背後一直默默支持我的爸媽、老三剛誕生不久的妹妹、也晉級成為爸爸的弟弟，有你們照顧著爸媽讓我可以更安心的求學。感謝所有幫助我、鼓勵我以及陪伴我的朋友們，在此已本文獻給關心我的家人與朋友。.

(6) 目錄目錄 ............................................................ I 圖目錄 ..........................................................IV 表目錄 .......................................................... V. 第一章緒論 ..................................................... 1 1.1 研究動機 ................................................... 1 1.2 研究目的 ................................................... 2 1.3 研究範圍 ................................................... 2 1.3.1 影像內容 ................................................. 3 1.3.2 聲音內容 : ............................................... 4 1.4 論文計畫書架構 ............................................. 4. 第二章文獻探討 .................................................. 6 2.1 語音情緒相關研究 ........................................... 6 2.2 黑板教學影片分析 ........................................... 7 第三章研究方法 .................................................. 8. 3.1 研究目標 ................................................... 8 3.1.1 聲音情緒探討 .............................................. 8 i.

(7) 3.1.2 講者教學行為 .............................................. 9 3.2 系統架構 ................................................... 9 3.3 講者行為分析 ...............................................11 3.3.1 講者肢體擷取 ............................................. 11 3.3.3 質心計算 ................................................ 13 3.3.4 講者姿態判斷 ............................................. 13 3.4 講者語音情緒分析 ..........................................15 3.4.1 語音前處理 ............................................... 16 3.4.2 基本語音特徵擷取 ........................................ 19 3.4.3 講者教學狀態辨識 ........................................ 23 3.5 混合架構 ...................................................24. 第四章實驗結果 ..................................................26. 4.1 講者姿態辨識效能 ...........................................26 4.1.1 實驗規畫 ................................................. 26 4.1.2 結果與分析 .............................................. 26 4.2 語音情緒辨識 ...............................................27 4.2.1 實驗計畫 ................................................. 27 4.2.2 實驗結果數據 ............................................. 28 ii.

(8) 4.3 講者語音狀態分析 ...........................................29 4.3.1 實驗規畫 ................................................ 29 4.3.2 實驗結果數據 ............................................ 29 4.3 系統結果使用者(老師、學生)比較評估 ..........................31 4.3.1 實驗規畫 ................................................. 31 4.3.2 實驗效能評估 ............................................. 32. 第五章. 結論.....................................................34. 5.1 結論 .......................................................34 5.2 實驗貢獻 ...................................................34 5.3 未來展望 ...................................................35 參考文獻 ........................................................37. iii.

(9) 圖目錄圖一、黑板教學影片 .............................................. 4 圖二、系統架構圖 ................................................10 圖三、連通單元: 講師背對學生寫黑板（左下）講師側身講述內容（右）講師面對學生說話(左上)。 ...............................................13 圖四、判斷講者手勢的決策樹 .......................................15. 圖五、多層語音分析 ...............................................16 圖六、預強調....................................................17. 圖七、語音波形與其相對的能量(ENERGY) ............................20 圖八、 ACF 之音高偵測 ............................................21. 圖九、一般頻率與 MEL 頻率的關係圖 ................................22. 圖十、講解/非講解狀態分辨 .......................................24. 圖十一、二維語音情緒關係圖 .......................................29 圖十二、講者 A 之講課狀態分析結果 .................................30. 圖十三、講者 A 之講課狀態分析結果 .................................31 圖十四、講者 A 教學影片系統結果與使用者(老師、學生)感知曲線比較 ...33 iv.

(10) 表目錄表一、膚色範圍 ...................................................12 表二、講者肢體姿態辨識率 .........................................27 表三、語音情緒辨識率 .............................................28. v.

(11) 第一章緒論 1.1 研究動機多媒體的語意分析是近幾年來許多研究人員致力研究的方向，所謂語意分析是希望能從中低階的特徵去分析多媒體中的意涵。針對影片的內容分析，我們能更有效率的找到能夠代表影片的片段，對影片作索引、搜尋和分類，目前大多應用於運動、電影、新聞、以及廣告等方面，舉例來說在多媒體影片分類的研究中 [1]利用視覺上的特徵，如 color , texture , motion 等資訊講影片分為多個片段，再針對語音訊號進行 pitch , zero-cross rate , MFCC 等特徵擷取，進行人聲的辨識，來分辨出目前場景為戶內或戶外，以及在此場景中出現了哪些人物；在運動影片的分類上[2]利用了 edge-direction histogram 和 edge intensity histogram 做為視覺特徵，藉以分辨出足球、籃球、網球、排球等球類運動影片；然而在教學影片上的分析研究是相對較少的。現今社會上教學影片輔助學習已經成為一愈來愈普遍的現象，但針對教學影片分類的語意分析較為稀少，因此我們希望能藉由一套良好的演算法，若能夠在畫面上找到所隱含的意義(如講者各種姿勢所代表的行為)，並且從聽覺內容中辨識出講者的情緒反應以及變化，進而將教學影片中的重點片段建立出索引，則可以讓使用者在觀看影片的時候，預先知道影片中哪一段落為該影片的重點片段，提醒使用者需投注更多的注意力。. 1.

(12) 1.2 研究目的本論文研究的主要目的是要建構出基於語音情緒以及講者行為的教學影片索引方法，將影片中的教學內容進行分析，建立出影片的教學重點索引，在日後學生觀看此影片複習的時候，提醒學生在哪些片段須得更加專心聆聽。除此之外，找出教學影片中的語意規則亦為本論文中的一大目的，講者的姿態會隨著講述的狀態改變，在提及重點時，是否會有特定的行為？在需要學生多用心理解的內容時，講者講解時候聲音語調是否也有特定的變化？本論文將分析以上視覺和聽覺語意訊息為目標，找到更具學生感知意義的教學影片語意規則和結構化方法。. 1.3 研究範圍本研究的影片類型鎖定於以黑板上課的教學影片，影片格式採 AVI 格式，音訊資料部分會將原本影片的雙聲道音訊轉換成單聲道，並轉換到適當的取樣率 (sample rate)再進行分析。在教學影片內容分析中需先將影片分成視覺和聽覺兩個面向去建構模型，在視覺分析上，首先必須先從教學影片中對畫面做視訊切割，區分出有意義的區塊，對於本研究計畫，主要在於講者行為特徵之擷取。在本研究中的挑戰，如光線的影響(包含室內、室外的光源變化)，遮蔽物的影響(講者、學生、講台)等，都是. 2.

(13) 極需處理的議題。在聽覺分析上，噪音(環境中的雜音、教室外的聲音、學生的交談聲)的問題就由如在視覺分析內光線亮度的影響，在一般教學環境中是很難避免掉的，些微的噪音我們可以藉由適當的濾波器將其過濾掉，但是仍須避免過多及過大的噪音出現在影片當中，這將對進行聲音上的分析造成嚴重的影響。以下分別簡述在教學影片中影像以及聲音內容於本實驗的定義與限制 : 1.3.1 影像內容在本實驗中主要是針對講者的肢體型態進行分析，因此講者姿態的辨識率為我們最關切的議題，在為了能夠獲得較高的辨識程度下，於本論文實驗中，有下述的幾點考量 : ( 1 ) 講者衣著 : 由於本實驗為利用膚色辨識來獲得講者姿態，為了能夠獲得較多的資訊，因此影片中的講者皆穿著短袖服裝，以便我們進行膚色的擷取；此外講者身上未攜帶任何配件，例如手錶、首飾等，顏色太深的粗框眼鏡也儘量避免，因為這些都會對我們實驗的結果造成一定程度的誤判。 ( 2 ) 影片拍攝 : 在本實驗所使用的教學影片，我們攝影機皆架設於教室的後方，由於黑板寬度相當大，攝影機無法完整的拍攝出整個黑板內容，因此我們會依照講者的移動. 3.

(14) 方式拍攝，因此攝影機可以水平移動，但不能拉近(zoom in)和拉遠(zoom out)，因為這會對我們進行姿態辨識時候造成一些錯誤。. 1.3.2 聲音內容 : 一般傳統上拍攝教學影片，大部分都是使用指向性麥克風，雖然可以有效的擷取到聲音訊息，但是由於攝影機架設在教室後方，與講者有一段距離，而且教室中一些環境音(電風扇或者冷氣聲)以及學生些微的講話聲都很容易對音訊品質造成影響，因此在拍攝影片時候，我們使用藍芽麥克風，由講者攜帶在身上，我們可以近距離地接收到講者的語音訊息，降低一些雜訊的干擾。. 圖一、黑板教學影片. 1.4 論文計畫書架構本論文共分五章。第二章回顧與本研究的相關文獻探討，第三章深入探討主. 4.

(15) 要研究理論與方法，第四章呈獻實驗結果，第五章為結論與未來展望。. 5.

(16) 第二章文獻探討在探討教學影片分析之技術與應用，本論文將相關文獻分成下列二大類：（1）語音情緒分析（2）黑板教學影片分析，之後比較本研究與相關文獻之技術與應用。. 2.1 語音情緒相關研究針對語音情緒去做分類，首先我們必須得先知道什麼是情緒?情緒要如何定義呢?如果我們要對情緒下定義，則是勢必會牽連到你的主觀感知，不同的主官對於情緒會有不同的解釋，若由心理學的角度來看，心理學家會將情緒定義為一種心理情感(affection)，有別於認知或意識(volitions) [3]，另外也有許多針對心理層面的理論，如 Cornelius 在文章中提及情緒心理學中四個重要的情緒[4]，在於情緒分析上一般主要分法是將情緒分為六種[5]，分別為快樂(Happiness)、悲傷(Sadness)、害怕(Fear)、噁心(Disgust)、生氣(Anger)和驚訝(Surprise)。接著繼續探討情緒特徵部分，以往在語音的情緒辨識上，主要是選擇帶有情緒資訊如聲韻(Prosody)以及能量相關的特徵，最常見的情緒特徵是音高(Pitch) 和能量(Energy)[6-8]，在辨識上主要是根據這些特徵的統計值，如平均值、標準差、最大值、最小值等特徵當作不同情緒分類的特徵。X.H. Le 等人[9] 採用梅爾倒頻譜係數( Mel-scale Frequency Cepstral Coefficients , MFCC) [10] [11]以及. 6.

(17) 線性預估參數(Linear predictor coefficient, LPC)，並透過分類方法辨識出情緒。在情緒辨識上，音高相關的特徵明顯比能量相關的特徵更能分辨出不同的情緒種類。而在辨識分類方法上，大部分則採用包括類神經網路[8]、隱藏式馬可夫模型(Hidden MarkovModel, HMM)[6]、高斯混合模型(GaussianMixture Model, GMM)[8][9]等方法。. 2.2 黑板教學影片分析在一般教學影片的分析研究上，還有針對於投影片教學的研究[12]-[18]，比較以黑板授課的影片和以上類別，在投影片影片中，由於投影片布幕所在的位置都是固定的，因此講者的移動範圍甚至在特定位置講者都會出現固定的手勢，所以移動的變化少，以及可能可以單純根據講者所在位置，便可進行行為之判斷。而黑板上課類型的影片，為了著重於拍攝講者所使用的黑板區域範圍，攝影機無法捕捉到整個黑板畫面，因此講者可能出現在畫面的各個地方，且也較無在特位置出現固定手勢的情形。. 7.

(18) 第三章研究方法本章共分五個小節，3.1 節說明本研究之研究目標，3.2 節為本研究系統架構， 3.3 節為講者行為分析，3.4 節的基本語音特徵擷取， 3.5 節為混合 3.3 節與 3.4 節結果的混合架構（Fusion Scheme），會建構出一個講者教學注意力的模型。. 3.1 研究目標本研究將就：（1）聲音情緒探討（2）講者教學行為的角度，闡述問題所在與應用價值： 3.1.1 聲音情緒探討每位講者在教學的過程中，都會有屬於自己的教學模式與風格，在整個教學過程中，我們希望能夠找出講者語音與其教學模式上的關連性，譬如 : 當講者在講解時候，其語音有何種特性；當講者在非講解時候，其語音又有何種特性。然而講解與非講解這種的特性特徵是屬於比較高階層的特徵，很難從語音內容中直接把這些特徵找出來。因此，我們希望能夠從語音情緒這方面著手，去分析出講者在講課時候中其語音情緒的變化，然後觀察講者在講解一些重要內容時候以及非講解時候，其語音情緒的變化，藉此來研究講者在兩狀態下是否有其差異性。在本論文研究中我們設計了一個多層(multilayer)的情緒分析模型，先藉由低. 8.

(19) 階的語音特徵，辨識出其聲音情緒，再藉由聲音情緒之排列變化情形，我們再去辨認出較高階的聲音特性(講解或者閒聊)，然後又基於每個講者在講解和閒聊時候其情緒的排序和變化並非相同，因此我們會再先預錄一段講者在講解以及閒聊的時候語音片段，分析出每個講者在兩種情況下的情緒變化情形，藉此來當我們訓練時候的依據。. 3.1.2 講者教學行為再以黑板以教學的教學影片中，講者常利用黑板將一些重要訊息寫出來，並在加以推導和闡釋，因此我們可藉由觀察講者在教學時候的身體姿勢，來判別出講者身體姿勢與教學上的關連性。. 3.2 系統架構本論文之系統架構，主要是輸入一影像序列（即影片）後分為：視訊分析、音訊分析兩大主軸。一、視訊分析：偵測出講者肢體，並做肢體擷取，然後從擷取出來的肢體當中萃取出我們所需要的特徵，最後經由一 SVM-Based [19]分類講者講述狀態的決策樹作講者行為分析。. 9.

(20) 二，音訊分析：首先先將講者音訊內容做斷句處理，接著擷取出基本特徵，然後利用 HMM 分類法對斷句進行語音情緒分辨，最後將連續斷句所代表的語音情緒利用一 SVM-Based 分類器進行講者闡述內容重要性的分析。. 下圖為整體研究的架構圖:. 圖二、系統架構圖. 10.

(21) 3.3 講者行為分析講者在課堂上肢體行為會隨著講述的狀態而有改變。舉例來說，講者一開始會將講課內容抄在黑板上，並背對學生；接著講者會開始側身針對黑板上的內容對學生進行講解；當講解完之後，講者會放下粉筆面對學生對於剛剛的內容再講述觀念；並且在當講者擦黑板的時候，會背對著學生擦拭。以上所有的狀態將會隨著講述狀態改變而反覆更迭，不同的講述狀態就代表著不同的講課狀態。因此，講述的狀態可以經由講者的姿態改變決定。因此本論文會先利用膚色偵測(skin detection)的方法，取出影像中的膚色區塊，再建立出膚色區塊的連通單元 (connected component)，最後計算各連通單元的質心位置做為特徵，利用 SVM 分類器來做講者行為的分類。. 3.3.1 講者肢體擷取在教學上課的環境下，講者的肢體變化並非非常迅速，因此本研究中針對於影片每一秒擷取一張影像出來做分析。在做肢體擷取時，採用膚色偵測[20]的方法從影像中擷取人體膚色的區塊，本研究中影像使用 HSV 的色彩空間，參考[20] 提供膚色在成分的範圍，先分別對色相（Hue）、飽和度（Saturation）和明度（Value）取出滿足條件的部分再取此三者交集的區域形成遮罩，即影像中人類膚色的地方。. 11.

(22) 表一、膚色範圍. 3.3.2 連通單元建立再經過膚色過濾之後，為了能擷取出肢體部分，我們需要透過連通單元 (connected component)的分析，來標示出可能為肢體的膚色區塊，連通單元是將影像二元化後，將相鄰的區塊連結起來，在此為使用 8 連通(8-connected)的方式，我們使用像素(pixel)為單位，若某屬於膚色的像素其緊鄰的 8 個方位中也有同屬於膚色的像素，則視為相鄰且標示為同一區塊，反之則為不相鄰且標示為不同區塊。由於影像中膚色區塊常會產生破碎的現象，在建立完連通單元後，我們計算連通單元區塊內的像素個數，若小於某一門檻值(threshold)則捨棄此區塊，最後結果如圖三。. 12.

(23) 圖三、連通單元: 講師背對學生寫黑板（左下）講師側身講述內容（右）講師面對學生說話(左上)。. 3.3.3 質心計算在建構出膚色區塊的連通單元後，我們可以得知影像中包含多少個膚色區塊 (region numbers)，亦及偵測出來的肢體各數，接著計算一連通的膚色區塊中所有像素的 X 軸座標以及 Y 軸座標的平均值為此膚色區塊的質心座標。. 3.3.4 講者姿態判斷在建構出講者的肢體之後，可以觀察到講者在講述過程中的一些行為，在以黑板授課的課堂中，老師一開始會先背對學生(將會偵測不到頭部的膚色)寫黑板，學生可能再抄寫筆記或者等待老師寫完(還不需要理解老師正在寫的內容)；老師在講者黑板內容的過程中，會側對學生寫黑板或者手指向正在講解的地方，待講解完畢，老師可能放下粉筆面對學生講述。. 13.

(24) 因此，可以整理出主要的三個姿態，背面(寫黑板或者擦黑板)、側面(側身講解內容)、正面(講述觀念)。在背面時候，因為沒有偵測到講者的頭部膚色區塊，只有偵測到雙手的膚色區塊，因此膚色區塊只有兩個；側面及正面時候，雖然有偵測出講者雙手以及頭部區塊，膚色區塊皆有三個，但是側身時候講者會舉起一隻手講解黑板內容，正面時候講者雙手位於身體兩旁，所以在側面及正面時，區塊的相對位置會有所差異，我們利用此特性為辨識姿態的特徵。本研究設計一二元決策樹(如圖四)，先利用膚色區塊個數(region number)分類出書寫模式。在分析出書寫模式後，側身與講述模式皆有三個區塊，但依照上段的觀察，側身時後講者會舉起一隻手講解黑板內容，因此此區塊的質心位置會與正面講述狀態有所差異，且由於講者可能出現在畫面的各種位置，因此我們取三個膚色區塊中最左下角區塊的質心為新的座標原點，接著剩餘兩個膚色區塊由左而右取其質心相對於新座標的相對 X 軸座標以及 Y 軸座標為特徵，之後再利用 SVM 分類器將側身與講述狀態分類出來。. 14.

(25) 圖四、判斷講者手勢的決策樹. 3.4. 講者語音情緒分析講師在課堂上可能未能從頭到尾都在進行教學講解，也許會添加一些與上課. 內容較無關係的話題，但是這些無法從影像畫面中得知，因此講者語音內容上的分析，便是一個重點。但是由於從語音中萃取出來的一些低階的語音特徵，很難拿來辨識講者為教學狀態或者非教學狀態這類較高深語意上的分類，所以本研究利用語音情緒的分析，設計一多層的情緒分析模型，先將擷取出來的低階特徵，利用 HMM 分類器將每一斷句分辨出其語音情緒，接著再由分類出的語音情緒再透過 SVM 分類器分辨出此段語音代表著講者是處於講解重點內容或者非講解的閒聊狀態。. 15.

(26) 然而在進行特徵擷取之前，語音訊號仍先得經過一些前處理，整個語音實驗流程如圖五，會在之後各小節做更詳盡的解說。. 圖五、多層語音分析. 3.4.1 語音前處理再針對語音做特徵分析擷取特徵參數之前，必須針對語音先進行前處理過程，在前處理過程中，我們會將聲音訊號進行預強調(pre-emphasis)、音框切割 (frame blocking)、視窗化(windowing)[21]，和語音分段。一、. 預強調: 預強調指的是將聲音被壓抑的高頻部分補償回去，主因是人類在聲帶振動發. 出聲音時候，再經由嘴唇端傳送出去，其聲音中高頻成分會被壓抑，直到人耳時候，人耳會再將被壓抑的高頻轉換回去，因此在做語音處理時候，我們必須先設. 16.

(27) 計一個高通濾波器，將被壓抑的高頻部分補償回去，讓音訊與人耳接收後的一致。將語音訊號 s(n)通過一個高通濾波器 H(z): =1-a*. …………………………………(3-1). 語音訊號通過此高通濾波器之後，會得到預強調後的語音訊號 X(n): X(n)=s(n)-α. ……………………………(3-2). α 為 0.9~1.0 之間的值，在這邊我們取 α 值為 0.95。. 圖六、預強調. 17.

(28) 二、. 音框切割: 在音框大小考量上面必須注意到下面兩點: 一個音框內至少要包含一個完整的聲波週期以上. 1.. 2. 為了能夠在之後做快速傅立葉轉換，因此每個音框內的取樣點個數要為 2 的整數次方數。在原始聲音中，聲音是連續的訊號，因此聲音中的特徵是尋尋相關的，為了避免轉成離散時間後，音框前後之間變異性太大，因此我們會讓前後的音框有部分的重疊，這樣才比較能看出語音特徵改變的延續性。因此在本研究中我們每個音框大小為 512 個取樣點，重疊大小為一半的音框，即 256 個取樣點。三、. 視窗化:. 做完音框切割之後，但由於我們一開始切割音框的時候，是用固定時間為單位進行切割無法控制音框內皆有完整的週期數目，這樣會造成音框兩邊的訊號不連續，這在聽覺是會產生額外的響音，語音頻域上的頻譜也會被破壞，因此我們將原本的音框乘上漢明窗(Hamming windowing)，漢明窗可以使音框內的訊號，兩邊緩慢減小，在邊界上較不造成明顯的不連續現象。四、. 語音分段. 因為語音情緒分析時候，是以每一句斷句為單位，因此再進行前三項前處理後，必須先做斷句擷取以及斷句分段的工作。斷句擷取是指針對語音部分先進型. 18.

(29) 音量偵測(音量偵測方法請見下一節)，透過適當的音量門檻值分辨出連續的語音以及靜音(silence)，再藉由兩個靜音長度的門檻值 s1 和 s2 ，其中 s1  s2 ， s1 為斷句的分類門檻值，小於此值的為同一斷句； s2 為分段的門檻值，小於此值的維同一段語音，亦及一段語音為由數個斷句所構成，斷句之間如果停頓過久則視為不同段。. 3.4.2 基本語音特徵擷取在上一節中我們介紹了基本語音訊號處理過程，接著我們便要由已處理好的語音資料中進行特徵的擷取，在本論文中，我們利用音量(energy)、音高(pitch)、以及梅爾倒頻譜係數(Mel-frequency cepstral coefficients)來當作我們實驗用的特徵向量。一、音量偵測在語音特徵中，聲音強度的變化是相當重要的訊息，聲音強度與波形振幅有關，振幅越大音強(intensity)越大，在固定音框長度情況下，計算音框能量可以表示為： …………………………(3-3) 由於人耳對音強的感知並非線性，而是接近於對數的曲線，將能量以對數方式表示，其計算式如下所示：. 19.

(30) …………………………(3-4) ( 表示第幾個音框) 下圖為一語音訊號以及其能量曲線。. 圖七、語音波形與其相對的能量(energy) 二、. 音高偵測. 音高代表聲音頻率的高低，亦及聲音週期的倒數，本研究採用自相關函數 (Auto-correction function)的方法來作音高的計算。其方法說明如下，首先將音框右移，然後將右移之後新的音框與原先的音框重疊部分做內積，因為一個音框內包含著數個週期，在右移恰好一個週期的取樣點後，會產生一個內積的局部最大值(local maximum)，因此便可知道週期長度為何，再取其倒數即為音高。圖八為經過自相關函數計算之結果，圖八取第一點除外之最大值對應之頻率值即為音高。. 20.

(31) 圖八、 ACF 之音高偵測. 三、梅爾倒頻譜係數對於一個音框的訊號 x(n)，n=0,1,2,…,N-1，經過傅立葉轉換，轉換到頻域上。 ……………………………(3-5) 其逆轉換為 …………………………(3-6) 其中. 為一個複數，可以分成絕對值(magnitude)跟相位(phase)兩個部分，. 如果將絕對值取平方變成. ，然後再對此繪圖，就會得到能量頻譜(energy. 21.

(32) spectrum)。接著我們要設計一組 20 個頻帶的 Mel-frequency 的帶通濾波器，這 20 個三角帶通濾波器在「梅爾頻率」（Mel Frequency）上是平均分佈的，而梅爾頻率和一般頻率 f 的關係式如下： Mel(f)=2595*log10(1+f/700). ……………………(3-7). 圖九、一般頻率與 Mel 頻率的關係圖. 使用三角帶通濾波器有的主要目的為對頻譜進行平滑化，並消除諧波的作用，突顯原先語音的共振峰（因此一段語音的音調或音高，是不會呈現在 MFCC 參數內，換句話說，以 MFCC 為特徵的語音辨識系統，並不會受到輸入語音的音調不同而有所影響）。將能量頻譜的上個頻率的能量乘以這組三角型濾波器，然後累加起來，就是. 22.

(33) 通過這個濾波器的能量，會得到 20 個能量值，接著取其對數值，再進行離散餘弦轉換(DCT)，便可得到一組 20 個參數的梅爾倒頻譜係數(MFCC)。最後，取音量和音高的最大值、最小值、平均值與變異數，以及梅爾倒頻譜係數的前 13 維係數當特徵向量，並藉由 HMM-Based 分類器將斷句做語音情緒分類。. 3.4.3 講者教學狀態辨識將經過分段之後的語音進行情緒分類之後，我們會得到一連續語音的情緒序列，seqi  ( Emoi1 , Emoi 2 ........Emoin )，i 代表第幾段的語音，n 為此段語音的個數，. Emoin  {Happy, Angry, Sadness, Boredom, Normal} 為此斷句所對應的語音情緒。接著選取長度為 x 的情緒子序列做為特徵向量，藉由 SVM-Based 分類器進行講者闡述語音狀態的分析(如圖十所示)。在實驗時因為每位講者在講解以及非講解時候語音情緒的內容皆不相同，因此需得請講者對於其影片內容進行講述重點以及非講述重點時段的切割，來做為我們訓練分類時候的依據。. 23.

(34) 圖十、講解/非講解狀態分辨. 3.5 混合架構在偵測完講者肢體辨識與講者語音狀態(教學與非教學狀態)之後，我們必須設計一個混合架構來綜合兩者，並給兩者各一個適當的權重值。在本實驗中的混合架構中，講者肢體以及講者語音狀態的權重值是利用使用者的回饋去訓練，我們邀請一個班級 32 位同學當詴驗者，同學在觀看教學影片時候，並針對講者肢體以及語音部分進行評分，隔數天之後，再邀請他們進行一次評分，在觀看同一影片之後，會更了解影片中重點部分的所在。經由測詴同學的詴驗之後，會根據其投票的結果定義出講者的三種肢體姿態，以及兩種語音狀態的權重值，並藉由評分的結果，分析出講者肢體姿態和語音狀態在混合時候各自的權重值。我們定義這個混和架構為: 24.

(35) f (t )   tV (t )   t A(t ) ,.     t 1   (V ) ,.     t 1   ( A) ,  t    /(     ). ,.  t    /(     ). ,. V (t ) . A(t ) . ……………………………………(3-8). 0.8, if it' s narrate state in time t, 0.6, if it' s speaking state in time t, 0.1, if it' s writting state in time t,. 0.9 , if it’s teaching state in time t, 0.5, if it’s non-teaching state in time t, 0.  (m) . ,if it’s silence in time t,. 0.1, if the user votes for m as most important, 0.5, if the user votes for m as second important,. m {V , A}. 0. 為混合結果的注意力涵式，. ,otherwise,. 跟. 為講者肢體姿態與講者語音狀態的. 涵式，在每個時間點都會根據使用者對聲音以及影像的評分以及上一個時間點的權重值而計算出新的權重值出來。 25.

(36) 第四章實驗結果 4.1 講者姿態辨識效能 4.1.1 實驗規畫本實驗利用三部實際以黑板授課的影片(代號為 1.A,1.B,2.A)，其中 A,B 代表講者 A 與講者 B，1.A 為講者 A 的第一段影片，2.A 為講者 A 的第二段影片，影片 1.A 的總長度為 345 秒，影片 1.B 總長度為 323 秒，影片 2.A 總長度為 261 秒，運用本研究之擷取講者肢體的方法，以及判斷講者講述狀態的二元決策樹，分別去判別三個講述狀態，並計算其正確率。在實驗時候，影片的畫面為每秒擷取一張，實驗時候採用 leave-one-out 的方式將畫面分為四組，每次取其中一組為測詴資料，其他三組為訓練資料，並計算平均的正確率。正確率 = 正確分類到此狀態的畫面數 / 影片中真實符合此狀態的畫面數. 4.1.2 結果與分析實驗結果數據呈現此研究的方法有一定程度的成效(如表二)，三種狀態最高有 94%的辨識率，最低為 77%的辨識率，全體平均的辨識率為 87.76%。. 26.

(37) 表二、講者肢體姿態辨識率. 4.2 語音情緒辨識 4.2.1 實驗計畫提供本實驗的語者一共有三位，一位為專任的教師，另兩位為一般的測詴者，針對快樂、生氣、悲傷、厭煩、一般等五種情緒各自錄 20 句語句，由於實驗資料較少，但是對於聲音情緒而言，語句的內容與何種語言沒有直接的關係[22]，因此本實驗搭配 Technical University Berlin, department of Technical Acoustics 所提供的語音資料庫(Emo-DB)進行測驗。. 27.

(38) 在加入 Emo-DB 語音資料庫後，本實驗中五種語音情緒皆各有 200~220 句語句，人數總共 18 人，實驗時候使用 leave-one-out 的模式先將一人的語音資料做為測詴資料，其他 17 人的資料做為訓練資料，如此重複 18 次，並計算其正確率。. 4.2.2 實驗結果數據在經過詴驗之後，實驗結果如下表，整體平均辨識率為 66.52%。主要原因為快樂與生氣的情緒屬於正面(positive)的聲音，因此在區別兩者上會有較多的誤差；而厭倦與悲傷屬於負面(negitive)的聲音，兩者之間也存在著較多的誤差；正常聲音與上面四種差異較大，因此與其他情緒聲音存在著一定程度的誤差在。其關係性如圖十一[24]，橫軸 Valence 代表由不愉悅到愉悅的變化，縱軸 Arousal 代表著情感狀態的強度。表三、語音情緒辨識率. 28.

(39) 圖十一、二維語音情緒關係圖. 4.3 講者語音狀態分析 4.3.1 實驗規畫由兩位講者各針對其一段影片進行觀看，並針對語音內容給予重要性的區分，接著再藉由本研究的方法去判斷出語音內容的重要性，並視兩者的相關性判斷正確率。 4.3.2 實驗結果數據圖十二為講者 A 的分析結果，紅色線段數值在 1 的部分為講者認為重要的部分，藍色為系統分析出來教學的時段，其 Precision 為 28.57%，Recall 為 40%，圖十四為講者 B 分析的結果，Precision 為 54.55%，Recall 為 92.31%。由此可見. 29.

(40) 得由於講者 B 在於講解及非講解時聲音的分辨率較高，系統分析出的重點區段與講者 B 本身評估的重要性關係度較佳，而講者 A 可能因為講解與非講解時候，聲音差異性較小，因此無法測得較佳的分辨率。. 圖十二、講者 A 之講課狀態分析結果 30.

(41) 圖十三、講者 A 之講課狀態分析結果. 4.3 系統結果使用者(老師、學生)比較評估 4.3.1 實驗規畫本實驗將兩位老師的上課影片片段做系統結果與使用者(老師、學生)的感知比較，我們請兩位老師分別針對其教學影片片段觀看並寫專心度問卷，另在再找 31.

(42) 33 位學生觀看兩部影片並填寫專心度問卷，最後統計評分結果與系統數據比較，學生的評分方式，例如:學生覺得在 4 分 13 秒到 4 分 25 秒比較重要，則可以依學生自己認為的重要性給予 1 至 5 分，最後我們累計所有時間點學生給予的分數；老師則針對認為重要的部分給予 1 至 5 分，最後再將分數值正規畫到[0,1]，便可得到學生與老師的專心度曲線。. 4.3.2 實驗效能評估由圖十四講者 A 的影片結果可以發覺系統的曲線與學生曲線較為類似，但是觀看 00:00 之後，大部分學生都認為不是重點片段了，因此曲線下降的非常迅速，但是由於我們系統評分上會參考上一時刻的權重值，因此下降的稍為較慢，而由於針對於講者 A 的聲音狀態分析較為不理想，因此老師認為重要的地方，系統反而無法顯現出來。而圖十五講者 B 的影像分析結果，我們可以觀察出在老師認為重要的地方，系統亦給予較高的分數，這是因為老師的聲音狀態辨別度較高一些，因此系統在聲音這部分亦獲得較多的分數。. 32.

(43) 圖十四、講者 A 教學影片系統結果與使用者(老師、學生)感知曲線比較. 圖十五、講者 B 教學影片系統結果與使用者(老師、學生)感知曲線比較. 33.

(44) 第五章. 結論. 5.1 結論本研究提出一個針對教學影片綜合影像與語音分析的方法，萃取出講者的姿態，以及講者的聲音語意等特徵，分析、擷取出教學重點以及其他資訊。本研究流程可以分為幾步驟 : 一、講者姿態分析，找出講者頭、手區塊，紀錄相關特徵並建構一決策樹，利用 SVM-Based 的方式分類。二、講者語音分析，先利用基本的聲音特徵，進行語音情緒分類，再藉由語音情緒來分析講者的教學狀況。三、整合上述兩點，混合出一學習注意力的模型。根據實驗結果，可以看到本研究在講者肢體分析上有不錯的結果，語音分析上則是會依據情緒辨識上的優缺，語音情緒辨識程度較佳者，對於整理系統的正確率有一定的提升，然而若語音情緒辨識率不好，可能因此使的系統的可信度下滑。. 5.2 實驗貢獻本研究主要貢獻在於以下幾項 : 一、建構一基於人類注意力的黑板教學影片結構化方法，由於黑板影片畫. 34.

(45) 面單調且無固定結構，黑板教學影片的影片內容分析在多媒體語意分析的領域卻具挑戰性且極少被觸及到，然而過往針對教學影片的結構化方法缺乏人類學習感官的概念，使得找到一個基於人類注意力的黑板教學影片結構化方法對多媒體分析上具有極重要且有意義的挑戰二、過往語音在教學影像上的應用，都僅僅是由一些較低階的特徵來分析出一些較普遍的分類，如講者分類，聲音(人聲、音樂聲)類型分辨，較未能探討出更高深語意上的分析，本實驗利用語音情緒分析的方式，來探討出較高深語意上的探討。 5.3 未來展望為了讓本實驗有更適用的發揮，可針對以下方法做改進 : 講者肢體分析的部分 : (1) 再利用更精確的肢體擷取演算法，降低環境因素的影響與限制。 (2) 設計決策樹時候，加入更精細的判別條件。語音情緒上的探討 : (1) 找尋一些更高階的語音特徵，讓語意上的分析更深入。 (2) 分析講者的教學習性，更有效率的去判別講者教學的重點部位。 (3) 尋找更恰當的分段方法，如加入肢體行為來更有效率的將講課部分與非講課部分區分。. 35.

(46) 攝影機拍攝方法的改良 : (1) 傳統方法為了偵測講者肢體，因此攝影機皆為架設固定距離，且鏡頭無法拉進拉遠，使得無法講老師講解的重點區塊放大給學習者觀看，這亦會降低學習的效率，位來是否能夠在不影響講者辨別的情況下，提供此應用。 (2) 目前拍攝方法無法提供黑板的全景給使用者，只單獨跟著講者移動，變成可能會有部分重要的區塊無法拍攝進來，未來是否可以在加入多台的攝影機，提供更多元的服務。. 36.

(47) 參考文獻 [1] Ying Li, Shrikanth Narayanan, C.-C. Jay Kuo, “Content-Based Movie Analysis. and Indexing Based on AudioVisual Cues,” IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 14, NO.8 , AUGUST 2004. [2]. C. Krishna Mohan, B.Yegnanarayana , “Classification of sport videos using edge-based features and autoassociative neural network models,” Signal, Image and Video Processing, 4, 1: 61-73.. [3]. Cannon, W.B. , “Again the James-Lange theory of emotion: a critical examination and an alternative theory”, Am J. Psychol, 39.106-24,1931.. [4]. Cornelius R.R., “A THEORETICAL APPROACHES TO EMOTION”, ISCA Workshop on Speech and Emotion, Vassar College Poughkeepsie, NY USA, 2000.. [5]. Picard R.W., “Toward Machine Emotional Intelligence: Analysis of Affective Physiological State”, IEEE Transactions on Pattern Analysis and Machine Intelligence Vol 23,no. 10.October 2002.. [6]. B. Schuller, G. Rigoll and M. Lang(2003).“Hidden Markov Model-based Speech Emotion Recognition”, Proc. of IEEE International Conference on Acoustics, Speech, and Signal Processing, Hong Kong, China, vol. 2, pp. 1-4.. [7]. D. Ververidis, C. Kotropoulos and I.Pitas(2004).“Automatic Emotional Speech Classification,” Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Montreal, Quebec, Canada, vol. 1, pp. 593-596.. [8]. B. Schuller, G. Rigoll and M. Lang(2004).“Speech Emotion Recognition Combining Acoustic Features and Linguistic Information in a Hybrid Support Vector Machine – Belief Network Architecture”, Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Montreal, Quebec, Canada, vol. 1, pp. 577-580. 37.

(48) [9]. X.H. Le, G. Quénot and E. Castelli(2004).“Recognizing Emotions for Audio-Visual Document Indexing," Proceedings of 9th Symposium on Computers and Communications,Alexandria, Egypt, vol. 2, pp. 580-584.. [10] Oh-Wook Kwon, Kwokleung Chan, Jiucang Hao, Te-Won Lee,” Emotion Recognition by Speech Signals”, Institute for Neural Computation University of California, San Diego, USA. [11] Dimitrios Ververidis, Constantine Kotropoulos ,” Emotional speech recognition: Resources, features, and methods”, Artificial Intelligence and Information Analysis Laboratory, Department of Informatics, Aristotle University of Thessaloniki,University Campus, Box 451, Thessaloniki 541 24, Greece, accepted 24 April 2006. [11] Y. Chen and W.J. Heng, “Automatic synchronization of speech tra,nscript and slides in presentation,” in Proc. Int. Symp. Circuits and Systems, vol. 2, pp. 568–571. 2003. [12] F. Wang, C.W. Ngo, and T.C. Pong, “Synchronization of lecture videos and electronic slides by video text analysis,” in ACM Multimedia, pp. 315–318, 2003. [13] T. Liu, R. Hejelsvold, and J.R. Kender, “Analysis and enhancement of videos of electronic slide presentations,” in IEEE International Conference on Multimedia and Expo, vol. 1, pp. 77–80, 2002. [14] C.W. Ngo, F. Wang, and T.C. Pong, “Structuring lecture videos for distance learning applications,” in Proc. IEEE Int. Symp. Multimedia and Software Engineering, pp. 215–222, 2003. [15] L. He, Z. Liu, and Z. Zhang, “Why take notes use the whiteboard capture system,” in IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 776–779, 2003. [16] L. He and Z. Zhang, “Real-time whiteboard capture and processing using a video camera for teleconferencing,” in Proc. ICASSP, pp. 1113–1116, 2005. 38.

(49) [17] M. Wienecke, G.A. Fink, and G. Sagerer, “Toward automatic videobased whiteboard reading,” Int. J. Doc. Anal. Recognit., vol. 7, no. 2-3, pp. 188–200, 2005. [18] Z. Zhang and L. He, “Notetaking with a camera: Whiteboard scanning and image enhancement,” in Proc. ICASSP, vol. 3, pp. 533–536, 2004. [19] C.C. Chang and C.K. Lin, LIBSVM: a libraryfor support vector machines. Software availableat http://www.csie.ntu.edu.tw/~cjlin/libsvm. [20] S. Ammouri, and G.A. Bilodeau, “Face and Hands Detection and Tracking Applied to the Monitoring of Medication Intake,” Canadian Conference on Computer and Robot Vision, pp. 147-154, Canadian, May 2008. [21] 語音訊號處理,王小川編著,2009 年 2 月 [22] Fukuda S., and Kostov V., ”Extraction emotion from voice”, IEEE International Conference on System, Man,. and Cybernetics, 1999.. [23] Theodoros Giannakopoulos, Aggelos Pikrakis and Sergios Theodoridis,” A DIMENSIONAL APPROACH TO EMOTION RECOGNITION OF SPEECH FROM MOVIES,” ICASSP 2009. 39.

(50)