於教學影片上進行索引和教學重點探勘之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：李忠謀博士. 於教學影片上進行索引和教學重點探勘之研究 Indexing and Teaching Focus Mining of Lecture Video. 研究生：顏百璋撰. 中華民國九十八年六月.

(2) 摘要. 本研究提出一個適用於教學影片結構化與分析的方法，來提供使用者有效率地取得教學上的內容與知識，在不使用 color-based 或 histogram-based 的方法下，本研究提出一個 edge-based 的片段變化偵測演算法，來建立投影片切換時的結構，且可成功抵禦來自光線的影響，以及當影像中出現人或其他物體遮蔽投影片內容時，也可免於錯誤偵測的發生；當片段偵測階段完畢，本研究更進一步利用影片中講者的手勢以及聲音的資訊，來找尋講者欲強調內容在影像上的位置，分析探勘出教學重點，讓使用者更方便的學習。. 關鍵字：教學影片、片段變化偵測、遮蔽物體偵測.

(3) ABSTRACT We present a lecture video structuring and analysis scheme to provide students an efficient way to access the lecture content. Instead of using color-based or histogram-based methodologies, we propose a new edge-based shot change detection algorithm to accurately rebuild the slide structure. The proposed approach can successfully resist the unwanted influences induced from the variant illumination condition and occlusions. Furthermore, the teaching focus is analyzed according to the location which the instructor points and the audio information so that this system becomes more useful for learning.. Keywords：：lecture video、shot change detection、occlusion object detection.

(4) 誌謝本論文終於完成，首先要感謝指導教授李忠謀老師，在這兩年個別 meeting 與 group meeting 時，給予實質的建議與鼓勵，並於論文撰寫期間不辭辛勞地批閱，方使本論文得以完成。感謝育慈學姊，每個禮拜都會抽空和我們 meeting，在研究上引導我去思索許多不曾想過的問題，並適時的給予新穎的想法與寶貴的建議，幫助我創造出難以獨立完成的價值；感謝凱民、定翔，留在 Lab 時，不管是課業的問題、心情的調適，早晚都有您們的陪伴；感謝家維、建斌在打桌球時，讓我看到神人級般的球技，夜唱時，讓我享受到天籟般的樂章；感謝依佳、靖雅兩位如大姐般的幫忙，在校內的諸多提點，在校外的完善規劃，都讓我備感安心，在這七百多個日子中，和大家一起努力、歡樂的點滴，都將成為最璀璨的回憶。最後，感謝親愛的家人在這段日子中對我默默的支持與關心，讓我能心無旁騖的完成學業，在此僅以本文獻給關心我的家人與朋友，謝謝您們，希望能將這份喜悅與你們分享。.

(5) 目錄附表目錄 .................................................................................................................... III 附圖目錄 .................................................................................................................... IV 第一章緒論 .................................................................................................................1 1.1 研究動機..............................................................................................................1 1.2 研究目的..............................................................................................................1 1.3 研究範圍..............................................................................................................2 1.3.1 教學影片......................................................................................................2 1.3.2 階層式影片..................................................................................................3 1.3.3 換頁片段影像..............................................................................................4 1.3.4 研究限制......................................................................................................5 1.4 論文架構..............................................................................................................5 第二章文獻探討 .........................................................................................................6 2.1 視訊切割技術探討 .............................................................................................6 2.1.1 像素的比較..................................................................................................6 2.1.2 以區塊為基礎的比較..................................................................................7 2.1.3 直方圖的比較..............................................................................................7 2.1.4 以叢集為基礎的比較..................................................................................8 2.1.5 以模型導向的比較......................................................................................9 2.1.6 以特徵為基礎的比較..................................................................................9 2.1.7 整合及比較多種技術................................................................................10 第三章研究方法 .......................................................................................................12 3.1 研究目標 ...........................................................................................................12 3.2 系統流程 ...........................................................................................................13 3.3 前處理...............................................................................................................14 3.4 遮蔽物偵測 .......................................................................................................15 3.5 片段變化偵測 ...................................................................................................19 3.6 教學重點探勘 ...................................................................................................22 3.6.1 手勢偵測....................................................................................................22 3.6.2 版面結構分析............................................................................................26 3.6.3 音訊分析....................................................................................................27 3.6.4 事件標記....................................................................................................28 第四章實驗結果 .......................................................................................................29 4.1 實驗流程說明 ...................................................................................................29 i.

(6) 4.2 實驗評估方式 ...................................................................................................29 4.3 實驗影片之環境說明 .......................................................................................29 4.4 實驗結果與分析 ...............................................................................................34 第五章結論 ...............................................................................................................42 5.1 結論...................................................................................................................42 5.2 未來研究 ...........................................................................................................43 參考文獻 .....................................................................................................................44 附錄ㄧ .........................................................................................................................48. ii.

(7) 附表目錄表 3.1 膚色範圍..........................................................................................................22 表 4.1 考慮不同光源變化組合之情形來拍攝影片..................................................30 表 4.2 光源變化之實驗影片資料..............................................................................31 表 4.3 遮蔽物偵測之實驗影片資料..........................................................................32 表 4.4 無遮蔽物偵測之實驗影片資料......................................................................33 表 4.5 手勢偵測之實驗影片資料..............................................................................33 表 4.6 音節數偵測之實驗影片資料..........................................................................34 表 4.7 光源變化之偵測結果......................................................................................34 表 4.8 影像中出現遮蔽物之偵測結果......................................................................36 表 4.9 影像中出現遮蔽物之偵測結果與比較..........................................................36 表 4.10 無遮蔽物進入影像中之偵測結果................................................................38 表 4.11 手勢偵測結果................................................................................................39 表 4.12 偵測音節數之實驗結果................................................................................40. iii.

(8) 附圖目錄圖 1.1 階層式影片........................................................................................................4 圖 1.2 研究限制............................................................................................................5 圖 2.1 使用 FCM 的分類結果 .....................................................................................8 圖 2.2 Transition model .................................................................................................9 圖 3.1 系統流程圖......................................................................................................13 圖 3.2 前處理結果比較..............................................................................................14 圖 3.3 影像差異劇烈變化..........................................................................................15 圖 3.4 背景相減法......................................................................................................16 圖 3.5 遮蔽物偵測......................................................................................................18 圖 3.6 不同情況之 ER ...............................................................................................18 圖 3.7 Kirsch masks.....................................................................................................19 圖 3.8 相似程度測量..................................................................................................20 圖 3.9 相似程度示意圖..............................................................................................21 圖 3.10 教學重點........................................................................................................22 圖 3.11 手勢偵測流程................................................................................................24 圖 3.12 手勢偵測範例................................................................................................24 圖 3.13 手指重點擷取................................................................................................25 圖 3.14 手勢位置紀錄................................................................................................25 圖 3.15 版面結構分析................................................................................................26 圖 3.16 版面結構分析範例........................................................................................26 圖 3.17 音訊波形圖....................................................................................................27 圖 3.18 手指教學重點物件擷取................................................................................28 圖 3.19 教學重點........................................................................................................28 圖 4.1 教室設置..........................................................................................................30 圖 4.2 不同光源下拍攝影片之影像截圖..................................................................31 圖 4.3 遮蔽物偵測實驗影片之影像截圖..................................................................32 iv.

(9) 圖 4.4 無遮蔽物偵測實驗影片之影像截圖..............................................................33 圖 4.5 光源變化偵測結果之曲線圖..........................................................................35 圖 4.6 影像中出現遮蔽物之偵測結果與其他方法比較之曲線圖..........................37 圖 4.7 未偵測到主要影像之原因..............................................................................39 圖 4.8 錯誤標記手指位置之原因..............................................................................40 圖 4.9 影片(d)偵測音節數之音訊波形.....................................................................41 圖 4.10 影片(f)偵測音節數之音訊波形....................................................................41. v.

(10) 第一章緒論 1.1 研究動機在節奏快速的生活中，科技產業的發展也相當緊密，而人們經常接觸的多媒體，就屬影片這個媒介最為活躍，舉凡新聞、娛樂、運動賽事…等，都以影片的方式來呈現；如今透過網路，可更迅速地取得這些資訊，但受限於使用者的頻寬，對於高畫質影片，其單位時間的影片大小較大，於線上瀏覽或下載時，易致傳輸時間的延長，會降低使用者觀看的欲望，若能妥善對影片進行壓縮及內容分段索引，不僅易於傳輸，在後續的管理與分析也有所助益。而現今的教學平台，幾乎都有課程影片可線上瀏覽，提供學生課後複習之用，故若能主題性的提供使用者，點選感興趣片段的功能，將有助於提高使用意願，進而正向地幫助使用者培養主動學習的習慣。另外，若能更進一步地找出影片中的重要事件，如：教師將手指向投影片內容的地方、教師講解時間停留較久處以及講解時語氣加強的地方等，更能輔助使用者，迅速地掌握教師所要表達的主旨與意念，以提高學習成效。. 1.2 研究目的影片結構化前須進行視訊切割(Segmentation)，區分出有意義的片段，以方便後續之影片分析。伴隨而來的問題，如光線的影響(室內的光源變化、室外的光源變化)、遮蔽物(教師、學生、其他物品)出現…等，也都是亟需處理的議題。. 1.

(11) 因此本研究著重於教學影片的切割，使用片段變化偵測 (Shot change detection) 的方法，正確地找出每個片段 (Shot) 中，不含遮蔽物的關鍵影像 (Keyframe)，再輔以手勢、音量...等資訊，找出教材中較為重要的部分給予標記。. 1.3 研究範圍本研究所針對的教學影片格式採 AVI 格式，使用片段變化偵測的技術來定位不同片段的位置。以下分別簡述教學影片、階層式影片與換頁片段影像於本研究之定義：. 1.3.1 教學影片於一般搜尋引擎上，輸入教學影片的關鍵字，會得到各種技巧的教學影片，如：烹飪、樂器或軟體操作…等，而本研究所針對的教學影片，意指在室內環境，教師利用投影機將事先製作好的投影片按順序投影在布幕上所進行的教學，而教學影片與一般影片不同之處有： (1) 背景多為靜態背景：教學授課所錄製的教學影片多為室內的、單純的、靜態的背景，有別於室外的、複雜的、動態的背景，只有少數情況如教師或學生經過影像時背景才有短時間的變化。. 2.

(12) (2) 攝影機及影像固定：投影布幕位置固定，故教學前將攝影機架設完畢後不需要攝影師操作，攝影期間不再移動或拉近( Zoom in)、拉遠(Zoom out)，有別於一般影片中有攝影師掌鏡，影片影像因為情境需要會有所變化。 (3)投影片佔影像大部分：相較於一般影片中的主體是人，教學影片中的主角則是投影片，整個教學過程中投影片的位置不會變動；相反地，人在影片中出現及移動時則必須將其忽略。. 1.3.2 階層式影片場景在定義上是有相似的場合及事件的集合，不同場景之間則有相當大的變異；而片段則是在同一場景中，有多個相似事件可分割而成單一片段。舉例來說，在軍訓課之中，於室內上台報告及室外打靶射擊各為一個場景，其中每一位同學上場的內容則為一個片段，而此堂軍訓課則是由上台報告和打靶射擊所組成的一個完整影片。本研究由於實際上課教學影片多為固定背景，因此可視為整段影片只有單一場景，但每一頁投影片則視為不同的片段。如圖 1.1，一個影片可由許多場景組成，場景則可由許多影片片段組成，每個影片片段則可再由許多影像 (Frame)組成。. 3.

(13) 影片(Video). 場景(Scene). 場景(Scene). 片段(Shot). 片段(Shot). 片段(Shot). 片段(Shot). 片段改變(Shot change). 影像(Frame). 圖 1.1 階層式影片. 1.3.3 換頁片段影像由於教學影片只有單一場景，主要的分別則在於各張投影片的不同，因此可將每張投影片的授課內容視為一個片段影片。其中，每個片段中的靜態影像差異不大。故在相鄰片段影片之間的切換，可分為直接切換(Abrupt change)和逐漸切換(Gradual transition)。在教學影片中，大部分教師在製作教材時，鮮少使用特效效果，因此在投影片切換，都是屬於直接切換，故本研究只著重此部份的探討。. 4.

(14) 1.3.4 研究限制在類似的研究中，處理的議題仍有出入，本研究將問題限制明確地條列如下： (1) 教學影片是在普通教室中，教師使用單槍投影機投影教學投影片於布幕上錄製而成，影像中投影片佔超過 80% (圖 1.2(a))。 (2) 投影片中不含任何動態特效(如換頁使用溶解特效…等) (圖 1.2(b))。 (3) 光源不加以限制。 (4) 允許教學者進入影像中進行講解( 圖 1.2(c) )。. (a). (b). (c). 圖 1.2 研究限制 (a)投影片佔超過 80% (b)溶解換頁特效 (c)講者進入影像中. 1.4 論文架構本論文共分五章，第二章為文獻探討，第三章為流程圖及主要的方法，第四章顯示實驗結果，第五章為結論與未來研究。. 5.

(15) 第二章文獻探討 2.1 視訊切割技術探討討論片段變化偵測(Shot change detection, SCD)的方法日益漸多，整理方法並比較優劣得失的文章[2][30][15]應運而生，以下大致探討常見的視訊切割技術。. 2.1.1 像素的比較 ( Pixel-based method) 判別有無切換影像，直覺想法是將兩影像間同位置的點做比較。最簡單的方法是將相鄰兩影像對應位置的像素 (Pixel) 相減，並設下適當的門檻值 (Threshold)，最後統計整張影像像素差絕對值的總和，是否超過門檻值來判斷 [13]。但當像素差異大時，此類方法無法區分以下情況：(1)部分區域的劇烈改變， (2)整體區域的小幅改變，因此對於攝影機、物體振動和光源影響相當敏感。Zhang 等人提出改善的方法，在比較影像間之像素前，先使用 3 乘 3 濾波器對影像作 smooth 的處理[32]，但仍無法完全免除物體振動與光源變化造成的影響。而 Yi 等人使用兩個階段來找出場景改變的地方，先使用最簡單的方法對相鄰畫面的像素相減得 MAFD(1)，並配合適當的門檻值，粗略地過濾掉 90%冗餘的重複畫面；接著對剩餘 10%的畫面做較細微的計算，其利用畫面間彼此區域性差異相似，取二階導數的概念得 SDMAFD(2)來找出有場景改變的地方[29]。 MAFDn =. 1 MN. M −1 N −1. ∑∑ i =0 j =0. f n (i, j ) − f n −1 (i, j ). (1). SDMAFDn = MAFDn − MAFDn −1. (2). 6.

(16) 2.1.2 以區塊為基礎的比較 ( Block-based method) 相對於像素比較是整體影像間的差異，以區塊的做法較能凸顯區域性質的變化。[25]將影像切割成多個相同大小的區塊，藉由定義的區塊比對(Block-matching) 技術，找尋影像間相似區塊位置，區塊間偏移的距離為運動向量(Motion vector)，觀察各區塊運動向量來判斷有無切換影像；此方法雖能較不受攝影機振動影響，但在教學影片中，出現的文字詞語，經常重複出現在不同影像，受限於區塊比對技術(區塊大小的設計與比對方式)，反而無法區別出這些變化。. 2.1.3 直方圖的比較 ( Histogram-based method) 直方圖方法能統計出影像色彩(color)的分布情況[4,26,27]，且較不受攝影機及物體晃動影響，但卻會失去空間結構上的資訊，使得直方圖分佈相似的兩張不同影像，無法區分。[19]為加入空間資訊，先將影像分成 4×4 個區塊，接著算出各區塊 Histogram 值，並計算連續兩張影像相同位置區塊的 Chi-square 值來進行判斷；[7]延伸在不同色彩空間(Color space)，數個特徵選取的方式(Bin-to-bin、 average)與維度變化上的組合分析比較；但此類方法具有的空間資訊有限，對場景沒有改變，背景幾乎相同的教學影片而言，效果不彰。. 7.

(17) 2.1.4 以叢集為基礎的比較 ( Cluster-based method) 視訊切割的問題可視為將影片中的影像分成兩類( 2-class )的問題(一為切換影像、另一為相同影像)，此類方法，可免除處理不同影片時，門檻值設定的問題。[6]使用的特徵是基於像素的 SDM(Spatial Difference Metric)和直方圖的 HDM(Histogram Difference Metric)，算出相鄰影像間的差異分數，對應到二維空間，藉由 fuzzy c-means 叢集演算法予以分類(圖 2.1)；[33,8]則額外運用色彩資訊。但此類方法前提須慎選特徵與對應至適當的維度上，找出足以區分此兩類影像的特性，否則效果仍有限。. 圖 2.1 使用 FCM 的分類結果[6]. 8.

(18) 2.1.5 以模型導向的比較 ( Model-driven method) 至今所述的方法，都是以取得資料數據後，所做的分析為主，為由下而上 (Bottom-up)的方法；而從另一個角度，就是觀察影片結構本身符合的數學模型，也稱之為由上而下的方法(Top-down)。[10]根據片段變化的特性(切換時的影像數、影像間相似度的趨勢)來制定模型(圖 2.2)，再分別對相鄰影像，相隔數個影像計算相似的分數，來與定義的模型曲線比較，區分出是何種片段變化。. 圖 2.2 Transition model [10]. 2.1.6 以特徵為基礎的比較 ( Feature-based method) 特徵值方式意指定義出適當的方法，將影片畫面計算成一序列的數值，再使用此特徵值來進行比較判斷。Peng 等人提出在 RGB 色彩空間下，分別將 R、G、 B 三個成分 (Component) 向量化，接著使用 K-L 轉換 (Karhunen-Loeve transformation)，分別取出第一主軸向量(First principle axis)和第二主軸向量 9.

(19) (Second principle axis)，給予權重做線性組合取得所需特徵向量，對影片中所有畫面進行上述過程，最後用滑動視窗(Sliding window)來偵測發生場景變化的切點 [22]。另外使用邊緣偵測(Edge detection)，因具有較不受光源影響和保留人類視覺上空間結構資訊的優點，[31]使用 Canny edge detector 來找出邊緣圖(Edge map)，並計算前後影像邊緣出現(Entering)及消失(Exiting)的區域，保留其中位移量(Bias) 明顯的部分，做為判斷影像改變的依據；[17]用使用相同的 Edge detector 來找出邊緣(Edge)，接著由連通成分(Connected component)來區分出文字區域的邊緣和非文字區域的邊緣，之後只採用非文字區域的邊緣，考慮最小邊界矩形(Minimum boundary rectangle)中的密度、面積、質心位置來算相似程度，最後使用 K-means 分出兩群，離散程度較大的視為有發生場景改變。使用此類方法，較適合在背景色彩幾乎不變與內容差異僅有文字、表格與圖片線條變化的教學影片。. 2.1.7 整合及比較多種技術 Fang 等人採用色彩直方圖 (Color histogram)(3) 、動態補償 (Motion compensation)(4)、紋理(Texture)(5)三種特徵，藉由模糊理論(Fuzzy theory)與決策樹(Decision tree)來找出直接切換的切點，另使用邊緣偵測來決定融解(Dissolve) 特效發生的區間[3]。. 10.

(20) 256 256 ⎤ ⎛ 1 ⎞ ⎡ 256 HI i = 1 − ⎜ ⎟ ⎢ ∑ min( I rji , I rji −1 ) + ∑ min( I gji , I gji −1 ) + ∑ min( I bji , I bji −1 ) ⎥ ⎝ 3n ⎠ ⎣ j =1 j =1 j =1 ⎦. MCi =. 1 NB. TDi =. 1 4. NB. ∑(Y n =1. n. − Yn' + U n − U n' + Vn − Vn' ). ∑ Energy d. d ,i. −∑ Energyd ,i −1. (3). (4). (5). d. Ngo 等人依序取出固定長度的影像，利用統計的方法，找出屬於投影片區域的背景(Background)區域，並觀察在排版上的特性，利用規則找出文字區塊，之後對影像間此兩種區域特徵，計算相似分數，來予以判別影片的切點，另外使用商業版 OCR 軟體，將文字辨識，與原始電子檔投影片做比對(Matching)[28]。上述方法，有使用多種特徵來找出變化時明顯變化的圖騰，可彼此截長補短，但在決定有無切點變化時，各特徵的分數權重，卻難以決定，需要以大量的實驗輔助；而另外偵測文字的方法，在教學影片中，往往只有標題較易辨識成功，對於相同主題的內容變化，不易處理。. 11.

(21) 第三章研究方法本章共分六個小節，3.1 節說明本研究之研究目標，3.2 節為本研究系統流程，3.3 節為抵禦光線影響的前處理，3.4 節為遮蔽物偵測以處理當教師、學生出現於影像中之情形，3.5 節為片段變化偵測方法，3.6 節為教學重點探勘。 3.1 研究目標本研究將分為兩個主要階段，分別簡述問題所在與應用價值： 1.. 定位教學影片中各片段變化位置ㄧ般影片與教學影片的差異，在內容變化的複雜度。一般影片中，可能. 在整體色彩上或影像物件移動產生明顯改變，可以用簡單的影像差異或是色彩變化來找出片段變化的時間點，若是套用在教學影片的偵測，則無法有如此良好的效果，是由於教學影片的主角為投影片，在切換投影片時發生的變化，易與其他事件(如光線、有人出現在影像之中與攝影機的震動)混淆，故本研究需要依照教學影片特性來調整偵測方法，方能適用於教學影片的處理。 2.. 教學影片探勘於教學影片分段索引後，進一步蒐集教師在各片段與教材、學生互動之. 訊息。如：教師在講解課程中，為強調某部分內容，會指向該處或輔以不同手勢來說明；觀察教師在授課時講解的速度可分析該課程進行的節奏；擷取代表各片段的關鍵影像，做版面分析，找出以上訊息與課程間的關聯性，來. 12.

(22) 分析教學影片中瞬忽即逝的資訊，以利使用者在未觀看該部影片前，即有足夠的資訊來選擇適合自己的影片，而不需花費額外的時間在瀏覽、搜尋上，達到真正有效學習的目的。. 3.2 系統流程圖 3.1 為本研究的系統流程圖，主要有影像前處理，遮蔽物偵測，片段變化偵測和教學重點探勘等步驟。前處理輸入影片. 特徵區域擷取. 直方圖等化. 影像二元化. 邊緣擷取. 邊緣圖投影. 影像相似度量測. 影像結構校正. 遮蔽物偵測. 二元化 & 型態學運算. 特徵區域辨別. 物體影像之標記. 片段變化定位. 教學重點探勘手勢偵測. 關鍵影像之選取. 事件標記. 版面結構分析. 片段變化偵測音訊分析. 圖 3.1 系統流程圖. 13.

(23) 3.3 前處理 (Pre-processing) 因影片拍攝時，易受光線影響，此來源有二，(1)陽光：屬於持續性較長的變化，對影像影響較輕微；(2)照明設備：如日光燈的開關，屬於持續性較短的變化，對影像影響較劇烈。光線的改變，會影響影像的明暗程度，讓對比降低，造成影像模糊而無法辨識其中內容。為將此影響降低，會將輸入的影像做直方圖等化(Histogram equalization)，讓整體影像的對比提高。另一處理是將影像二值化(Binarization)，目的是將影像的前景與背景分開，便於萃取主要物件，而影像二值化的方法，可粗分為兩大類：(1)使用整張影像 (Global information)的資訊，如 Otsu’s method [21]自動找尋最佳門檻值進行影像的切割，此方法主要是利用統計原理，找出各集合內的變異數加權總合為最小，各集合間的變異為最大之門檻值 ;(2) 另一方法則是考慮影像的區域性，如 Niblack[20]使用適當的矩形視窗 ( N × N ) ，對影像逐一掃描，分別計算各區塊平均值與標準差後，以平均值為主，常數倍標準差為權重，取得各區塊門檻值。. (a). (b). (c). 圖 3.2 前處理結果比較 (a)原始影像；(b) Otsu；(c) Niblack. 14.

(24) 未免光線因整體影像不均勻分布的影響(圖 3.2(b))，故採用 Niblack 的方法，藉此可保留影像中物件的輪廓，並去除較稀疏的元素，讓欲偵測的物件較不易受到細微改變的影響(圖 3.2(c))。. 3.4 遮蔽物偵測 (Occlusion object detection) 在教學影片中，影像間差異會發生劇烈變化的情況有二種：(1)投影片的切換 ( 圖 3.3(a-b)) ； (2) 有遮蔽物 ( 如：老師、學生或其他物體 ) 進入影像中 ( 圖. 3.3(c-d))。為免除後者發生而造成錯誤偵測，須在影像比對計算相似程度時，將遮蔽投影片內容物體的區域，列為不考慮的部分。. (a). (b). (c). (d). 圖 3.3 影像差異劇烈變化 (a)目前投影片；(b)切換至下一張投影片；(c)目前投影片；(d)遮蔽物(人)出現. 將遮蔽物移除的方法，可視遮蔽物為前景(Foreground)，投影片布幕區域為背景，將兩者區隔。較常見的方法有背景相減法(Background subtraction)[23]如下 fi − f i −1 > δ. (6). 將相鄰影像 fi −1 、 fi 相減，若大於設定門檻值 δ ，可取得移動物體的區域，藉此找出遮蔽物的區域(圖 3.4(c))；但移動物體，若在影像間位移不大而有位置部分 15.

(25) 重疊時，則此方法會將重疊的部分視為背景，導致結果取得的區域不完整，無法取得適當的遮蔽物區域(圖 3.4(f))。. (a). (b). (c). (d). (e). (f). 圖 3.4 背景相減法 (a)(b) 相鄰影像；(c) 圖(a-b)影像背景相減結果；(d)(e) 相鄰影像；(f) 圖(d-e)影像背景相減結果. 為克服遮蔽物發生重疊部分的問題，本研究使用的方法為特徵區域. (Eigenregion)[5]。詳細方法如下：從輸入影片取出相鄰的兩張彩色影像 fi −1 、 fi (圖 3.5 (a)(b))，分別先轉成灰階(Gray level)，接著將每張大小為 M × N 的影像轉換成 ( M × N ) ×1 維的行向量 Vi −1、Vi ，形成大小為 ( M × N ) × 2 的矩陣 M = [Vi −1 Vi ] ，先扣除行向量的平均，再求共變異矩陣(Covariance matrix) C = M × M t ，計算其特徵根(Eigenvalue)和特徵向量(Eigenvector)後，取出最大特徵根對應的特徵向量 O ，再將此向量 O 還原成影像 ER ( M × N ) ，此即為 Eigenregion(ER) (圖 3.5(c))，. 此方法也被稱為主軸成分分析(Principal component analysis, PCA)。 16.

(26) 由於第一主軸向量代表最大變異的方向[16]，因此可以找出鄰近影像中，出現明顯改變的部分。由產生影像得知明顯改變的部分，以白色為主，反之為黑色，故先將 ER 進行二值化(圖 3.5(d))(7)以取得 ER _ B 。在門檻值的使用，在此由實驗而得( δ ER _ B = 0.02 ) ⎧1 , if ER( x, y ) > δ ER _ B ER _ B ( x, y ) = ⎨ ⎩0 , otherwise. (7). 接著使用型態學運算(Morphology operation)中斷開(Opening)的功能，即先腐蝕(Erosion)再擴張(Dilation)，將 ER _ B 去除零碎部分，據此結果做連通成分，再次去除面積較小的區域，得到影像遮罩 ER _ M (Mask) (圖 3.5 (e))。為判斷取得結果是否如開始時，所述的第二種情況 ( 有人進入影像中 )( 圖. 3.3(c-d))，須再做額外處理進行辨別不同情況之 ER _ M (圖 3.6(d, h))。本研究從影像上的幾何特徵著手，以位置為主 ( 由人造成的 ER 會連接影像的下緣 ( 圖. 3.5(e))，其他 ER _ M 無此特徵(圖 3.6(d, h))，而當 ER _ M 面積超過四分之三影像以上或長寬比小於二分之一時，則判定為非遮蔽情況不予使用，此兩特徵用來過濾較不可能為物體遮蔽的情況；於辨別完物體遮蔽的結果後，可在進行影像比對的階段，輔以此影像遮罩，過濾遮蔽投影片內容的部分，來進行比對的工作，以避免錯誤偵測。. 17.

(27) (a). (b). (d). (e). (c). 圖 3.5 遮蔽物偵測 (a)(b) 連續的相鄰影像 (前一張影像，目前的影像) (c) ER (d) 二值化 (e) 型態學運算後產生遮罩 (最後結果). (a). (b). (c). (d). (e). (f). (g). (h). 圖 3.6 不同情況之 ER ； (a)(b)為相鄰兩張影像，發生投影片切換；(c)為(a-b) 取得 ER 之結果；(d)為圖(c)經處理後的最後結果；(e)(f)為相鄰兩張影像，發生投影片切換；(g)為(e-f)取得 ER 之結果；(h)為圖(g)經處理後的最後結果. 18.

(28) 3.5 片段變化偵測 (Shot change detection) 本研究提出一個以邊緣為基礎(Edge-based)的方法。首先，找出影像中的邊緣，使用 Kirsch-operator[14]，利用八個遮罩(圖 3.7)，來取得邊緣像素(Edge point) 及其代表的方向資訊。 ⎡ 5 NW = ⎢⎢ 5 ⎢⎣ − 3. 5 0 −3 −3. ⎡5 W = ⎢⎢ 5 ⎢⎣ 5. 0 −3. − 3⎤ − 3 ⎥⎥ − 3 ⎥⎦. ⎡ 5 N = ⎢⎢ − 3 ⎢⎣ − 3. − 3⎤ − 3 ⎥⎥ − 3 ⎥⎦. ⎡− 3 SW = ⎢⎢ 5 ⎢⎣ 5. 5 0 −3 −3 0 5. 5 ⎤ − 3 ⎥⎥ − 3 ⎥⎦. ⎡− 3 NE = ⎢⎢ − 3 ⎣⎢ − 3. − 3⎤ − 3 ⎥⎥ − 3 ⎥⎦. ⎡− 3 S = ⎢⎢ − 3 ⎢⎣ 5. 5 0 −3 −3 0 5. 5 ⎤ 5 ⎥⎥ − 3 ⎦⎥. ⎡− 3 E = ⎢⎢ − 3 ⎣⎢ − 3. − 3⎤ − 3 ⎥⎥ 5 ⎥⎦. ⎡−3 S E = ⎢⎢ − 3 ⎣⎢ − 3. −3 0 −3 −3 0 5. 5⎤ 5 ⎥⎥ 5 ⎦⎥ −3⎤ 5 ⎥⎥ 5 ⎦⎥. 圖 3.7 Kirsch masks 取得各影像邊緣(edge)後，可得到對應影像的邊緣圖，量測影像相似程度的依據，以影像中內容的分佈為主，如(8-12)所示：. ⎧ α ⎪⎪ β Sij = ⎨ ⎪α − P ⎪⎩ β. α=. (8) , otherwise. ∑ ( F ( x , y ) ∧ F ( x , y ) ) ∧ ( D ( x , y ) = D ( x, y ) ). ( x , y )∈Fi , j. β=. , if α > P. ∑. ( x , y )∈Fi , j. i. j. i. j. Fi ( x, y ) ∨ Fj ( x, y ). (10). ⎧1 , if pixel (x,y) in the ith frame Fi ( x, y ) = ⎨ ⎩0 , otherwise P=. ∑. ( x , y )∈Fi , j. (9). ( Fi ( x, y ) ⊕ Fj ( x, y )) , ⊕ : xor. (11) (12). Sij 代表相鄰影像的相似程度；Fi、Fj 代表原影像(Frame)對應的邊緣圖；Di、Dj 代表邊緣方向(Edge direction)；P(Penalty)代表相鄰影像中，該邊緣像素在其中一張影像有出現過，但不包含兩張都出現的總個數。(圖 3.8). 19.

(29) (a). (b). (c). (d). (e). (f). 圖 3.8 相似程度測量 (a)原始影像 (b)遮蔽進入原始影像中 (c)將(b)影像中遮蔽物移除後的結果 (d)移除遮蔽物後影像聯集的區域 (e)移除遮蔽物後影像交集的區域 (f)不屬於遮蔽物和影像交集區域的像素. 式(8)表示，找出相鄰影像中位置相同且方向相同的邊緣像素，來代表相似程度，再找出相鄰影像中邊緣像素的聯集，用來做正規化，避免影像間邊緣像素多寡不一的情況，而對於影像出現或消失的邊緣像素，若是太多，則予以扣除，降低相似程度。由於上述方法偏 Pixel-based 比對方式，若發生攝影機的震動，將造成相似程度低落，而造成誤判，故需保留影像結構上的特徵來校正。首先，對已知影像的邊緣圖做水平投影，可取得一向量；取得相鄰影像的兩水平投影向量，使用動態時間伸縮 (Dynamic time warping) 的技術 [24] ，即以動態規劃 (Dynamic. programming) 為基礎，來找出兩向量最佳的對齊方式，如此無須擔憂向量偏移 (Bias)的問題，故可將因攝影機晃動造成的誤判結果校正。. 20.

(30) 最後決定有無發生片段變化的門檻值，根據經驗[18]，通常會偏向自適性門檻值(Adaptive threshold)較優於固定式門檻值(Fixed threshold)；但由於本研究選擇邊緣的特徵，處理遮蔽物以及校正的機制，可將真正有發生片段變化(圖 3.9 紅線與紅點)和沒有發生片段變化(圖 3.9 綠點)的影像相似程度明顯拉開，故在此僅需使用一固定門檻值(圖 3.9 藍線)即可。. (a). (b). (c). 圖 3.9 相似程度示意圖 (a) only Kirsch (b) Niblack + ER (c) DTW. (縱軸表示相似程度，介於正 1 與負 1 之間；橫軸表示時間). 找出投影片換頁的地方後，需尋得關鍵影像來代表該片段，以便後續分析處理。以往都取出該片段起始影像做為關鍵影像，但有些講者在切換投影片時，可能仍出現在影像中，而無法取得完整投影片內容，因此本研究利用在找尋遮蔽物區域時，記錄曾出現過的遮蔽物影像，來取出不含遮蔽物的關鍵影像；但若此片段中，都出現有遮蔽物，則取出遮蔽物面積最小的影像。. 21.

(31) 3.6 教學重點探勘 (Teaching Focus Mining) 3.6.1 手勢偵測取得各片段的切換時間點後，可根據片段中的影像，找尋可能為重點的區域來予以標示。而通常教師為強調關鍵字、專有名詞時，會出現在投影片前面，並指向該投影片內容的地方來加以說明，因此重點位置的依據，主要來自老師舉手指向的地方(圖 3.10)。 News. News. 冷得太超過,跟地球暖化有關. 冷得太超過,跟地球暖化有關. 即將開放消費券成為爆紅搜尋探花. 即將開放消費券成為爆紅搜尋探花. 圖 3.10 教學重點 ( 在講者解說時，會將手帶到該關鍵字之處，如圖所示，第一則訊息的關鍵字或重點即為暖化；第二則訊息的關鍵字即為消費券 ). 因此，必須先找出手指指向的位置，本研究採用膚色特徵來初步偵測手可能出現的地方。使用 HSV 的色彩空間，參考[1]提供膚色在成分的範圍(表 3.1)，故先分別對色相(Hue)、飽和度(Saturation) 和明度(Value)取出滿足條件的部分再取此三者交集的區域形成遮罩，即影像中人類膚色的地方。表 3.1 膚色範圍[1]. Channel. Inferior threshold. Superior Threshold. Hue. 0 (0˚). 0.1 (36˚). Saturation. 0.2. 1. Value. 0.2. 0.8. 22.

(32) 接著對產生的遮罩做型態學處理來移除雜訊，再使用連通成分將較小的區域移除，產生的結果可能還餘人臉和手掌區域( 圖 3.11(b) )。最後對每個膚色區域 ( 人臉、手掌 ) A = { Ai | i = 1, 2,...} ，個別找出質心位置 C = {C Ai | i = 1, 2,...} ( 圖 3.11(c) )，利用這些質心位置估算可能是人的軀體所在. 位置的平均質心 H ( 圖 3.11(d) )，再根據(13). H. new. ⎧ ⎪ C Ai ( x, y ) = ⎨ ⎪ C Ai ⎩. = the most left. , if H ( x , y ) <. = the most right. , otherwise. 1 framewidth 2. (13). 即平均質心 H 在影像的位置，來判斷講者整體朝向的方向，以便更新平均質心. H new ( 圖 3.11(e) )；接著計算所有屬於膚色區域 A = { Ai | i = 1, 2,...} 的像素與平均質心 H new 的歐幾里得距離 (14) ，並找出與平均質心 H new 距離最大的位置 Pt e a c h i n g f o c u s (15)( 圖 3.11(f-g) )，即手指指向(重點)的位置( 圖 3.11(h), 圖 3.12 )。. D ( A, B ) = A − B =. n. ∑ (A i =1. i. Pte a c h in g fo c u s = a rg m a x D ( H. 2. − Bi ) new. (14). , A i ( x , y )). 23. (15).

(33) centroid. face hand. centroid hand. update (e). (d). distance. maximum. estimation. distance. (f). (g). 圖 3.11 手勢偵測流程 ( (a) 影片截圖色區域質心位置. centroid. centroid (c). (b). (a). average. pointing position (h). (b) 找出膚色範圍區域 (c) 估算個別膚. (d) 將個別質心位置運算求得平均質心位置 (e) 更新平均質. 心位置 (f) 將平均質心與膚色範圍區域像素算距離. (g) 找出與平均質心距離. 最大的像素 (h) 此像素即為手指位置。 ). (a). (b). (c). 圖 3.12 手勢偵測範例 (. (d). (a)因講者位於影像的左側，故在偵測時，平均質心更. 新到最左邊區域的質心位置(b)；(c)(d)則恰好反之 ). 24.

(34) 根據如上敘述方法，可以找出單張影像可能為重點的位置，故根據已切好的片段，對其中有標示為人出現的影像進行偵測，找出手勢的位置( 圖 3.13(a -. c) )，並逐一收集，可以記錄每段片段手勢出現過的地方( 圖 3.13(d), 圖 3.14 )。. (a). (b). (c). (d). 圖 3.13 手指重點擷取 (a-c) 手勢位置 (d)影片中某片段手勢位置收集紀錄. (a). (b). (c). (d). 圖 3.14 手勢位置紀錄 (a-d)為該部影片中四個片段之手勢位置蒐集紀錄，投影片內容雖同，但因講者不同時間講述，所以手勢紀錄不同；(a)2：58 ─ 5：22；(b) 5：. 30 ─ 7：3；(c) 7：29 ─ 7：46；(d) 7：56 ─ 8：25. 25.

(35) 3.6.2 版面結構分析在片段變化偵測及取得關鍵影像後，從內容上一般可區分為文字、圖表，為了保留這些部分，需與背景(投影片母片)分離，並將影像中的文字和圖表予以物件化(圖 3.15)。而物件化此概念，即希望讓文字或圖表保有清楚完整的識別意義，如：一句話、一個段落、整張圖、完整的表格…等。. Test Image. Test Image. Shot change detection. Shot change detection. (a). (b). 圖 3.15 版面結構分析 (a) 關鍵影像 (b) 將文字、圖表物件化的結果. 本研究使用的方法，是於前處理時輔以頂帽轉換(Top-hat transform)[9]，來增強出現陰影時的細節，可避免在影像中因圖片出現，造成文字區域消失的情況；再使用 Recursive X-Y Cut[11]的方式，即以反覆水平投影、垂直投影之步驟，取得各物件的最小界線矩形(Minimum boundary rectangle, MBR)(圖 3.16)。. (a). (b). (c). (d). 圖 3.16 版面結構分析範例 ((a)(c)關鍵影像，(b)(d)對應版面結構分析結果). 26.

(36) 3.6.3 音訊分析片段偵測後，針對各個片段獨立分析語音上的資訊[34]。在特徵擷取上，以音節(Syllable)為主。先將原始波形轉換成以分貝為單位的音量(Volume)，以微分方式求區域最大值(Local maximum)、與區域最小值(Local minimum)後，來取出音量之封包(Envelope)[12]，藉由式(16)取得該片段教師講述的音節數，由於一個漢字相當於一個音節，因此可藉此估算單位時間講述的音節數來判斷講者講解的速度。 ⎧⎪1 , if e ( t ) > C w Max {e (T )} W syllable (t ) = ⎨ ⎪⎩ 0 , otherwise. (16). Wsyllables (t ) 表示於時間 t 時是否為一個音節， e(t ) 表示時間 t 時封包的大小， T 表示一段時間的區間， cw 表示一門檻值。. 圖 3.17 音訊波形圖 ( 最上面的波形為原始聲音訊號；中間為音量之波形；最下圖為音量波形之封包，縱軸皆為振幅，橫軸皆為時間 ). 27.

(37) 3.6.4 事件標記比對手勢蒐集位置資訊和版面結構分析的結果，將物件出現手勢位置資訊的部分，以最小界限矩形標示出來，列為該張投影片的重點所在 (圖 3.18, 圖 3.19)。. (a). Test Image. Test Image. Shot change detection. Shot change detection. (b). (c). 圖 3.18 手指教學重點物件擷取 (a) 手勢偵測 (b) 版面分析 (c) 重點標示. (a). (b). (c). (d). 圖 3.19 教學重點 (配合圖 3.14 與圖 3.16(d)所繪出四個片段的重點位置) 在教學影片中，教師有闡述上的需求，必須不按投影片編排之順序來講解，導致有許多片段，投影片內容的部分相同，若經由手勢事件的標示，即可以清楚地了解，在各個片段時，教師著重的地方。. 28.

(38) 第四章實驗結果 4.1 實驗流程說明本研究實驗影片，皆以 1fps(frame per second)進行實驗，可分為五個部分：. (1)不同光源變化之片段變化偵測；(2)有遮蔽物進入影像中之片段變化偵測；(3) 無遮蔽物進入影像中之片段變化偵測；(4)手勢偵測；(5)音節數偵測。. 4.2 實驗評估方式此研究所使用的評估標準是採用大多數研究所採用的 Precision 值及 Recall 值。 Precision =. Nc Nc ， Recall = ， N c 代表偵測結果中正確的主要影 Nc + Nm Nc + N f. 像數目， N f 代表偵測結果中錯誤的主要影像數目， N m 代表偵測結果中未偵測到的主要影像數目。Precision 與 Recall 值為此消彼長之關係，若偵測的結果 Precision 越高，則 Recall 值則變低；在本研究中，若少抓投影片換頁的地方，則遺失重要的訊息，因此 Recall 值的重要性略高於 Precision。. 4.3 實驗影片之環境說明. (1) 不同光源變化之片段變化偵測：為了個別觀察光源變化對影片之影響，分別考慮燈光、陽光和其他人為因素(表 4.1)(圖 4.1) ，使用自行拍攝的影片(表. 4.2)(圖 4.2)。. 29.

(39) 圖 4.1 教室設置(最右邊為投影布幕；由右至左為前排燈、中排燈、後排燈；最左邊為攝影機與投影機；窗簾為綠色). 表 4.1 考慮不同光源變化組合之情形來拍攝影片. (符號 O 分別表示：開燈、打開窗簾；X 分別表示關燈、拉上窗簾) 燈光因素. 陽光因素. 人為因素. 前排燈. 中排燈. 後排燈. 窗簾開關. 電燈開關. 窗簾開關. (I–a). X. O. X. X. X. O. (I–b). X. O. X. X. X. X. (I–c). X. X. X. X. X. X. (I–d). X. X. X. O. X. X. (I–e). O. O. O. O. X. X. (I–f). O. O. O. X. X. X. (I–g). O. X. X. X. X. X. (I–h). X. X. O. X. X. X. (I–i). X. O. X. X. O. X. (I–j). X. O. X. X. O. O. 30.

(40) 表 4.2 光源變化之實驗影片資料影片代號. 影片時間長度. 總處理影像個數. 實際換頁個數. (I– a). 2’ 17’’. 137. 27. (I– b). 2’ 17’’. 137. 27. (I– c). 2’ 17’’. 137. 27. (I– d). 2’ 17’’. 137. 27. (I– e). 2’ 17’’. 137. 27. (I– f). 2’ 17’’. 137. 27. (I– g). 2’ 17’’. 137. 27. (I– h). 2’ 17’’. 137. 27. (I– i). 2’ 17’’. 137. 27. (I– j). 2’ 17’’. 137. 27. (I–a). (I–b ). (I–c ). (I–d ). (I– e). ( III – a ). ( III – b ). ( III – c ). ( III – d ). ( III – e ). (I–f). (I–g). (I– h). ( I– i). (I– j). 圖 4.2 不同光源下拍攝影片之影像截圖. 31.

(41) (2) 有遮蔽物進入影像中之片段變化偵測：挑選十部影片進行實驗(表 4.3)。表 4.3 遮蔽物偵測之實驗影片資料影片代號. 影片時間. 總處理影像個數. 實際換頁個數. ( II – a ). 19 ’ 06 ’’. 1146. 15. ( II – b ). 35 ’ 29 ’’. 2129. 32. ( II – c ). 38 ’ 55 ’’. 2335. 38. ( II – d ). 53 ’ 24 ’’. 3204. 67. ( II – e ). 48 ’ 32 ’’. 2912. 6. ( II – f ). 38 ’ 07 ’’. 2287. 31. ( II – g ). 30 ’ 29 ’’. 1829. 39. ( II – h ). 17 ’ 32 ’’. 1052. 19. ( II – i ). 41 ’ 58 ’’. 2518. 32. ( II – j ). 53 ’ 13 ’’. 3913. 98. ( II – a ). ( II – b ). ( II – c ). ( II – d ). ( II – e ). ( II – f ). ( II – g ). ( II – h ). ( II – i ). ( II – j ). 圖 4.3 遮蔽物偵測實驗影片之影像截圖. 32.

(42) (3)無遮蔽物進入影像中之片段變化偵測：挑選五部影片實驗(表 4.4)。表 4.4 無遮蔽物偵測之實驗影片資料. 影片代號. 影片時間. 總處理影像個數. 實際換頁個數. ( III – a ). 23 ’ 20 ’’. 1400. 17. ( III – b ). 35 ’ 40 ’’. 2140. 22. ( III – c ). 38 ’ 06 ’’. 2286. 27. ( III – d ). 19 ’ 33 ’’. 1173. 26. ( III – e ). 47 ’ 19 ’’. 2839. 29. ( III – a ). ( III – b ). ( III – c ). ( III – d ). 圖 4.4 無遮蔽物偵測實驗影片之影像截圖. (4)手勢偵測：挑選兩部影片實驗。表 4.5 手勢偵測之實驗影片資料. 影片代號. 影片時間. 總處理影像個數. ( IV – a ). 53 ’ 24 ’’. 3204. ( IV – b ). 28 ’ 04 ’’. 1684. 33. ( III – e ).

(43) (5)音節數偵測：挑選十二個影片片段實驗。表 4.6 音節數偵測之實驗影片資料影片代號. (a). (b). (c). (d). (e). (f). (g). (h). (i). (j). (k). (l). 影片時間 (秒). 36. 132. 117. 217. 97. 291. 23. 92. 14. 67. 34. 21. 字數. 177. 681. 654. 1230. 534. 1589. 119. 523. 81. 335. 171. 126. 4.4 實驗結果與分析. (1) 不同光源變化之片段變化偵測：拍攝十部影片，可觀察受光源影響後，影片的對比降低(圖 4.2)；由偵測結果得知，影響偵測的光源因素主要來自電燈，其次為陽光(表 4.7)，在經由前處理後，即可達到較穩定的偵測效果。表 4.7 光源變化之偵測結果 No.. CUT. (I–a). Original. Pre-processing. Nc. Nf. Nm Precision. Recall. Nc. Nf. Nm. Precision. Recall. 27. 24. 0. 3. 100%. 88%. 24. 0. 3. 100%. 88%. (I–b). 27. 22. 0. 5. 100%. 81%. 23. 0. 4. 100%. 85%. (I–c). 27. 21. 0. 6. 100%. 77%. 24. 0. 3. 100%. 88%. (I–d). 27. 24. 0. 3. 100%. 88%. 24. 0. 3. 100%. 88%. (I–e). 27. 27. 63. 0. 30%. 100%. 27. 5. 0. 84%. 100%. (I–f). 27. 27. 49. 0. 35%. 100%. 25. 0. 2. 100%. 92%. (I–g). 27. 26. 1. 1. 96%. 96%. 24. 0. 3. 100%. 88%. (I–h). 27. 24. 0. 3. 100%. 88%. 24. 0. 3. 100%. 88%. (I– i). 27. 23. 1. 4. 95%. 85%. 23. 0. 4. 100%. 85%. (I– j). 27. 22. 0. 5. 100%. 81%. 24. 0. 3. 100%. 88%. 86.6%. 88.4%. 98.4%. 89%. Average. 34.

(44) Original. Pre-processing. 120% Precision. 100% 80% 60% 40% 20% 0% I-a. I-b. I-c. I-d. I-e. I-f. I-g. I-h. I-i. I-j. Video. (a) Original. Pre-processing. 120%. Recall. 100% 80% 60% 40% 20% 0% I-a. I-b. I-c. I-d. I-e. I-f. I-g. I-h. I-i. I-j. Video. (b) 圖 4.5 光源變化偵測結果之曲線圖 (a) Precision (b) Recall. 此實驗選取的投影片換頁次數有 27 次，在拍攝過程中，使用固定時間自動換頁的功能。由實驗數據(表 4.7)(圖 4.5)可發現，大部分影片偵測結果皆差異不大，只有影片(e)與(f)的 N f (誤判投影片換頁而多抓的影像)急遽上升，這是由於此兩部影片，室內的電燈全開，加上投影機本身投影至布幕已存在的光源，造成光源太強，發生如曝光般的效果，而使得拍攝影像變得模糊，對比降低，即使使用邊緣的特徵來偵測，也無法將有代表性的邊緣取出；但經由本研究使用的方法後，可改善此影響，將影片(e)誤判個數 63 個降低至 5 個；影片(f)誤判個數 49 個降低至無誤判的結果。. 35.

(45) (2) 有遮蔽物進入影像中之片段變化偵測：此部分除了顯示提出方法的實驗結果(表 4.8)，也與未加入本研究方法的比較(表 4.9)。 z. Only Kirsch：表示只使用 kirsch 進行邊緣偵測. z. Niblack + ER：表示加入前處理與遮蔽物處理. z. Correction：表示使用 DTW 進行校正表 4.8 影像中出現遮蔽物之偵測結果. 影片代號. II – a. II – b. II – c. II – d. II – e. 影片長度. 19 ’ 06 ’’. 38 ’ 55 ’’. 48 ’ 32 ’’. 38 ’ 07 ’’. 30 ’ 29 ’’. 換頁個數. 15. 38. 6. 31. 39. Precision. 81%. 93%. 94%. 84%. 75%. Recall. 86%. 84%. 92%. 94%. 100%. 影片代號. II – f. II – g. II – h. II – i. II – j. 影片長度. 38 ’ 07 ’’. 30 ’ 29 ’’. 17 ’ 32 ’’. 41 ’ 58 ’’. 53 ’ 13 ’’. 換頁個數. 31. 39. 19. 32. 98. Precision. 92%. 100%. 90%. 87%. 90%. 88.6%. Recall. 83%. 97%. 94%. 90%. 90%. 91%. Average. 表 4.9 影像中出現遮蔽物之偵測結果與比較方法. only Kirsch. Niblack + ER. Correction. 影片代號. Precision. Recall. Precision. Recall. Precision. Recall. II – a. 7%. 100%. 10%. 100%. 81%. 86%. II – b. 32%. 87%. 88%. 96%. 93%. 84%. II – c. 27%. 89%. 86%. 97%. 94%. 92%. II – d. 36%. 95%. 31%. 95%. 84%. 94%. II – e. 40%. 100%. 15%. 100%. 75%. 100%. II – f. 94%. 51%. 17%. 96%. 92%. 83%. II – g. 26%. 66%. 39%. 100%. 100%. 97%. II – h. 55%. 78%. 46%. 94%. 90%. 94%. II – i. 26%. 100%. 19%. 93%. 87%. 90%. II – j. 38%. 96%. 42%. 97%. 90%. 90%. Average. 38.1%. 86.2%. 39.3%. 96.8%. 88.6%. 91%. 36.

(46) only Kirsch. Niblack + ER. DTW. 120% Precision. 100% 80% 60% 40% 20% 0% II - a. II - b. II - c. II - d. II - e. II - f. II - g. II - h. II - i. II - j. Video. (a) only Kirsch. Niblack + ER. DTW. 120%. Recall. 100% 80% 60% 40% 20% 0% II - a. II - b. II - c. II - d. II - e. II - f. II - g. II - h. II - i. II - j. Video. (b) 圖 4.6 影像中出現遮蔽物之偵測結果與其他方法比較之曲線圖. (a) Precision (b)Recall 由實驗數據(表 4.9)，觀察只使用邊緣來進行影像間的比對，precision 平均只有 38.1%，而在針對光線和遮蔽物處理後，precision 和 recall 都有微幅上升，但只有在改變點對點比對方式後，precision 才明顯提高至 88.6%，且在實驗的影片中，也都有穩定和不錯的表現(圖 4.6)。由此觀察，在拍攝過程中，無誤觸攝影機而發生振動的同時，影像仍有發生偏移的現象，肇因於拍攝地點之投影布幕恰置於冷氣出風口附近，本研究藉由. DTW 的比對方式，可避免此一因素造成的誤判，故 precision 可明顯提高；而其他誤判為投影片切換的原因，在於相鄰影像分別有人遮蔽內容，使得本研究方法取得之 Eigenregion 恰好完全遮蔽邊緣偵測後的有效區域，而使得相似程度低 37.

(47) 落；而其他影片誤判之原因，在於出現本研究未定義處理之情況，如出現特效效果出現的文字、圖片，或攝影機於拍攝過程中大幅移動。而在使用 DTW 比對方式後，recall 值有略為下降的現象，在於發生投影片換頁的前後片段影像版面結構過於相似，因此又被判定為相同的影像。另外此部分實驗之相似程度比較圖(附錄ㄧ)也可用來觀察改善的情況。. (3) 無遮蔽物進入影像中之片段變化偵測：此部分實驗，用來檢驗引進處理遮蔽物的方法後，對無遮蔽物進入影像時之情況。. 表 4.10 無遮蔽物進入影像中之偵測結果影片代號. III – a. III – b. III – c. III – d. III – e. 影片長度. 23 ’ 20 ’’. 35 ’ 40 ’’. 38 ’ 06 ’’. 19 ’ 33 ’’. 47 ’ 19 ’’. 換頁個數. 17. 22. 27. 26. 29. Precision. 100%. 100%. 100%. 100%. 100%. 100%. Recall. 94%. 100%. 100%. 92%. 100%. 97.2%. Average. 由實驗數據(表 4.10)，可得到影片(III-b)、(III-c)與(III-e)有百分之百偵測的結果，影片(III-a)和(III-d)未偵測到主要影像(投影片發生換頁的地方)的情況，是由於版面結構過於相似(圖 4.7)，在使用動態時間伸縮來校正攝影機晃動的同時，又把這些換頁的地方誤判回相同影像。平均而言，在沒有出現遮蔽物時，提出的方法，亦不會有其他副作用，且有不錯的表現。. 38.

(48) (a). (b). (c). (d). (e). (f). 圖 4.7 未偵測到主要影像之原因 (a)(d)、(b)(e)、(c)(f). (4) 手勢偵測：此部分實驗，用來檢驗本研究中使用手勢偵測方法，在偵測講者手指部分的準確程度，以準確率(式 17)來評估。準確率 =. 正確標記手指位置之影像個數偵測到手勢出現之影像個數. (17). 表 4.11 手勢偵測結果偵測到手勢出現影像個數. 正確標記手指位置影像個數. 錯誤標記手指位置影像個數. 準確率. 影片代號. 影片時間. 總處理影像個數. ( IV – a ). 53 ’ 24 ’’. 3204. 1974. 1478. 496. 74.87%. ( IV – b ). 28 ’ 04 ’’. 1684. 848. 686. 162. 80.89%. 由實驗結果(表 4.11)，得到準確率介於 70 至 80%，而造成錯誤標記的原因在於當講者進入拍攝影像中，卻無明顯指示的手勢出現(圖 4.7(a)(b))，以及講者原於 39.

(49) 影像中左側 ( 右側 ) 進行指示，卻大幅移動至另側進行手指指示的動作。 ( 圖. 4.7(c)(d)). (a). (b). (c). (d). 圖 4.8 錯誤標記手指位置之原因 (a)(b)無明顯指示之手勢、(c)(d)移動至畫面另側. (紅點為偵測手指位置). (5) 音節數偵測：本研究使用音訊之取樣頻率 (Sample frequency)為 16kHz ，取樣解析度(Bit. resolution)為 16-bit，聲道(Channel)為單聲道，取音框時的大小為 1600，音框間不重疊，此部分實驗，用來分析估算影片中講者講解字數的準確程度。表 4.12 偵測音節數之實驗結果影片代號. (a). (b). (c). (d). (e). (f). (g). (h). (i). (j). (k). (l). 影片時間 (秒). 36. 132. 117. 217. 97. 291. 23. 92. 14. 67. 34. 21. 原有字數. 177. 681. 654. 1230. 534. 1589. 119. 523. 81. 335. 171. 126. 偵測字數. 175. 504. 560. 390. 614. 231. 73. 463. 91. 324. 184. 107. 由實驗結果(表 4.8)，得到大部分影片的偵測字數皆相當接近原有影片中的字數，除了影片(d)、(f)，這兩部影片偵測的字數遠小於實際影片中的字數，都在於拍. 40.

(50) 攝期間，突然有段時間沒收音，而造成使用方法中，用來做為正常口語聲音的封包大小受其干擾，而無法正確地找出實際影片中有說過的字數(圖 4.9、圖 4.10)。. 圖 4.9 影片(d)偵測音節數之音訊波形(橫軸為時間，約 27-34 秒處沒收音). 圖 4.10 影片(f)偵測音節數之音訊波形(橫軸為時間，189-193 秒處沒收音). 41.

(51) 第五章結論 5.1 結論本研究能夠自動擷取出教學影片中投影片換頁的所在位置，並以講者的手勢、聲音等特徵，分析、找尋教學重點及其他資訊。. 本研究流程分為兩個主要階段：第一階段是投影片換頁偵測，以邊緣為基礎的方法，依序計算相鄰影像的相似程度，找出影片中投影片切換的位置；第二階段是教學重點探勘，以手勢、音訊輔助，找出講者欲強調的內容部分，予以標示，並求得講者語速之訊息。由實驗結果，可得到無論投影片是單純或複雜背景，可有效的偵測換頁位置；在誤觸日光燈開關，造成光源改變，不影響偵測結果；在拍攝過程中，講者出現在投影布幕前面不會誤判有切換投影片；因人誤碰攝影機而造成的小幅晃動，也不影響偵測結果；另外加入部分手勢、聲音資訊來找尋該課程重點。本研究仍存在的限制為無法確實偵測加入特效的投影片換頁；對攝影機左右大幅移動、拉近(遠)時會造成投影片換頁的誤判。本研究主要貢獻在於使用 Eigenregion 方法，找出遮蔽物區域，於比對時忽略之，以降低因人於拍攝時進入影像的誤判；使用 DTW(dynamic time warping) 的方法，找出兩向量最佳的比對方式，來避免因攝影機晃動的問題；引進手勢、聲音等資訊分析課程內容與講者間互動之情況。. 42.

(52) 5.2 未來研究為了讓本研究能更適用於實際應用上，可針對以下方向做改進：. 投影片切換偵測的部分：. (1) 改善 DTW 無法區分兩張版面結構相似的影像，而少抓到換頁的地方。 (2) 目前僅使用 1fps 的方式偵測投影片切換，可針對處理需要增加(減少)，以達正確率或速度的提升。. (3) 可考慮處理換頁時使用特效的情況，與攝影機大幅移動時的事件。教學重點探勘的部分：. (1) 利用影像、音訊探勘所得結果推論與教學方式之間的關係。 (2) 可定義數種講者使用的手勢，以更準確的過濾非有意義手勢的部分。. 43.

(53) 參考文獻 [1] S. Ammouri, and G. A. Bilodeau, “Face and Hands Detection and Tracking Applied to the Monitoring of Medication Intake,” Canadian Conference on Computer and Robot Vision, pp. 147-154, Canadian, May 2008.. [2] C. Cotsaces, N. Nikolaidis, and I. Pitas, “Video Shot Detection and Condensed Representation a review,” IEEE Signal Processing Magazine, vol. 23, no. 2, pp. 28-37, Mar. 2006.. [3] H. Fang, J. Jiang, and Y. Feng, “A Fuzzy Logic Approach for Detection of Video Shot Boundaries,” Pattern Recognition, vol. 39, no. 11, pp. 2092-2100, Nov. 2006.. [4] A. M. Ferman, A. M. Tekalp, and R. Mehrotra, “Robust Color Histogram Descriptors for Video Segment Retrieval and Identification,” IEEE Trans. On Image Processing, vol. 11, no. 5, pp. 497-508, May 2002.. [5] C. Fredembach, M. Schroder, and S. Susstrunk, “Eigenregions for Image Classification,” IEEE Trans. on Pattern Analysis and Machine Intelligence, vol. 26, no. 12, pp. 1645-1649, Dec. 2004.. [6] X. Gao, and X. Tang, “Unsupervised Video-Shot Segmentation and Model-Free Anchorperson Detection for News Video Story Parsing,” IEEE Trans. on Circuits and Systems for Video Technology, vol. 12, no. 9, pp.765-776, Sept. 2002.. [7] U. Gargi, R. Kasturi, and S. H. Strayer, “Performance Characterization of Video-Shot-Change Detection Methods,” IEEE Trans. on Circuits and Systems for Video Technology, vol. 10, no. 1, pp.1-13, Feb. 2000.. [8] Y. Gong, “An Accurate and Robust Method for Detecting Video Shot Boundaries,” Proceedings of IEEE International Conference on Multimedia 44.

(54) Computing and Systems, vol. 1, pp. 850-854, July 1999.. [9] R. C. Gonzalez, R. E. Woods, “Digital Image Processing,” Prentice-Hall second edition, 2002.. [10] C. Grana, and R. Cucchiara, “Linear Transition Detection as a Unified Shot Detection Approach,” IEEE Trans. on Circuits and Systems for Video Technology, vol. 17,no. 4, pp. 483-489, Apr. 2007.. [11] J. Ha, R. M. Haralick, and I. T. Phillips, “Recursive X-Y Cut Using Bounding Boxes of Connected Components,” Proceedings of the Third International Conference on Document Analysis and Recognition, vol. 2, pp. 952-955, Aug. 1995.. [12] O. Ikeda, “Estimation of Speaking Speed for Faster Face Detection in Video-Footage,” International Conference on Multimedia and Expo, pp. 442-445, July 2005.. [13] T. Kikukawa, and S. Kawafuchi, “Development of An Automatic Summary Editing System for the Audio Visual Resources,” IEICE Trans., vol. J75-A, no. 2, pp. 204-212, 1992.. [14] R.A. Kirsch, “Computer Determination of the Constituent Structure of Biological Images,” Computers in Biomedical Research, vol. 4, pp. 315-328, 1971.. [15] I. Koprinska, and S. Carrato, “Temporal Video Segmentation: A Survey,” Signal Processing: Image Communication, vol. 16, pp. 477-500, Jan. 2001.. [16] C. M. Li, Y. S. Li, S. H. Wang, and X. Q. Zhang, “Moving Human Body Detection in Video Sequences,” Proceedings of the Sixth International Conference on Machine Learning and Cybernetics, vol. 4, pp. 2188-2192, Aug. 2007.. 45.

(55) [17] L. Liang, Y. Liu, H. Lu, X. Xue, and Y. P. Tan, “Enhanced Shot Boundary Detection Using Video Text Information,” IEEE Trans. on Consumer Electronics, vol. 51, no. 2, pp. 580-588, May 2005.. [18] H. C. Liu, and G. Zick, “Automatic Determination of Scene Changes in MPEG Compressed Video,” IEEE International Symposium on Circuits and Systems, vol. 1, pp. 764-767, May 1995.. [19] A. Nagasaka and Y. Tanaka, “Automatic Video Indexing and Full-Video Search for Object Appearances,” Proceeding of IFIP Second Workshop Conf. on Visual Database System II, Budapest, Hunary, pp.113-127, 1992.. [20] W. Niblack, “An Introduction to Image Processing,” Prentice-Hall, Englewood Cliffs, NJ, pp. 115-116, 1986.. [21] N. Otsu, “A Threshold Selection Method from Gray-Level Histogram,” IEEE Trans. on Systems, Man, and Cybernetics, vol. 9, no. 1, pp. 62-66, Jan. 1979.. [22] T. Peng, K. Zhao, and B. Li, “Video Abrupt Transition Detection Based on K-L Transform,” IEEE International Conference on Image and Graphics, pp. 845-848, Aug. 2007.. [23] M. Piccardi, “Background Subtraction Techniques: a Review,” IEEE International Conference on Systems, Man and Cybernetics, vol. 4, pp. 3099-3104, 2004.. [24] S. Salvador, and P. Chan, “Toward Accurate Dynamic Time Warping in Linear Time and Space,” Intelligent Data Analysis, vol. 11, pp. 561-580, Oct.2007.. [25] B. Shahraray, “Scene Change Detection and Content-based Sampling of Video Sequences,” Proceeding of IS&T/SPIE conference on Digital Video Compression：Algorithms and Technologies, vol. 2419, pp. 2-13, 1995.. 46.

(56) [26] K. W. Sze, K. M. Lam, and G. Qiu, “A New Key Frame Representation for Video Segment Retrieval,” IEEE Trans. on Circuits and Systems for Video Technology, vol.15, no. 9, pp. 1148-1155, Sept. 2005.. [27] K. W. Sze, K. M. Lam, and G. Qiu, “An Optimal Key Frame Representation for Video Shot Retrieval,” Proceedings of IEEE International Symposium on Intelligent Multimedia, Video and Speech Processing, pp. 270-273, Oct. 2004.. [28] F. Wang , C. W. Ngo ,and T. C. Pong, “Structuring Low-Quality Videotaped Lectures for Cross-Reference Browsing by Video Text Analysis,” Pattern Recognition, vol. 41, no. 10, pp. 3257-3269, Oct. 2008.. [29] X. Yi, and N. Ling, “Fast Pixel-Based Video Scene Change Detection,” in Proceeding IEEE Int. Symp. on Circuits and Systems, pp. 3443-3446, May 2005.. [30] J. Yuan, H. Wang, L. Xiao, W. Zheng, J. Li, F. Lin, and B. Zhang, “A Formal Study of Shot Boundary Detection,” IEEE Trans. on Circuits and Systems for Video Technology, vol. 17, no. 2, pp.168-186, Feb. 2007.. [31] R. Zabith, J. Miler, and K. Mai, “A Feature-based Algorithm for Detecting and Classifying Production Effects,” ACM Journal of Multimedia Systems, vol. 7, no. 2, pp.119-128, 1999.. [32] H. J. Zhang, A. Kankanhalli, and S. W. Smoliar, “Automatic Partitioning of Full-motion Video,” ACM Journal of Multimedia Systems, vol.1, no. 1, pp. 10-28, 1993.. [33] Y. Zhuangt, Y. Rui, T. S. Huang, and S. Mehrotra, “Adaptive Key Frame Extraction using Unsupervised Clustering,” Proceeding of IEEE International Conference on Image Processing, vol. 1, pp. 866-870, Oct. 1998.. [34] 王小川, “語音訊號處理,” 全華科技圖書股份有限公司, 2004. 47.

(57) 附錄ㄧ影像中出現遮蔽物之偵測結果與方法比較之相似程度圖，橫軸皆為時間(單位為秒)；縱軸為相似程度的分數(介於負 1 與正 1 之間)，綠點表示沒有發生投影片換頁的情況，紅點表示有發生投影片換頁的情況。. only Kirsch. Niblack + ER. ( II – a ). ( II – b ). ( II – c ). ( II – d ). ( II – e ). ( II – f ). 48. Correction.

(58) ( II – g ). ( II – h ). ( II – i ). ( II – j ). 49.

(59)