輔助傳統教學影片視頻分割與索引之研究

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：李忠謀. 博士. 輔助傳統教學影片視頻分割與索引之研究 Video Scene Segmentation and Indexing for Traditional Instructional Videos. 研究生：. 陳映如. 中華民國一百零二. 撰年七月.

(2) 摘要現今的錄影工具發達，教師們可以自行錄製教學影片到自己或學校所提供的教學平台供學生觀看。然而一節課的教學影片相當冗長，學生在複習時可能只對某些片段不了解，但卻要下載完整影片而浪費時間，因此視訊切割的重要性更是相對的增加。此外在一般的傳統授課模式中，學生必須邊聽邊書寫教師在講課時抄寫在黑板上面的內容，當老師寫字速度太快或講課太快時，學生不易專心聽講，且容易抄寫錯誤。若能將教師教學影片錄下，並自動萃取出每段教學影片中在黑板上所書寫之課程內容，不但使學生易於了解老師教學內容的架構，也使學生不容易抄寫出錯誤之筆記，而影響對課程的理解。本論文提出一套智慧型教學影片輔助系統，在攝影機固定的情況下，使用兩台攝影機拍攝教學影片，並合併兩部攝影機所拍攝的影像內容，使學生可以觀看到清晰且完整的教學內容；利用 K-means 方法去除黑板以外的資訊如:老師、學生、講桌…等，接著更新每張畫面剩下的黑板區域，避免老師身體遮住黑板內容；本研究採用區域二值化的方法取出字跡，並設計出一套去除雜訊之方法；藉由字跡變化量偵測教學影片適合的分割時機點，當片段偵測完畢，進一步截取最完整字跡內容的畫面做為教學筆記，以利學生搜尋片段影片。本研究經由四組不同環境之教學影片實驗判斷切割點之時機與筆記擷取部分皆有良好的效果。關鍵字:教學影片、內容分析、片段變化偵測. i.

(3) Abstract With the advanced video recording equipments today, teachers can record instructional videos and upload these lecture videos to e-learning platforms for students to watch. However, sometimes students may only not understand some parts of the content but they have to waste their time downloading the entire video. This inconvenience shows the importance of video scene segmentation. In addition, in traditional teaching model, students must listen and transcribe the content on the blackboard at the same time. When the lecturer talks or writes too fast, it may be very difficult for students to focus on the lecture or to transcribe the correct contents. If the lecture content on the blackboard can be recorded and automatically extracted, students are not only able to locate the videos easily, but also able to make fewer transcription mistakes. The study presents an intelligent assistance system for lecture videos. The study utilized two cameras to film instructional videos and merged the images in both cameras so that students can watch a clear and complete teaching content. K-mean Segmentation was adopted to remove information other than the content on the blackboard, such as teachers, students and the podium. Images of the blackboard were updating to avoid the teacher’s body blocking the cameras.. ii.

(4) Adaptive threshold was applied to extract the words on the blackboard and a method to reduce the noise was designed. By detecting the number of words on the blackboard, suitable timings for video segmentation could be located and the instructional videos were divided into different parts. Finally, the most complete images for the teaching content were obtained to serve as the lecture notes and to help the students search for the video clips. Performance evaluation on four different environment lecture videos shows that the study is highly effective in detecting shot change point and achieves very low content missing rates on lecture notes.. Key words: lecture videos, content analysis, shot change detection. iii.

(5) 謹獻給我最親愛的家人. iv.

(6) 誌謝本論文得以順利地完成，承蒙指導教授李忠謀老師三年來在研究過成及論文撰寫其間的指導，並且給予諸多想法、建議以及研究經驗的傳授。感謝 Volvo 學長耐心的指導，在任何方面都給予極大的幫助；感謝政杰學長傳授我們觀看與選擇 paper 的技巧；感謝博士班明男、德清與綠茶學長，在寫作論文與準備口試期間提供予我們寶貴的經驗；首先感謝阿呆與阿雄在碩一期間時常幫我解決疑難雜症與提供研究上的意見；感謝 Kimi 阿殺力借錢給我買相機，並帶我們參加大資杯的網球賽；感謝小白熱心的講解研究所期間該注意的事項與 c#教學；感謝上屆的學長們帶領著我們認識研究所生活。感謝同屆夥伴的獅子、阿正與世堯在碩一期間互將討論作業與處裡問題，感謝師大淡江幫的伙伴們一起分享研究所的生活，感謝光庭能一起修習教育學程課程互相勉勵；感謝一同去瑞典的 Albert、淳卉與柏先在瑞典其間互相照顧，感謝雅淳時常體貼地幫忙我很多沒有注意到的細節，感謝小巴一起分享很多心情與感受、給予加油和打氣。感謝學妹姿卉與怡涵能一同討論與撰寫論文，讓我在碩三期間能有伴相陪不孤單。感謝其他 VIPLAB 的夥伴，一同打拼甘苦與共。最後感謝我的父母、哥哥和姊姊，感謝父母所給予的關心與幫助，使我能在一個良好的求學環境下，充實地且順利地完成學業，在此我僅能以此篇論文的成果表達內心最誠摯的感激。. v.

(7) 目錄附圖目錄 ................................................................................................................ viii 附表目錄 ................................................................................................................... ix 第一章緒論............................................................................................................ 1 1.1 研究動機.................................................................................................... 1 1.2 研究目的.................................................................................................... 2 1.3 研究範圍.................................................................................................... 3 1.3.1 研究限制........................................................................................ 3 1.4 第二章 2.1 2.2. 1.3.3 教學影片........................................................................................ 5 論文架構.................................................................................................... 5 文獻探討.................................................................................................... 6 黑板教學影片之內容截取的比較............................................................ 6 黑板字跡的分析與應用............................................................................ 9. 第三章 3.1 3.2 3.3. 研究方法.................................................................................................. 11 系統流程.................................................................................................. 11 合併兩台攝影機拍攝畫面...................................................................... 13 擷取黑板範圍.......................................................................................... 14. 擷取黑板字跡.......................................................................................... 19 判斷切割點時機...................................................................................... 22 教學筆記之擷取...................................................................................... 25 實驗結果與實驗流程說明...................................................................... 28 實驗方法與評估方式.............................................................................. 28 4.1.2 片段定位點偵測.......................................................................... 29 4.1.4 筆記字跡擷取效能...................................................................... 30 4.2 實驗影片之環境說明.............................................................................. 30 4.2.1 不同室內光線之教學影片.......................................................... 31. 3.5 3.6 3.7 第四章 4.1. 4.2.2 單一攝影機在實際上課環境所拍攝之教學影片...................... 32 4.2.3 雙部攝影機在實際上課環境所拍攝之教學影片...................... 33 4.2.4 使用白板教學之教學影片.......................................................... 35 4.3 實驗結果與分析...................................................................................... 36 4.3.1 不同室內光線變化影片之片段切割偵測與教學筆記擷取...... 36 4.3.2 使用單一攝影機在實際上課環境影片之片段切割偵測與教學筆記擷取...................................................................................................... 37 4.3.3 使用雙部攝影機在實際上課環境影片之片段切割偵測與教學筆記擷取...................................................................................................... 39 4.3.4 白板教學影片之片段切割偵測與教學筆記擷取...................... 40 第五章結論與未來研究...................................................................................... 42 vi.

(8) 5.1 結論.......................................................................................................... 42 5.2 未來研究.................................................................................................. 42 參考文獻 .................................................................................................................. 44. vii.

(9) 附圖目錄圖圖圖圖圖圖. 1 兩台攝影機之拍攝環境....................................................................................... 4 2 Onishi 方法擷取結果 ........................................................................................... 7 3 Liu 分割黑板結果與擷取出的文字結果 ............................................................ 8 4 為 Imran 去除老師背景的實驗結果 ................................................................... 8 5 為 Imran 擷取文字的結果 ................................................................................... 8 6 像素量統計圖，紅色的點為 Liu 判斷出的摘要畫面 ...................................... 9. 圖圖圖圖圖. 7 系統流程圖......................................................................................................... 12 8 影像縫合之結果................................................................................................ 14 9 為擷取黑板範圍的結果..................................................................................... 16 10 不同顏色的粉筆字擷取黑板範圍的結果....................................................... 16 11 老師的身體擋住黑板字跡時易被誤判為擦黑板 .......................................... 17. 圖圖圖圖. 12 填補物件區域.................................................................................................. 18 13 粉筆字像素量統計圖...................................................................................... 19 14 單一的 threshold 無法清楚地分離粉筆字 ..................................................... 20 15 二值化擷取效果............................................................................................... 21. 圖圖圖圖圖圖圖圖圖. 16 為本研究擷取黑板內容的結果....................................................................... 22 17 粉筆字像素量統計圖....................................................................................... 23 18 不同單位時間影響切割點的偵測.................................................................. 24 19 影片片段之字跡統計圖................................................................................... 26 20 教學筆記之擷取結果....................................................................................... 27 21 不同光源下拍攝影片之影像截圖................................................................... 31 22 單一攝影機在實際上課環境所拍攝之教學影片之影像截圖....................... 33 23 雙部攝影機在實際上課環境所拍攝之教學影片之影像截圖....................... 34 24 白板教學影片之影像截圖.............................................................................. 35. 圖圖圖圖圖. 25 室內光線昏暗之筆記擷取結果...................................................................... 37 26 擦黑板時間點之前後畫面............................................................................... 38 27 黑板上之粉筆灰對擷取字跡之影響.............................................................. 38 28 多人上台寫題目時造成擦黑板時機誤判...................................................... 39 29 麥克筆之墨水不足導致字跡不明顯............................................................... 41. viii.

(10) 附表目錄表表表表表表. 1 不同室內光線之教學影片................................................................................ 31 2 單一攝影機在實際上課環境所拍攝之教學影片............................................. 32 3 雙部攝影機在實際上課環境所拍攝之教學影片............................................. 34 4 使用白板教學之教學影片................................................................................. 35 5 不同室內光線變化片段定位點偵測之偵測結果............................................. 36 6 不同室內光線變化筆記字跡擷取之偵測結果................................................. 36. 表表表表表. 7 單一攝影機片段定位點偵測之偵測結果......................................................... 37 8 單一攝影機筆記字跡擷取之偵測結果............................................................. 38 9 雙部攝影機片段定位點偵測之偵測結果......................................................... 39 10 雙部攝影機筆記字跡擷取之偵測結果........................................................... 40 11 白板教學影片片段定位點偵測之偵測結果 ................................................... 40. 表 12 白板教學影片筆記字跡擷取之偵測結果....................................................... 41. ix.

(11) 第一章緒論 1.1 研究動機近年來，由於科技日新月異，使得多媒體（Multimedia）科技快速的成長，多媒體泛指聲音、影像及影片，現今影片的使用最為廣泛，人們常常能在網際網路上取得，但是受限於使用者寬頻，當資料量過於龐大時，易導致傳輸時間延長，降低人們觀看的意願。因此，為了能讓使用者更加方便瀏覽或搜尋，在影片切割（Video Segmentation）、內容分析（Content Analysis）和索引（Index）這些分析影片技術是現今的熱門研究。現今的錄影工具大眾化，加上網際網路風行，人們時常可以自行錄製影片上傳到網路上；現今的教學平台，老師們可以自行錄製授課影片上傳到教學平台上，提供學生能在課後複習，培養學生主動學習的習慣。但是由於一節課的影片相當冗長，而學生在複習時可能只對某些片段不了解，為了避免為了觀看某些片段卻要下載完整影片而浪費的時間，視訊切割的重要性更是相對的增加。另外，目前在傳統教室授課時，仍有許多教學單元，需要透過書寫的方式，讓學生了解相關內容，而傳統之教學方式，無法達到教學內容數位化之目的。若能自動擷取出每段教學片段書寫在傳統黑板上的內容，轉換為課程講義，並利用此講義作為索引，不僅使學生能有效率複習課堂上不熟悉的課程片段，藉以提高學習成效，也能協助老師快速累積適用於電腦輔助學習之教材內容。. 1.

(12) 1.2 研究目的本研究目的在於建立一個智慧型教學輔助系統，能自動提供教師課堂講義與相關教學影片片段，讓學生能以自我導向學習方式，依自己的需求、目標、時間與學習速度，進行課後自我學習；同時也能協助教師快速累積教學資源，以達到學習資源的累積、保存、共享的目的。本研究著重於教學影片的分割，判斷教學影片中適合的片段分割點，並擷取出有意義的關鍵影像作為教學講義。而本研究所要處理的問題如下：（一）不同光源下影像拍攝效果室內光源變化約有開燈、關燈與陽光西晒等問題，不同的光線變化皆會影響教學影片拍攝之結果。因此本研究希望能克服不同的光源變化，成功擷取黑板上之書寫資訊。（二）去除畫面中教師或學生之影像教師在教學過程中需要在黑板書寫內容，而內容會被老師所遮蓋，因此在自動萃取黑板上書寫資訊時，便需將老師由畫面中去除，並還原被遮住之教學內容。本研究希望達到由關鍵影像中，將老師由畫面中移除，並將書寫資訊製成講義。（三）偵測教學影片中片段變化位置一般影片與教學影片的差別，在於內容變化的複雜度。由於教學影片背景是固定的，在整體色彩上或影像物件移動產生的改變很難有明顯的差別， 2.

(13) 因此若用簡單的影像差異或是色彩變化找出片段變化的時間點，很難有良好的效果。本研究經由教學影片探勘發現，在上課過程中老師會書寫黑板與講解教學內容，當課程講解到一段落擦去黑板內容時，本研究將會把擦黑板之時間點作為片段分割點，因此每段分割之片段中，便能呈現完整的講解內容。（四）擷取關鍵影像作為講義與影片索引本研究希望於每段分割的影片中，自動選取最完整字跡內容為關鍵畫面，提供學生參考，成為教學之講義與影片索引。. 1.3 研究範圍本研究所針對的教學影片，主要教學情形為以黑板授課的教學影片。以下分別簡述本研究之研究限制及教學影片於本研究之定義:. 1.3.1. 研究限制. 本研究將問題限制明確的條列如下: 1、教學影片的拍攝是在普通教室中，黑板的面積佔影像超過一半。教學影片主要是以授課為主，老師在黑板上寫下要講解的內容，所以通常在拍攝教學影片時，為了要讓學生能清楚地看到黑板上的文字，攝影機會縮放到學生能清處看到黑板文字的範圍，因此本研究為了確保文字能清楚地看到，黑板面積必須超過影片一半的畫面。 2、輸入影片無後製（如加字幕、剪輯...等）。 3.

(14) 3、拍攝期間不會移動攝影機。 4、拍攝期間不會縮放畫面。 5、拍攝黑板全部範圍需要兩台攝影機。若單一攝影機要清楚地拍攝到黑板上的文字，將無法拍攝到黑板全部範圍，因此需要兩台攝影機拍攝，以呈現黑板的完整性。 6、不考慮兩台攝影機錄製同步問題。由於兩台攝影機拍攝教學影片可能會發生錄製時間不同步的問題，在合併兩邊畫面時，需要以人工方式處理左邊與右邊攝影機影像同步問題。. （a）. （b）（c）圖 1 兩台攝影機之拍攝環境（a）攝影機置於教室後方拍攝（b）左邊攝影機拍攝內容（c）右邊攝影機拍攝內容. 4.

(15) 1.3.3. 教學影片. 所謂的教學影片為具教育目的的影片，通常是拍攝用以教學或是讓學生複習之用。現存的教學影片種類繁多，包括運動、烹飪、繪畫或樂器…等，而本研究所針對的教學影片，意指在室內環境，教師利用黑板教學的教學影片。. 1.4 論文架構本論文架構共分五章，第二章為文獻探討，第三章為流程圖及主要方法，第四章為實驗流程與實驗結果說明，第五章為結論與未來研究。. 5.

(16) 第二章文獻探討現今教學影片的分析，其類型常分為以投影片授課[1-3]或白板授課[4, 5]的研究，將黑板授課的教學影片和上述類別進行比較如下： 1、黑板與投影片授課影片分析之比較投影片之教學影片可藉由與電子檔案進行對照比較，強化教學影片之內容(例如:投影布幕之校正、修補投影片內容之顏色)，而黑板內容為老師手寫之內容，無法有相對應的資料進行校正；投影片的切換頁內容差異大，容易判斷場景的改變，而黑板的背景變動不大，需要藉由分析老師手寫資訊判斷場景的變換；投影片的字元整齊有條理，相較於黑板內容則是以老師手寫為主，字元排列較無固定的規律。 2、黑板與白板授課影片分析之比較白板和麥克筆的對比較明顯，黑板和粉筆的對比程度比較弱，相較之下較難以分離。以黑板授課為主的教學影片研究相對較具挑戰性。以下將黑板教學影片之相關研究，分兩個方向進行探討。. 2.1 黑板教學影片之內容截取的比較在 2000 年 Onishi 等人[6]認為在教學影片中有兩個重要的影像資訊可以分析，即是老師和黑板上面的文字，為了將它們從影像上分開來， Onishi 等人利用老. 6.

(17) 師會在講台上走動特點，並利用 Sobel Operator 從連續時間的影像分別去偵測邊，再利用邊的空間截面去分析，並把這些邊分為靜態的邊（即為手寫為字或圖片）與動態的邊（老師）如圖 2 所示。. （a）. （b）圖 2 Onishi 方法擷取結果[6]（a）輸入原始影像（b）擷取出黑板文字與老師. Liu[7-9]有一系列關於黑板教學影片的研究，在 Liu 提出的方法中，使用 Mean-shift Segmentation[10]對影像做分割，並利用統計的方式找出黑板的範圍，在截取完黑板之後，使用 Sobel Operator 取出粉筆字跡，再利用 Connected Components 去雜訊，以得到最終的筆跡資料。. 7.

(18) （a）（b）（c）圖 3 Liu 分割黑板結果與擷取出的文字結果[9]（a）原圖（b）黑板範圍（c）截取出來的文字. Imran 等人的研究[11]利用[12]提出的前景偵測模型分離出黑板與老師如圖 4，接著利用[13]的 adaptive Otsu thresholding method 做影像二值化找出黑板的文字內容如圖 5。. （a）（b）（c）圖 4 為 Imran 去除老師背景的實驗結果[11]（a）原始影像（b）前景影像（c）背景影像. （a）. （b）. 圖 5 為 Imran 擷取文字的結果[11]（a）原始影像（b）二值化影像 8.

(19) 2.2 黑板字跡的分析與應用 Seiji 等人發展出一套針對黑板場景做分割的系統[14]，他們藉由黑板的上下移動和擦黑板來做分割的時機點（研究限定在有多個可滑動的黑板教室），首先他們設計出兩套演算法，第一套利用灰階影像的像素平均值差異偵測黑板是否有移動，第二套演算法則是偵測擦黑板，利用 Sobel Operator 取出邊作為粉筆字，並統計粉筆字的像素(pixel)數量以判斷擦黑板的時間，此方法可以找到 97%的正確分割點。 Liu 等人[9]在成功找出黑板文字之後，利用黑板內容的像素量統計圖設計出一套 shifting window algorithm 找到單位時間內包含最多粉筆像素的畫面（frames），最後利用連續內容比對（Hausdorff distance）去除重複的筆跡，並找出關鍵影格，做為整部教學影片的摘要。. 圖 6 像素量統計圖，紅色的點為 Liu 判斷出的摘要畫面[9]. Imran 等人[15]將教學影片的內容利用 SVM 和 OCR 等技術加以分類（圖片、文字和方程式）。文獻[16]則有加入老師在上課講話中的話語（口說電子檔）與黑板上的文字做結合提供片段教學的語意標籤。 9.

(20) 先前研究之實驗影片皆為單部攝影機所拍攝，影片中之教學畫面無法包含完整的教學內容或無法清楚拍攝到黑板之字跡。因此本研究以雙部攝影機拍攝教學影片，並將左右兩邊之影像畫面合併，以呈現完整的筆記內容。文獻[9, 14]在蒐集完教學影片上的粉筆字後，利用統計每張畫面粉筆字的像素量高低以判斷擦黑板的時機點。但是本研究發現，老師在講解的過程中，當身體擋住黑板上的文字時，所統計的字跡變化量與擦掉黑板的字跡變化量接近，容易導致選取分割時機點或關鍵影之誤判。因此本研究設計出一套方法保留老師在寫字時身體蓋住的粉筆字，以增進判斷的準確率。. 10.

(21) 第三章研究方法本研究著重於尋找教學影片之片段切割點，並擷取有意義之影像做為片段內容之教學筆記，以利學生搜尋影片。本章共分為七小節，3.1 節為本研究系統流程，3.2 節將利用影像縫合之技術合併兩台攝影機拍攝畫面，3.3 節為擷取黑板範圍的方法而 3.4 節將更新非物件區域（無老師、學生或講桌遮蔽之區域），3.5 節為擷取黑板字跡，3.6 節為則為判斷切割點時機，最後在 3.7 節選取關鍵畫面作為教學筆記之用。. 3.1 系統流程圖 7 為本研究的系統流程圖，首先將教學影片合併兩台攝影機兩邊之拍攝畫面，第二步驟為擷取黑板範圍，接下來只更新物件區域內容，以避免因老師移動而擋住之字跡區域的情況，方便後續在統計字跡的判斷。去除黑板板面上以外的資訊後，本研究將利用區域二値化取出粉筆的字跡。之後分析黑板字跡像素的變化量，找出擦黑板的時間點作為影片之片段切割點。最後在每段切割的場景之間找出關鍵畫面，作為教學影片之片段筆記。. 11.

(22) 圖 7 系統流程圖 12.

(23) 3.2 合併兩台攝影機拍攝畫面本研究的研究重點是判斷擦黑板的時機點，由於正常影片速率約一秒有 29 張畫面，其中 29 張畫面之間的差異性並不大，因此本研究將一秒取一張畫面，供後續分析使用。在攝影機固定的情況下，若單部攝影機要拍攝完整的黑板範圍，黑板上的字跡將無法拍攝清楚。然而對於教學影片來說，黑板上的內容是非常重要的。因此若須要將黑板字跡拍攝清楚又要有完整的筆記內容，需要用到兩部攝影機拍攝。在此階段本研究主要利用影像縫合的技術[17]，將左邊與右邊攝影機畫面合成一張影像如圖 8（c），以呈現完整的教學畫面。縫合的技術主要分為三個步驟:特徵點配對、影像匹配與影像調和。首先利用 SURF[18]尋找影像之特徵點並將兩張影像做特徵點配對，再利用 Homography[19]方法將圖像變形以符合匹配的影像大小，之後尋找拼接縫並縫合。由於畫面之色彩可能會受光線或角度影響而有所不同，縫合後之圖像會有光線不均勻的現象產生，因此最後還需要做影像調和（Blend Image）以防止光線不均勻的現象。由於每一組（相同時間所拍攝到的左右兩邊畫面）畫面在找特徵點時不盡相同，最後產生的影像大小與角度會有差距，會影響後續的判斷；由於本研究所採用的攝影機是固定的，每一張畫面重疊部分將會是一樣的，因此本研究將記錄第一組合併成功的影像資料，作為之後畫面合併的依據，如此一來就能避免合併後之影像大小與角度不同之問題。 13.

(24) （a）. （b）. （c）圖 8 影像縫合之結果（a）左邊攝影機所拍攝畫面（b）右邊攝影機所拍攝畫面（c）影像縫合之結果. 3.3 擷取黑板範圍在此階段，本研究定義的黑板範圍，即畫面無老師或學生而只有黑板與黑板上面的粉筆字。首先將取樣出來的畫面，利用 K-means Segmentation[20]方法找出最大的區塊定義黑板的區域範圍。黑板在教學影片的畫面中佔大部份的範圍，所以黑板的顏色在分類結果中通常是最大的範圍，由於光源的變化、反光以及黑板上的粉筆灰影響，使黑板板面像素有色彩和灰階值不均勻的現象，單純用 RGB color space 分類無法明確地判斷出黑板範圍，因此本研究使用𝐿∗ 𝑎∗ 𝑏 ∗ color space[21]。𝐿∗ 𝑎 ∗ 𝑏 ∗ color space 是感知均勻性的色彩空間，接近人類視覺，它也可將亮度與顏色分開處理，而黑板的像素值亮度變化大，所以本研究去除掉亮度組成（𝐿∗ ）的影響將顏色組成（𝑎∗ 和𝑏 ∗ ）做為判斷的依據。由於在拍攝期間畫面是 14.

(25) 以黑板為主，而老師在講課期間也會出現在畫面中，為了能將兩者區別，所以上述的切割方法在實驗中本研究取 K=2（K 為 K-means Segmentation 分群的數量），切割的結果如圖 9（b）。由於攝影機固定，每張畫面之黑板邊界範圍會一樣，因此在處理黑板範圍時，本研究將切割掉高於和低於主黑板的區域(主黑板區域即是第一次分割的最大範圍)做為黑板範圍之邊界。因此本研究將 K-means 分割的結果二值化（分割的最大範圍像素值為 255，其他區域像素值為 0），二值化後先做型態學上的腐蝕（Erosion）處理，以避免黑板區域外之雜訊，影響黑板邊界範圍的切割，取 Connected Component Labeling 最大區域範圍作為主黑板的區域，藉由統一黑板範圍之邊界，以降低處理的複雜度如圖 9（c）。黑板上面的粉筆字因為與黑板的主要顏色差異大，所以在 K-means 的結果中粉筆字有時會被分類到非黑板的區域，因此本研究將利用 Connected Component Labeling 判斷非黑板的區域是否有字跡存在。由 K-means 所分割出來的非黑板區域之像素值為 255 如圖 9（d）。比較每個 component 𝐶𝑘 的大小, 𝑘 ∈ {1, … , 𝑚}, 𝑚為畫面中 component 數量，若𝐶𝑘 面積小於 threshold α，本研究將判斷該區域是被誤判為非黑板區域的文字，圖 9（e）之紅色字跡為沒有被分類為黑板區域的黑板文字。圖 9（f）為將誤判區域補回之結果。由圖 10（a）有些有顏色的粉筆字在 K-means Segmentation 時被分為黑板以外之區域，但經過本研究處理不同顏色之粉筆字也能在顯現在最終黑板上如圖 10（b）。 15.

(26) （a）. （b）. （c）. （d）. （e）（f）圖 9 為擷取黑板範圍的結果（a）原始畫面（b）K-means Segmentation 分群的結果，彩色部分為分群結果的最大群（c）框出黑板範圍區域（d）二值化黑板範圍（e）紅色顏色的部分為在沒有被分類為黑板區域的黑板文字（f）最終的黑板範圍. （a）（b）圖 10 不同顏色的粉筆字擷取黑板範圍的結果（此畫面有橘色、黃色、白色、藍色的粉筆字）（a）K-means Segmentation 分群的結果（b）最終的黑板範圍. 16.

(27) 3.4 更新非物件區域內容之前的研究中[9, 14]，在蒐集完教學影片上的粉筆字後，利用統計每張畫面粉筆字的像素量，以判斷擦黑板的時機點，但是本研究發現，老師在講解的過程中，有時候身體會擋住黑板上的文字，該畫面在最後計算完粉筆像素後，與擦掉黑板的粉筆像素數量接近如圖 11，而導致擦黑板的時機點誤判。. （a）. （b）. 圖 11 老師的身體擋住黑板字跡時易被誤判為擦黑板（a）老師的身體擋住黑板字（b）老師擦了一半的黑板. 為了避免上述情況發生，在找到了黑板的區域後，本研究將 3.3 節擷取出黑板範圍的結果分為物件區域（𝑝(𝑥, 𝑦) = 0，如:老師、學生或講桌）與非物件區域（𝑝(𝑥, 𝑦) ≠ 0，無老師、學生或講桌遮蔽之區域）如圖 12（b），𝑝(𝑥, 𝑦) 為畫面灰階像素值。非物件區域包含老師手寫之筆記內容，之後讀取新的畫面時，只更新此區域的內容，因此物件區域將會保留舊有的內容。更新非物件區域詳細方法如式（1）所示，𝑂(𝑥, 𝑦)為更新非物件區域內容之結果，𝐼(𝑥, 𝑦)為畫面原始像素值， 𝑂′ (𝑥, 𝑦) 為前一張更新非物件區域內容之結果像素值。 𝑂(𝑥, 𝑦) = {. 𝐼(𝑥, 𝑦), if 𝑝(𝑥, 𝑦) ≠ 0 𝑂′ (𝑥, 𝑦), otherwise. （1）. 17.

(28) 由於物件區域並不影響影像畫面之更新，因此被老師遮住的文字在之後的畫面中能保留下來如圖 12（c）。. （a）. （b）. （c）圖 12 填補物件區域（a）原始畫面（b）K-means Segmentation 分群的結果（c）填補物件區域之結果. 圖 13 則為比較傳統方法字跡像素量統計圖與本研究提出方法的差別，可以明顯的看出來未補上粉筆字的統計圖有較多的峰谷，易導致擦黑板的時機點誤判。. 18.

(29) 圖 13. 粉筆字像素量統計圖（x 軸為畫面編號，y 軸為字跡像素量）. 3.5 擷取黑板字跡本研究在此階段將擷取黑板字跡，首先將 3.4 節的結果轉為灰階圖如圖 14 （a），再利用二值化的方法取出黑板字跡。由於黑板上的文字是融合在黑板的顏色中，且隨著光源的影響而有所差異，離光源越遠的影像畫面之灰階像素值會跟著下降，很難用單一的 threshold 分開黑板與粉筆字如圖 14，所以本研究採用 adaptive threshold[22]方法進行二值化。. 19.

(30) （a）. （b）. （c）. （d）圖 14 單一的 threshold 無法清楚地分離粉筆字（a）灰階影像（b）threshold 值為 50（c）threshold 值為 100（d）threshold 值為 150. 在此本研究把 threshold 定義為 Τ(𝑥, 𝑦)，𝑇(𝑥, 𝑦)為在座標(𝑥, 𝑦)在𝑏 × 𝑏的範圍內之灰階像素值平均值，目前的實驗以𝑏 = 15擷取效果最佳（圖 15）（雜訊像素統計量為實驗擷取之像素統計量與實際畫面中字跡像素量相減值），𝑝(𝑥, 𝑦)為座標(𝑥, 𝑦)之灰階像素值，𝐵(𝑥, 𝑦)的值為二值化後的結果如式（2）。. 255, if 𝑝(𝑥, 𝑦) > 𝑇(𝑥, 𝑦) 𝐵(𝑥, 𝑦) = { 0, otherwise. （2）. 20.

(31) 圖 15 二值化擷取效果（x 軸為參數b，y 軸為雜訊像素量）. 雖然區域二值化之內容擷取結果較單一 threshold 二值化內容擷取結果完整如圖 16（b），但仍然會有許多雜訊存在於畫面中，若用形態學的方式去除掉雜訊，有可能會去除掉老師在黑板上寫的小符號或是較小的文字，例如數學符號中的「∴」因此本研究設計出一套過濾雜訊的系統以去除老師在二值化後偶爾出現的手及粉筆灰。在此步驟，每當新的畫面進來時，本研究會利用之前記錄的前三張畫面的每個像素值，和新的畫面的像素值，做次數的累加，若滿足四張畫面的該像素都是粉筆字（𝐵(𝑥, 𝑦) = 255）的條件，本研究才判定在這個像素是粉筆字，再重新畫出只有粉筆字的畫面，由於本系統需要累計四張的畫面，所以新的進來的畫面結果會延遲約四張畫面。本研究累積畫面之所以取四張是由於本研究觀察發現，不同雜訊出現在畫面上的時間約為一到兩張的畫面，所以本研究取四個畫面做為判斷的依據。若累積的畫面太長，老師很有可能已經擦掉黑板，或粉筆字被老師擋住而錯失正確出現在黑板上的粉筆字，圖 16（c）為去掉雜訊後之結果，即為最終黑板之字跡。 21.

(32) （a）. （b）. （c）圖 16 為本研究擷取黑板內容的結果（a）原始畫面（b）本研究二值化後的結果（c）過濾雜訊後剩下的黑板文字. 3.6 判斷切割點時機由於在擦黑板時，連續畫面中的字跡像素量會明顯地下降如圖 17 之 B 點到圖 17 之 C 點之變化，所以在本階段本研究將統計 3.5 節每張畫面所擷取黑板內容的結果，作為判斷擦黑板的依據。. 22.

(33) B D A. 1 23 45 67 89 111 133 155 177 199 221 243 265 287 309 331 353 375 397 419 441 463 485 507 529 551 573 595. C. 圖 17 粉筆字像素量統計圖（x 軸為畫面編號，y 軸為字跡像素量）A、C、D 為本研究找到之峰谷，其中 C 為正確擦黑板之切割點，B 點為擦黑板之前之時間點. 在統計完粉筆字跡像素變化量後，本研究首先在每段單位時間內（60 個畫面，即一分鐘）選擇出最少粉筆像素量之的畫面（字跡像素量之峰谷）作為擦黑板時間點的候選畫面Erasec，詳細方法如式（3）所示。𝑤𝑠𝑡𝑎𝑟𝑡 為每段單位時間之開始畫面編號， 𝑤𝑒𝑛𝑑 為每段單位時間之結束畫面編號， 𝑐ℎ𝑎𝑙𝑘(𝑙)為畫面之字跡像素統計量，𝑙 ∈ {𝑤𝑠𝑡𝑎𝑟𝑡 , … , 𝑤𝑒𝑛𝑑 }。若畫面數量的範為取太大，有可能會遺漏掉某些該被判斷為擦黑板時機的畫面，為了避免遺漏切割點的畫面，因此定義單位時間為 60 個畫面（圖 18）（Precision 與 Recall 將會在 4.1.4 節中介紹）。. Erasec =. arg min 𝑙∈{𝑤𝑠𝑡𝑎𝑟𝑡 ,…,𝑤𝑒𝑛𝑑 }𝑐ℎ𝑎𝑙𝑘(𝑙). （3）. 23.

(34) 圖 18 不同單位時間影響切割點的偵測（x 軸為單位時間，y 軸為準確率）. 找到候選畫面之後，本研究將分析這些畫面是否具備其他擦黑板的條件。由於老師的手寫速度有限，在正確擦黑板時機點之後幾個畫面的粉筆字跡像素必然少於擦黑板前的粉筆字跡像素，本研究之定義如下，𝑠𝑢𝑏𝑏𝑒𝑓𝑜𝑟𝑒 為候選畫面之字跡像素量與候選畫面前 60 張畫面之字跡像素量的差值（式（4）），𝑠𝑢𝑏𝑎𝑓𝑡𝑒𝑟 為候選畫面之字跡像素量與候選畫面後 5 張畫面之字跡像素量的差值（式（5）），若 𝑠𝑢𝑏𝑏𝑒𝑓𝑜𝑟𝑒 大於𝑠𝑢𝑏𝑎𝑓𝑡𝑒𝑟 的 2 倍，則代表此候選畫面不為誤判之擦黑板時機點。在選擇候選畫面之前的畫面時，由於老師擦黑板需要時間，所以需要必免避免選擇到擦黑板之間的畫面，本研究以前 30 張、60 張到 120 張統計其效果，以前 60 張效果最佳;而選擇後 5 張則是選在峰谷後幾張畫面，能確保老師不會寫太多字導致誤判。如圖 17 之 C 點可以觀察出老師在擦完黑板後，粉筆字跡像素變化量是逐漸遞增且 C 點之後幾個畫面之字跡像素少於 B 點（即擦黑板之前），而 A 點之前幾個畫面的字跡像素量與 A 點之後幾個畫面的字跡像素量相近，所以 A 點為非擦黑板之切割點。. 24.

(35) 老師在講課時，有時需要靠擦黑板來修改部分的錯字，所以並非每次的擦黑板都為切割場景的時機𝑆，因此在候選畫面與候選畫面前一分鐘畫面字跡像素變化量，必須大於 threshold 𝛽 ，如圖 17 之 D 點由於字跡像素之變化量小於β 則不為切割場景的時機點，詳細之切割時間點判斷如式（6）。 𝑠𝑢𝑏𝑏𝑒𝑓𝑜𝑟𝑒 = |𝑐ℎ𝑎𝑙𝑘(Erasec ) − 𝑐ℎ𝑎𝑙𝑘(Erasec − 60)|. （4）. 𝑠𝑢𝑏𝑎𝑓𝑡𝑒𝑟 = |𝑐ℎ𝑎𝑙𝑘(Erasec + 5) − 𝑐ℎ𝑎𝑙𝑘(Erasec )|. （5）. 𝑆 ∈ {Erasec }, where 𝑠𝑢𝑏𝑏𝑒𝑓𝑜𝑟𝑒 > 𝛽 𝑎𝑛𝑑 𝑠𝑢𝑏𝑏𝑒𝑓𝑜𝑟𝑒 > 𝑠𝑢𝑏𝑎𝑓𝑡𝑒𝑟 ∗ 2. （6）. 3.7 教學筆記之擷取在此階段，本研究將在每段切割場景選取該關鍵畫面作為教學筆記，以方便學生與老師在觀看或尋找教學影片的片段內容之用。由於老師在擦去黑板前，黑板的字跡量會逐漸增加，字跡量最多的畫面往往能擁有整段教學最完整的內容，然而字跡量最多的畫面，有可能為雜訊很多的畫面，因此本研究需要設計方法以避免選擇到雜訊過多的畫面。本研究觀察發現每位老師之手寫速度是有限的，正常的字跡統計量會呈現線性的狀態，畫面前後的字跡量相減之差異值不大。有雜訊或擦黑板時，畫面前後的字跡量相減之差異值大，將會讓此狀態不平衡。圖 19 為影片擷取片段之字跡統計圖，每段片段之間有許多峰頂（雜訊），影響關鍵畫面之選取。本研究利用前後畫面字跡像素量之差的平均值作為 threshold，之後再從通過 threshold 的後選畫面𝑛𝑜𝑡𝑒𝑐 中選取字跡量最多之畫面作為教學筆記𝑛𝑜𝑡𝑒。 25.

(36) 首先將𝑛定義為畫面之總數；𝑐ℎ𝑎𝑙𝑘 𝑠𝑢𝑏 (𝑖)為前後畫面之字跡像素統計量相減之差；threshold 𝛾為𝑐ℎ𝑎𝑙𝑘 𝑠𝑢𝑏 (𝑖)之平均值；若𝑐ℎ𝑎𝑙𝑘 𝑠𝑢𝑏 (𝑖) ≤ 𝛾，本研究將認為畫面𝑖為無雜訊影響之畫面。在 3.7 節中，本研究已經偵測到片段場景之切割時機點，本研究將尋找每段片段之起始點𝑆𝑠𝑡𝑎𝑟𝑡 到結束點𝑆𝑒𝑛𝑑 之𝑐ℎ𝑎𝑙𝑘𝑠𝑢𝑏 (𝑛𝑜𝑡𝑒𝑐 )，若通過 threshold 𝛾，本研究則選取𝑐ℎ𝑎𝑙𝑘(𝑛𝑜𝑡𝑒𝑐 )之最大值的畫面為本研究之關鍵畫面（教學筆記𝑛𝑜𝑡𝑒），方法如式（7-10）所示。圖 20（a）為影片片段字跡統計量最多之畫面，由於有些畫面出現雜訊，該顯示的字跡無法顯示出來，圖 20（b）為本研究擷取之筆記畫面，筆記畫面雜訊較少，該顯示的字跡也呈現在筆記上。. 𝑐ℎ𝑎𝑙𝑘𝑠𝑢𝑏 (𝑖) = |𝑐ℎ𝑎𝑙𝑘(𝑖 + 1) − 𝑐ℎ𝑎𝑙𝑘(𝑖)|,where i ∈ {1 , … , 𝑛 − 1}. （7）. ∑𝑛𝑖=1 𝑐ℎ𝑎𝑙𝑘 𝑠𝑢𝑏 (𝑖) 𝛾= 𝑛. （8）. ∀𝑛𝑜𝑡𝑒𝑐 ∈ {𝑖}, where 𝑐ℎ𝑎𝑙𝑘𝑠𝑢𝑏 (𝑖) ≤ 𝛾. （9）. 𝑛𝑜𝑡𝑒 =. arg 𝑚𝑎𝑥 ) 𝑛𝑜𝑡𝑒𝑐 ∈{𝑆𝑠𝑡𝑎𝑟𝑡 ,…,𝑆𝑒𝑛𝑑 }𝑐ℎ𝑎𝑙𝑘(𝑛𝑜𝑡𝑒𝑐. （10）. 圖 19 影片片段之字跡統計圖（x 軸為畫面編號，y 軸為字跡像素量） 26.

(37) （a）（b）圖 20 教學筆記之擷取結果（a）片段字跡統計量最多之畫面（b）本研究之擷取之畫面. 27.

(38) 第四章實驗結果與實驗流程說明本研究程式的開發環境為 Microsoft Visual Studio 2008，使用 C++語言撰寫，作業系統為 Windows 7，基本的影像處理採用 OpenCV 函式庫。本研究之實驗影片實際上課環境的教學影片，老師會在黑板面前講解課程，各個影片有不同光源變化（如反射在黑板的光與老師的影子），黑板上可能有沒有擦乾淨的粉筆灰，導致字跡擷取更加的困難。本章以漸進式的方法逐步分析在不同情況下之教學影片，對於片段定位點偵測與筆記字跡擷取效能之影響，以驗證本研究的可用性。. 4.1 實驗方法與評估方式本研究之實驗將分為四個部分，以驗證本研究的可用性，分別為（1）不同室內光線變化影片之片段切割偵測與教學筆記擷取（2）使用單一攝影機在實際上課環境影片之片段切割偵測與教學筆記擷取（3）使用雙部攝影機在實際上課環境影片之片段切割偵測與教學筆記擷取（4）白板教學影片之片段切割偵測與教學筆記擷取。本研究在每段實驗中，將分別對片段定位點偵測與筆記字跡擷取之效能進行比較。以下將分別介紹片段定位點偵測與筆記字跡擷取效能之評估方式。. 28.

(39) 4.1.2. 片段定位點偵測. 本研究利用實驗方法找出的擦黑板時間點，並與人工找出的擦黑板時間點做比較，人工找出的擦黑板時間點，定義為老師在講解上的考量而擦掉黑板上之字跡之時間點，其中擦掉小區域（範圍小於老師面積）之字跡不列入擦黑板之時間點如: 寫錯字。由於老師從開始擦黑板到結束擦黑板的時間不固定，因此老師開始擦黑板到開始寫下一段講課內容前之時間內都算人工判定之擦黑板的時間點，評估標準為 Precision值（式 3）及Recall值（式 4）。𝑁𝑐 代表偵測結果中正確的影像數目，𝑁𝑓 代表偵測結果中錯誤的影像數目，𝑁𝑚 代表偵測結果中未偵測到的影像數目。在本研究中，若遺漏偵測出片段定位點，則將會遺失該段落教學筆記之訊息，因此 Recall 值的重要性略高於 Precision。. Precision =. Recall =. 𝑁𝑐 𝑁𝑐 + 𝑁𝑓. （3）. 𝑁𝑐 𝑁𝑐 + 𝑁𝑚. （4）. 29.

(40) 4.1.4. 筆記字跡擷取效能. 本研究定義一個元素等於一個字元做為檢測的標準，利用人工觀看計算所得的字跡元素數量，與人工觀察實驗所得的字跡元素數量，進行效能比較與評估，由於本研究之處理結果將會把老師遮住的文字呈現出來，所以本研究將以人工判定老師所遮住的字元。評估標準為Precision值（式 5）及Recall值（式 6），擷取出的黑板上正確字跡元素為𝐵𝑐，未偵測到字跡元素為𝐵𝑚，偵測到之錯誤元素為𝐵𝑓 。本研究所擷取之字跡為學生筆記與影片引索之參考，筆記擷取之字跡以能學生理解為考量，因此Recall值的重要性略高於Precision。. Precision =. Recall =. 𝐵𝑐 𝐵𝑐 + 𝐵𝑓. （5）. 𝐵𝑐 𝐵𝑐 + 𝐵𝑚. （6）. 4.2 實驗影片之環境說明本研究之實驗影片皆以 Sony DCR-SR100 攝影機拍攝，解析度為720 × 480。本章提出了四組實驗以驗證本研究的可用性，其中四組分別為（1）不同室內光線之教學影片（2）單一攝影機在實際上課環境所拍攝之教學影片（3）雙部攝影機在實際上課環境所拍攝之教學影片（4）使用白板教學之教學影片。. 30.

(41) 4.2.1. 不同室內光線之教學影片. 為了觀察光源變化對影片之影響，本研究利用開關不同角度之日光燈，營造不同光源的效果，表 1 為影片之詳細資料。I-a 為光線最充足之影片（圖 21（a））而 I-b 可以看的出來右半邊的黑板區域較暗（圖 21（b）），I-c 光線明顯比 I-a 與 I-b 更為不明亮（圖 21（c））。. 表 1 不同室內光線之教學影片影片代號. 影片長度. 實際擦黑板次數. 實際筆記之字跡元素. I-a. 17 分 19 秒. 3. 526. I-b. 16 分 50 秒. 3. 353. I-c. 14 分 28 秒. 2. 417. （a）（b）（c）圖 21 不同光源下拍攝影片之影像截圖（a）I-a 之影像截圖（b）I-b 之影像截圖（c）I-c 之影像截圖. 31.

(42) 4.2.2. 單一攝影機在實際上課環境所拍攝之教學影片. 本階段之實驗影片使用單一攝影機所拍攝，實驗影片為實際上課環境的教學影片，此組教學影片為數學課之教學影片，每部影片所授課的內容不相同且非相同角度與時間所拍攝，表 2 為影片之詳細資料，圖 22 為各影片畫面之影像截圖。在實際上課影片中老師會在黑板面前講解課程，影片中的畫面包含老師、黑板、講桌與學生，各個影片有不同光源變化（如反射在黑板的光、老師的影子），黑板上可能有未擦乾淨的粉筆灰，導致字跡擷取更加的困難。. 表 2 單一攝影機在實際上課環境所拍攝之教學影片影片代號. 影片長度. 實際擦黑板次數. 實際筆記之字跡元素. II-a. 30 分 17 秒. 4. 563. II-b. 21 分 52 秒. 3. 225. II-c. 30 分 11 秒. 3. 485. II-d. 15 分 44 秒. 3. 414. II-e. 29 分 57 秒. 4. 544. II-f. 22 分 14 秒. 4. 683. 32.

(43) （a）. （b）. （c）. （d）（e）（f）圖 22 單一攝影機在實際上課環境所拍攝之教學影片之影像截圖（a）II-a 之影像截圖（b）II-b 之影像截圖（c）II-c 之影像截圖（d）II- d 之影像截圖（e）IIe 之影像截圖（f）II- f 之影像截圖. 4.2.3. 雙部攝影機在實際上課環境所拍攝之教學影片. 由於攝影機固定，若黑板範圍太大時，單一攝影機無法完全拍攝到完整的黑板範圍，因此本研究需要用到兩部攝影機拍攝，本階段之實驗影片使用雙部攝影機所拍攝，左右兩邊之攝影機拍攝到完整的黑板區域，本階段以雙部攝影機拍攝四節數學課之教學影片，表 3 為影片之詳細資料，圖 23 為教學影片兩邊影像合併結果之影像截圖。. 33.

(44) 表 3 雙部攝影機在實際上課環境所拍攝之教學影片影片代號. 影片長度. 實際擦黑板次數. 實際筆記之字跡元素. III-a. 22 分 14 秒. 6. 1603. III-b. 25 分 34 秒. 5. 1152. III-c. 31 分 33 秒. 4. 1489. III-d. 19 分 48 秒. 3. 737. （a）. （b）. （c）. （d）圖 23 雙部攝影機在實際上課環境所拍攝之教學影片之影像截圖（a）III-a 之影像截圖（b）III-b 之影像截圖（c）III-c 之影像截圖（d）III- d 之影像截圖. 34.

(45) 4.2.4. 使用白板教學之教學影片. 本研究除黑板教學影片實驗外，另外拍攝了兩部白板教學影片以檢驗本研究用於白板教學影片中的可行性，其中白板上的麥克筆顏色各不相同，老師的影子比黑板教學影片更為明顯，IV-b 老師衣服顏色與白板接近，表 4 為影片之詳細資料，圖 24 為教學影片中之截圖。. 表 4 使用白板教學之教學影片影片代號. 影片長度. 實際擦白板次數. 實際筆記之字跡元素. IV-a. 20 分 47 秒. 4. 660. IV-b. 13 分 46 秒. 2. 241. （a）. （b）圖 24 白板教學影片之影像截圖（a）IV-a 之影像截圖（b）IV-b 之影像截圖. 35.

(46) 4.3 實驗結果與分析 4.3.1. 不同室內光線變化影片之片段切割偵測與教學筆記擷取. 此三部影片為在不同室內光線下所拍攝之影片，實驗結果顯示在片段定位點之偵測不受光線影響（表 5）。. 表 5 不同室內光線變化片段定位點偵測之偵測結果影片代號. 實際擦黑板次數. 𝑁𝑐. 𝑁𝑓. 𝑁𝑚. Precision. Recall. I-a. 3. 3. 0. 0. 100%. 100%. I-b. 3. 3. 0. 0. 100%. 100%. I-c. 2. 2. 0. 0. 100%. 100%. 100%. 100%. Average. 在筆記字跡擷取之偵測結果（表 6），影片 I-c 之 Recall 明顯比較低是由於所拍攝之教學影片，由於光線過暗導致之黑板上的文字與字跡像素值相近，因而無法分割出部分筆記，造成某些文字無法擷取出來（圖 25），但是在筆記字跡擷取之實驗結果 Recall 平均值皆達 98.8%。. 表 6 不同室內光線變化筆記字跡擷取之偵測結果影片代號. 實際筆記之字跡元素. 𝐵𝑐. 𝐵𝑓. 𝐵𝑚. Precision. Recall. I-a. 526. 526. 6. 0. 98.8%. 100%. I-b. 417. 417. 8. 0. 98.1%. 100%. I-c. 353. 338. 6. 15. 98.2%. 95.7%. 98.4%. 98.8%. Average. 36.

(47) （a）（b）圖 25 室內光線昏暗之筆記擷取結果（a）原始影像（b）本實驗擷取之筆記. 4.3.2. 使用單一攝影機在實際上課環境影片之片段切割偵測與教學. 筆記擷取此實驗之教學影片為真實上課環境所拍攝之影片，表 7 為片段定位點偵測之偵測結果，Precision 皆達 100%，Recall 也達 95.2%以上。影片 II-f 有一定位點未偵測出來原因為擦黑板之面積範圍較小因此無法偵測（圖 26）。. 表 7 單一攝影機片段定位點偵測之偵測結果影片代號. 實際擦黑板次數. 𝑁𝑐. 𝑁𝑓. 𝑁𝑚. Precision. Recall. II-a. 4. 4. 0. 0. 100%. 100%. II-b. 3. 3. 0. 0. 100%. 100%. II-c. 3. 3. 0. 0. 100%. 100%. II-d. 3. 3. 0. 0. 100%. 100%. II-e. 4. 4. 0. 0. 100%. 100%. II-f. 4. 3. 0. 1. 100%. 75.0%. 100%. 95.2%. Average. 37.

(48) （a）（b）圖 26 擦黑板時間點之前後畫面（a）擦黑板之前畫面（b）擦黑板之後畫面. 在筆記偵測結果中（表 8），Recall 平均達 99.6%，因此本研究對於擷取出黑板上內容有良好的效果。而 Precision 達 81.0%，本研究觀察在 Precision 較低的影片中，黑板上的粉筆灰較多，因此擷取黑板字跡時被判定為字跡的部分如圖 27。. 表 8 單一攝影機筆記字跡擷取之偵測結果影片代號. 實際筆記之字跡元素. 𝐵𝑐. 𝐵𝑓. 𝐵𝑚. Precision. Recall. II-a. 563. 555. 81. 8. 87.2%. 98.5%. II-b. 225. 225. 70. 0. 76.2%. 100%. II-c. 485. 484. 166. 1. 74.4%. 100%. II-d. 414. 414. 158. 0. 72.3%. 100%. II-e. 544. 544. 91. 0. 85.6%. 100%. II-f. 683. 681. 114. 2. 85.6%. 99.7%. 81.0%. 99.6%. Average. （a）（b）圖 27 黑板上之粉筆灰對擷取字跡之影響（a）原始影像（b）筆記畫面 38.

(49) 4.3.3. 使用雙部攝影機在實際上課環境影片之片段切割偵測與教學. 筆記擷取此實驗用雙部攝影機拍攝影片，以驗證在實際上課中採用雙部攝影機錄製教學影片的可用性，表 9 為片段定位點偵測之偵測結果，平均之 Precision 達 85%， Recall 達 94.4%，影片 III-b 老師在講課中有請學生上台做題目，此時影像中之最大範圍為學生，黑板字跡在其間無法擷取出來，因此誤判為擦黑板時機（圖 28）。. 表 9 雙部攝影機片段定位點偵測之偵測結果影片代號. 實際擦黑板次數. 𝑁𝑐. 𝑁𝑓. 𝑁𝑚. Precision. Recall. III-a. 6. 6. 0. 0. 100%. 100%. III-b. 5. 4. 2. 1. 66.6%. 80.0%. III-c. 3. 3. 1. 0. 75.0%. 100%. III-d. 3. 3. 0. 0. 100%. 100%. 85.0%. 94.4%. Average. （a）. （b）圖 28 多人上台寫題目時造成擦黑板時機誤判（a）影像原圖（b）截取黑板範圍結果. 39.

(50) 在筆記偵測結果中（表 10），Recall 平均達 99.5%且 Precision 也達 90.7%，因此本研究對於擷取出黑板上內容有良好的效果。. 表 10 雙部攝影機筆記字跡擷取之偵測結果 Precision. Recall. 1597 149. 6. 91.4%. 99.6%. 1152. 1150 193. 2. 85.6%. 99.8%. III-c. 1489. 1478. 86. 11. 94.5%. 99.2%. III-d. 737. 733. 78. 4. 90.3%. 99.4%. 90.7%. 99.5%. 實際筆記之字跡元素. III-a. 1603. III-b. 𝐵𝑐. 𝐵𝑓. 𝐵𝑚. 影片代號. Average. 4.3.4. 白板教學影片之片段切割偵測與教學筆記擷取. 由於白板與黑板之特性並不相同（白板字跡灰階像素值低於版面灰階像素，而黑板則是相反），因此本研究在之程式需要稍作調整，如 K-mean Segmentation 分群的數量，目前實驗取 K=5，白板字跡二值化後也需做反色調整。在白板教學影片的實驗中，片段定位點偵測之偵測結果（表 11），Precision 與 Recall 皆達 100%，由此可判斷本研究在白板的教學影片之片段定位點偵測也有良好的效果。. 表 11 白板教學影片片段定位點偵測之偵測結果影片代號. 實際擦白板次數. 𝑁𝑐. 𝑁𝑓. 𝑁𝑚. Precision. Recall. IV-a. 4. 4. 0. 0. 100%. 100%. IV-b. 2. 2. 0. 0. 100%. 100%. 100%. 100%. Average. 40.

(51) 在筆記偵測結果中（表 12），Recall 平均達 98.3%且 Precision 也達 95.2%， IV-b 之白板的教學影片中，麥克筆之墨水不足導致字跡不明顯，因此 Recall 略低如圖 29。但是平均來說本研究對於擷取出白板上內容也有良好的效果。. 表 12 白板教學影片筆記字跡擷取之偵測結果影片代號. 實際筆記之字跡元素. 𝐵𝑐. 𝐵𝑓. 𝐵𝑚. Precision. Recall. IV-a. 660. 656. 37. 4. 94.6%. 99.3%. IV-b. 241. 230. 7. 11. 97.0%. 95.4%. 95.2%. 98.3%. Average. （a）（b）圖 29 麥克筆之墨水不足導致字跡不明顯（a）影像原圖（b）筆記畫面. 41.

(52) 第五章結論與未來研究 5.1 結論本研究提出一套智慧型教學輔助系統，能夠自動擷取出教學影片中之切割點與每段影片中之筆記重點。本研究使用影像縫合技術將兩台攝影機的畫面合併，並利用 K-mean 方法取出黑板範圍後，更新非物件區域之內容，即使老師身體擋住黑板也不影響內容的改變;在光線不同的情況下，本研究能清楚地擷取出不同顏色的粉筆字跡，之後統計黑板字跡來判斷老師擦完黑板所在之位置，最後在每段片段中擷取擁有該段最完整之關鍵畫面。本研究的經由四組教學影片實驗測試研究的可用性，實驗證明在判斷切割點之時機與筆記擷取部分皆有良好的效果。. 5.2 未來研究為了讓本研究更能適用於實際應用上，可針對以下方向做改進: (一) 本研究之教學影片採用固定式攝影機，需要在教學結束後才能分析與分割教學影片之內容，若能使用網路攝影機即時錄製並分析教學影片，遠距離之學生便能即時了解最新的資訊。 (二) 可考慮處理可移動式攝影機所拍攝之教學影片，偵測移動的過程，並利用影像縫合技術呈現完整的黑板範圍。 42.

(53) (三) 本研究之字跡擷取沒有針對粉筆字的色彩做判斷，若能偵測彩色粉筆字跡，並在最終筆記加以標記，更能表明老師所要表達之重點。 (四) 補齊教學筆記之破碎不完整的字跡。 (五) 本研究之教學影片只適用於老師一人站在講台講課，未來能考慮多人在講台之影片（如:學生能上台解題）。. 43.

(54) 參考文獻 [1]. H. Yang, M. Siebert, P. Luhne, H. Sack, and C. Meinel, "Automatic lecture video indexing using video OCR technology," in Multimedia, 2011 IEEE International Symposium on, 2011, pp. 111-116.. [2]. T. Tuna, J. Subhlok, and S. Shah, "Indexing and keyword search to ease navigation in lecture videos," in Applied Imagery Pattern Recognition Workshop, 2011 IEEE, 2011, pp. 1-8.. [3]. F. Wang, C.W. Ngo, and T.C. Pong, "Lecture video enhancement and editing by integrating posture, gesture, and text," Multimedia,IEEE Transactions on,2007, vol. 9, pp. 397-409.. [4]. M. Wienecke, G. A. Fink, and G. Sagerer, "Towards automatic video-based whiteboard reading," in Document Analysis and Recognition, Proceedings. 2003.Seventh International Conference on, 2003, pp. 87-91.. [5]. L.w. He and Z. Zhang, "Real-time whiteboard capture and processing using a video camera for teleconferencing," in Acoustics, Speech, and Signal Processing, 2005.Proceedings.IEEE International Conference on, 2005, pp. ii/1113-ii/1116 Vol. 2.. [6]. M. Onishi, M. Izumi, and K. Fukunaga, "Blackboard segmentation using video image of lecture and its applications," in Pattern Recognition, 2000. Proceedings.15th International Conference on, 2000, pp. 615-618.. [7]. C. Choudary and T. Liu, "Summarization of visual content in instructional videos," Multimedia, IEEE Transactions on, 2007, vol. 9, pp. 1443-1455.. 44.

(55) [8]. C. Choudary and T. Liu, "Extracting content from instructional videos by statistical modelling and classification," Pattern Analysis and Applications,2006, vol. 10, pp. 69-81.. [9]. T. Liu and C. Choudary, "Content extraction and summarization of instructional videos," in Image Processing,2006 IEEE International Conference on, 2006, pp. 149-152.. [10]. D. Comaniciu and P. Meer, "Mean shift: A robust approach toward feature space analysis," Pattern Analysis and Machine Intelligence,IEEE Transactions on,2002, vol. 24, pp. 603-619.. [11]. A. S. Imran and F. A. Cheikh, "Blackboard content classification for lecture videos," in Image Processing, 2011 IEEE International Conference on, 2011, pp. 2989-2992.. [12]. L. Li, W. Huang, I. Y. Gu, and Q. Tian, "Foreground object detection from videos containing complex background," in Proceedings, Multimedia,11th ACM international conference on, 2003, pp. 2-10.. [13]. A. Abutaleb and A. Eloteifi, "Automatic Thresholding of Gray-Level Pictures Using 2-D Entropy," in 31st Annual Technical Symposium, 1988, pp. 29-35.. [14]. S. Okuni, S. Tsuruoka, G. P. Rayat, H. Kawanaka, and T. Shinogi, "Video scene segmentation using the state recognition of blackboard for blended learning," in Convergence Information Technology, 2007. International Conference on, 2007, pp. 2437-2442.. [15]. A. S. Imran and F. A. Cheikh, "Lecture content classification tool," in Communications Control and Signal Processing, 2012 5th International Symposium on, 2012, pp. 1-6. 45.

(56) [16]. A. S. Imran, L. Rahadianti, F. A. Cheikh, and S. Y. Yayilgan, "Semantic tags for lecture videos," in Semantic Computing, 2012 IEEE Sixth International Conference on, 2012, pp. 117-120.. [17]. M. Brown and D. G. Lowe, "Automatic panoramic image stitching using invariant features," International Journal of Computer Vision,2007, vol. 74, pp. 59-73.. [18]. H. Bay, T. Tuytelaars, and L. Van Gool, "Surf: Speeded up robust features," in Computer Vision–ECCV 2006, ed: Springer, 2006, pp. 404-417.. [19]. R. Hartley and A. Zisserman, Multiple view geometry in computer vision vol. 2: Cambridge Univ Press, 2000.. [20]. J. MacQueen, "Some methods for classification and analysis of multivariate observations," in Proceedings of the fifth Berkeley symposium on mathematical statistics and probability, 1967, p. 14.. [21]. Lab color space. Available: http://en.wikipedia.org/wiki/Lab_color_space. [22]. P. Varano, G. Casciola, and I. Sessione, "Elaborazioni di Immagini con la Libreria OpenCV," pp. 27-32.. 46.

(57)