自動化演講錄製系統

全文

(1)第一章簡介. 1.1 研究動機：隨著科技的進步、網路寬頻的快速提升，使得網際網路可以傳輸影像、聲音等多媒體資訊，讓網路成為聲光並茂的傳遞媒介，因此以網路為基礎的網路廣播 (Webcast)及其應用越來越受企業界、學術界的重視。在企業界，各大公司邁向跨國化企業發展，其子公司可能分佈於各個不同國家，因此在不同地區及時區的職員或客戶運用瀏覽器或其他廣播軟體來收看網路廣播的比例越來越多。例如：新進員工的訓練或在職訓練，將訓練內容預先放置在網路伺服器上，依職員的需求可多次觀看線上訓練課程，藉此提升員工及公司的競爭力。另外應用於視訊會議或產品發表，可藉由網路廣播供員工隨選公司產品發表或公司內部的視訊會議(圖 1.1)等，讓員工更了解公司內部運作，提升員工的參與感，增進公司內部的溝通。在教育界採用網路廣播的比例也逐漸增加，許多學校發展出遠距教學系統可提供線上隨選來廣播課程內容(圖 1.2)，不僅可以全天候 24 小時查詢而且可重複播放。在學校的實況活動時(如貴賓演講)也可在網路上及時的廣播，讓教育不會因為地理距離的因素剝奪了學生學習的機會藉此可強化學生的學習。. 1.

(2) 圖 1.1 遠距會議(圓方科技股份有限公司). 圖 1.2 遠距教學（台大數位學習網）學校或公司單位經常舉辦各種專題演講、研討會或系列演講，內容涵蓋了各個領域，兼具學術與應用等各層面，尤其主講者皆是社會優秀傑出人才，其中不乏重量級大師之人物，這些都是超越課堂教學之重要學習資源，也是學生及職員相當重視的學習教材，因此在網路廣播對這類的資源更加重視。而為了保存這類珍貴資產，較佳的作法通常是僱用一個攝影團隊，藉由他們專業的攝影技術在整個演講過程當中發揮其專長以數位媒體型式保存這些演講。要完整的錄製一場演講其攝影團隊主要的工作如下： (1). 場勘作業：在演講前攝影團隊需依照演講場的不同來規劃人員的安排及器材的設置(如攝影機、麥克風等等)。 2.

(3) (2). 演講拍攝：在演講當中攝影師需控制攝影機依依照其專業的技術在不同的情況下做不同的攝影動作，例如：攝影師會讓攝影機畫面持續跟拍著講者，不至於讓講者走出畫面之外，在拍攝影像上也會依照攝影師的經驗讓畫面看起來更美觀。若是用固定攝影錄製就沒有上述優點，且會遺漏演講中重要或觀眾感興趣的畫面。. (3). 影片後製：演講結束後攝影團隊視情況將影片做後製處理的動作，將聲音、講者影像、視覺教具影像(黑板、投影片等)做結合的動作，在將之輸出放置在網路上，供遠端觀眾點選收看。. 雖然錄製演講能夠讓更多觀眾方便且不受地域限制的線上收看演講，但是錄製一場演講的成本卻可能過高。在[Qio 01]和[Row 01]裡分別說明了他們系統花費的成本，主要可以歸納出兩部分：(1)固定成本(fixed cost)：包含電腦伺服器、麥克風、攝影機等等。(2)人事成本(labor cost)：演講需要雇用攝影團隊，其工作包含場地器材設置、在演講期間攝影機的操作以及影音後製處理。建置一個錄製演講系統當中，固定成本在只需要一次的花費，但是人事成本卻在每次演講上是重複的支出。因此，若公司或學術單位長期的對專題演講進行錄製的工作，其成本花費可能過高的原因就是僱用專業攝影團隊，例如在 Microsoft 公司裡，每場演講僱用攝影團隊的花費就超過了 500 美金(約台幣 16000) [Yon 01] 。然而在學校或公司有限的預算下，並不適合每場課程以及演講都僱用專業攝影團隊來攝影，因此在以往的課程錄製大多只針對投影片的錄製. 3.

(4) 以及對講者的聲音錄製。但是這樣的錄製結果會讓學生或員工因為畫面的單調而可能對課程感到無趣，進而影響到學習成效。為了改善在錄製影片的品質及流暢度且又能降低人事成本，因此本研究主要在發展一自動化演講錄製系統。這裡是使用一台 PTZ(pan、tilt、zoom)攝影機拍攝一場演講，透過影像處理技術，可以取得目前講者以及布幕資訊，經由這些資訊得知目前演講的狀況。更進一步的在演講過程中針對各種不同的情境之下，依照專業攝影師建議的規則[Yon 03] [Qio 01]所建立的自動錄製程序，自動的對 PTZ 攝影機下達不同的攝影動作以錄製出理想的影片。使的輸出的影像更接近於真實攝影師實際操作的水準。 1.2 文獻探討：許多研究為了降低人事成本而提出不同的自動化錄製系統，例如 Berkeley Internet Broadcasting System(BIBS)[Row 01]、AutoAuditorium system[Bia 04]、iCam system[Qio 01] [Wal 04] [Yon 08]、University of Toronto ePresence system[Ron 03]以及其他系統[Rui 01][Oni 04] [Wan 03]等等，這些研究是依他們系統不同的考量建置出不同方面的自動化工作。其中，[Rui 01][Oni 04]主要是針對控制攝影機、追蹤講者以及追蹤觀眾的自動化操作；[Wan 03]則是將演講時擷取投影片並將投影片上文字作處理，使得投影片文字更清晰，讓遠端觀眾能夠更清楚投影片上的內容；[Ron 03]則是在演講過程中自動的將演講內容廣播至網路上。. 4.

(5) 一場演講中，主要包含三個部分需呈現給遠端觀眾，包括：視覺教具(Visual Aids)、聲音以及影像。 (1)視覺教具：視覺教具指的是演講者演講過程中可能使用到能夠輔助演講內容的工具，例如投影機、電子白板、黑板等。錄製或擷取其視覺教具的影像有助於遠端觀眾對講者演講內容有更好的吸收與組織，[Sug 99]事先從講者取得投影片，在演講結束後，自動的將講者影片與投影片做結合，但不一定每位演講者都樂意給予投影片，為其缺點。[Qio 01]則是另外架設一台攝影機對視覺教具作拍攝，與其他攝影機同步錄製，並同時呈現於廣播上，部分學校作法是將視覺教具拍攝的影像以及其他攝影機拍攝影像放置不同頻道的網路廣播上供觀眾需求切換影像。 (2)聲音：演講中聲音重要兩個來源是演講者以及觀眾，一般是請講者佩帶無線麥克風，以及在演講場地上設置多個麥克風，將之全部連接在一台混合器上，在演講期間需要一位工作人員操控混合器，當演講者講話時將其他麥克風降低一點收音的音量；相反的觀眾發問問題或回答問題則調高收音的音量。[Yon 08] 在觀眾的收音上，則是設置八個麥克風陣列藉由聲源定位 (sound source location)的技術可使收音的效果更清晰，可消除大部份的背景雜音，也不需人員的操作。 (3)影像：輸出的影像是一場演講中相當重要的呈現，然而要拍出高品質的畫面需要僱用攝影師在現場拍攝，但為了降低成本，則改使用固定的攝影機拍. 5.

(6) 攝，其攝影效果非常的有限，而近年來的研究是使用廣角且高解析度的攝影機或是使用 PTZ 攝影機來拍攝講者，再運用追蹤講者以及追蹤觀眾的技術來拍攝演講的場景[Yok 05] [Zha 05] [Yon 01]。 [Yok 05]是架設一台廣角高解析度攝影機(1400x810)於演講聽後方，對講者進行追蹤的程序後，擷取其子影像(720x480) 輸出畫面，Yokoi 為了避免兩個連續子影像在原始影像上跳動太快(jittery motion)，因此定義了連續子影像的移動函數，讓畫面更平順。[Zha 05]則是使用一台 PTZ 攝影機，使用 Yokoi 相同方式擷取子影像，並加上當講者移動到原始畫面以外時，自動控制 PTZ 攝影機追蹤講者。而本研究主要針對影像呈現作進一步的改良，主要方向有二：一、提升追蹤講者的準確率：一場演講的錄製，最重要的畫面莫過於演講者存在的位置，因此追蹤講者的程序非常重要，然而[Zha 05] [Yok 05]的追蹤講者方式是使用 temporal differencing 方法利用兩張影像相減找出影像中有移動的物體。此種方法容易將移動物與部份背景一起擷取出來。因此本研究加入了平均位移(mean shift)追蹤法[Com 00]，以提升追蹤的準確率，其追蹤原理是藉由 Mean shift iteration 來尋找影像中和目標影像相似度最高的區塊。二、攝影機的自動化錄製：在取得講者位置後，攝影機的錄製不光只針對講者進行跟拍，也需視講者在不同環境下做不同的攝影動作。[Yon 03]藉由邀請幾位專業的攝影師定義出拍攝影片時重要的規則，本研究即參考其規則，在取得布幕位置及講者資訊後自動對 PTZ 攝影機下達指令來拍攝出品質較佳的影片。. 6.

(7) 將影像呈現作更佳的改良後，在未來，我們將更進一步的將聲音與視覺教具呈現的部份結合在我們的系統當中，以完整的將演講或教學內容收錄下來，呈現給需要的觀眾。 1.3 論文架構第二章中，我們將對整個自動攝影系統做描述，包含系統架構，環境設置等。第三章介紹前處理，第四章介紹取得演講資訊，第五章展示實驗結果，第六章為結論、未來方向及工作。. 7.

(8) 第二章系統架構本章將簡介系統的整體架構，內容分為三部分，首先會先介紹攝影專家對演講錄製系統的建議與規則，再來介紹是系統設置以及系統流程。 2.1 系統運作規則 Yong Rui 在[Yon 03]中提到，一般而言要完整的錄製演講需要三台攝影機 (圖 2.1)，一台對演講者攝影的攝影機(Lecturer Camera)，對著演講者持續的跟拍，為演講當中主要的拍攝畫面。另一台對觀眾攝影的攝影機 (Audience Camera)，置於演講廳前面對著觀眾攝影，主要拍攝現場觀眾的狀況及反應。最後則是對布幕攝影的攝影機(Screen Camera)，拍攝演講者所準備的投影片，讓遠端觀眾能夠更完整的了解演講內容。他們邀請了四位專業的攝影師針對這樣類似的演講錄製系統提出了一些規則，其中包含了攝影機架設規則、講者追蹤以及講者取景規則、拍攝觀眾及觀眾取景規則、以及切換攝影機畫面的規則。以下說明這些規則：. 圖 2.1 三台攝影機的架設. 8.

(9) 攝影機架設規則：規則 1.1：攝影機安置在能夠攝錄到講者的好角度，也就是攝影機拍攝方向與攝影目標所夾的角度能夠越小越好。規則 1.2：拍攝講者的攝影機其高度大約在一個人高度或更高一點，以免觀眾或其他人遮住攝影機。規則 1.3：當有兩台以上的攝影機時，攝影機的架設點要在 LoI(line of Interest)同一側，所謂的 LoI 就是演講者與發問者之間的連線，目的是避免在切換不同攝影機的畫面時造成觀眾對畫面中方向的混淆。規則 1.4：拍攝觀眾的攝影機其高度最好能夠拍攝到全部觀眾的影像。規則 1.5：盡量避免拍攝到其他攝影機。講者追蹤以及講者取景規則：規則 2.1：調整攝影機使的講者頭部盡量維持在畫面的中央位置，並讓頭部上方的畫面保留一點空間。規則 2.2：講者臉朝的方向或手勢的方向在畫面中多給一些空間。規則 2.3：當攝影機跟著講者移動而旋轉時，盡量緩慢的旋轉。盡量讓遠端觀眾沒有感受到攝影機的旋轉。規則 2.4：若是真的沒辦法緩慢旋轉，則以 Zoom out 來取代旋轉。拍攝觀眾及觀眾取景規則：規則 3.1：優先拍攝發問問題的觀眾。如果不能決定發問者的位置，便顯示. 9.

(10) 全部觀眾的畫面。規則 3.2：若是演講的觀眾太少，就不要顯示觀眾的畫面。規則 3.3：就算有很長時間沒有人發問，也要偶爾顯示觀眾的畫面。切換攝影機畫面的規則：規則 4.1：維持合理的切換畫面。也要避免太機械化的切換畫面。例如：若是維持每 20 秒切換畫面，遠端觀眾便會發覺且能夠猜測切換畫面的時間，這樣的效果較差。規則 4.2：切換畫面後最好維持一小段的時間(3~5 秒)之後再做切換，避免遠端觀眾因為切換時間太短而分心。規則 4.3：同個類型的畫面也最好不要維持太久。給定各類型畫面的最長維持時間。例如：講者攝影機的畫面別超過 5 分鐘，觀眾畫面別超過 20-30 秒。規則 4.4：在講者將一個觀念講完或是觀眾問完問題，這時是一個切換畫面很好的時機。規則 4.5：不要讓畫面發生跳接(jump cuts)的現象。也就是切換畫面時，不要讓前後兩個畫面中的人的大小及位置太接近。. 2.2 系統設置 2.1 節中 Yong Rui 提到的演講錄製系統是使用了三台攝影機做錄製，而本研究重點在於演講錄製系統中，對演講者做攝影的動作，因此這裡只使用一台對演. 10.

(11) 講者拍攝的攝影機(Lecturer Camera)。傳統上是以固定式的攝影機來拍攝，但由於在固定式攝影機的拍攝下，拍攝的畫面較呆板，而且演講者在講台上的移動，可能使得演講者離開拍攝的畫面，這樣的拍攝效果會較差，遠端觀眾也可能會錯失重要的演講畫面。因此，為了能夠持續的拍攝到演講者，因此這裡使用了具有旋轉以及變焦功能的 PTZ(Pan,Tilt,Zoom)攝影機(圖 2.2(a))，來對演講者攝影。設置攝影機的地點方面，由前面 2.1 節提到，專業攝影師以豐富的攝影經驗針對演講場景的攝影機架設地點建議了幾個規則，由規則 1.1 以及規則 1.2 所建議的攝影機擺放的角度以及高度，來裝置攝影機地點如圖 2.2(b)所示，考慮到要能夠盡量拍攝到講者與布幕，所以將攝影機置於演講廳正後方，而攝影機的高度大約一個人的高度。將攝影機安置好後，透過攝影機拍攝將演講過程輸入本系統中，拍攝畫面如圖 2.3。. 11.

(12) (a)PTZ 攝影機(Sony EVI-D30). (b)場地架設圖 2.2 攝影機架設. 圖 2.3 攝影機拍攝影像 2.3 系統流程整個自動演講錄影系統的流程如圖2.4所示，主要分成(Preprocessing)前處理、取得演講資訊(Acquisition of Lecture Information)與攝影機動作(Camera action)。. 12.

(13) 圖 2.4 系統流程 2.3.1前處理前處理部份主要有兩個程序，偵測演講者與偵測布幕。在偵測演講者方面，假設在一般演講過程中，只有講者在講台上活動，並且演講者會時常的將視線重心擺在觀眾上，而面向觀眾及我們的攝影機。因此在攝影機錄製的畫面當中，我們假設出現的人臉即為演講者的臉部。在此使用Viola與Jones提出的Adaboost人臉偵測演算法[Vio 04]，偵測出人臉的區塊，來決定演講者臉部的位置。偵測布幕的方面，我們假設在一般使用投影機的演講環境下，會將現場的光線調整較暗，使得投影畫面能夠顯示的更清晰更明亮，也因此投影畫面的亮度在 13.

(14) 拍攝畫面中相對的大於週遭。我們在拍攝畫面中決定一個最佳的閥值來過濾出較亮的區域，這些區域便很有可能為布幕區域，最後再利用這些區域的長寬比以及面積比來決定那個區域為布幕，便可以得到布幕的座標資訊。. 2.3.2 取得演講資訊取得演講資訊程序中，主要為了得到布幕位置與演講者的資訊。布幕位置的取得，主要是透過布幕追蹤來得到。在偵測布幕程序中取得布幕的座標資訊後，若PTZ攝影機做旋轉、上下或鏡頭縮放的動作後，我們可以利用座標資訊以及攝影機的內部參數和紀錄攝影機的動作來預測出新的布幕位置。這種預測的方法主要有兩個優點，第一，因為前述的布幕擷取所需的時間較長，而利用預測的方法可以快速的在下一個時間點中得出布幕的位置；第二，即使攝影機鏡頭沒拍攝到布幕，我們也可以估計布幕相對於演講者的位置，提供攝影機動作的資訊。取得演講者的狀態方面，主要是取得演講者的位置及移動速度、講者臉朝。本研究使用樣版搜尋比對法，來比對經由前處理的人臉偵測程序取得人臉的區塊。主要是先將此區塊當作樣版影像，分析區塊內的顏色與邊線方向的特徵；再從下一張影像中不同的位置區塊中，計算出區塊內的特徵，以便與樣版影像進行相似程度的比對。接著藉著分析追蹤後的結果，得到講者的位置及移動速度的資訊。而講者臉朝方向的取得，是藉由追蹤後所得到的人臉區塊，分析區塊內的膚色分布情形來做為講者面向的判定。. 14.

(15) 2.3.3攝影機動作經由前面的程序，可以取得布幕位置、演講者資訊，依照其相對的關係，我們希望讓PTZ攝影機自動做出適當的動作來攝影。根據2.1節中由專業攝影師針對所提出的重要拍攝規則2.1到規則2.4，我們建立了攝影機控制表(表2.1)，在演講過程中，經由取得演講資訊的程序，攝影機便依照訂定的控制表在不同的情境下，下達適當的動作，便可以拍攝出效果較好的畫面。表 2.1 攝影機控制表(*代表忽略) case 演講者. 臉. PTZ 動作. 1. 在布幕外慢移. *. pan、tilt 動作,跟著演講者. 2. 在布幕外快移. *. Zoom out. 3. 在布幕外,向觀眾講解. 4. 走向布幕. 5. 臉部位置不適合. *. pan 或 tilt 讓講者保持在畫面適當的位置. 6. 尺寸不適合. *. Zoom 到適當大小. 7. 適當位置. *. 無. 8. 走進步幕. *. Zoom out，pan tilt 動作使影像包含全部布幕. 9. 在布幕內走動. *. 無. 10 在布幕內接近幕邊 11 消失. 左(右) 布幕方向. 向左(右)微調讓講者在畫面偏右 (左) Zoom out 影像包含布幕部份. 布幕反方向包含一些布幕以外的場景以便偵測 *. Zoom out. 15.

(16) 第三章前處理本章將介紹前處理，主要分為兩個工作，第一是講者偵測，第二是布幕偵測，以下便對兩項工作分別介紹。 3.1 講者偵測我們假設演講者在演講的過程中一定會面對觀眾，因此，偵測影像中的人臉部分就可以得知演講者的位置。本系統所採用的人臉偵測方法是由 Viola 與 Jones 提出的 Adaboost 演算法所訓練出來的人臉分類器來進行偵測，其基本原理是對整張影像進行地毯式的人臉特徵比對，從中截取出不同尺寸、不同位置的影像，經由訓練出來的分類器判斷是否為人臉，最後輸出符合分類器檢測的人臉區域。 Adaboost 演算法所訓練出來的分類器，是由多個弱分類器(weak classifier) 組成的一個強分類器(strong classifier)。這裡的弱分類器 Viola 是使用 Haar 特徵所構成的。. 3.1.1 Haar 特徵 Haar 特徵的結構是由兩個或多個黑色以及白色的矩形相鄰所組成，例如(圖 3.1)幾個例子，計算方式為比較黑色區塊與白色區塊灰階的差異值，對於人臉影像上不同位置不同結構會有不同程度的結果(圖 3.2)。. 16.

(17) 圖 3.1 Haar 特徵示意圖. 圖 3.2 Harr 特徵計算示意圖以(圖 3.2)第一張圖來說，落於黑色區塊的是鼻子部分，白色區塊是臉頰部分，一般而言鼻子灰階的總和會大於臉頰的灰階總和，Haar 就是利用這種簡單的運算結果得到特徵的存在性。要計算 Haar 特徵一般會使用 Integral Image 來加速計算。對於輸入的影像，將建立一個 Integral Image。在 Integral Image 中點 ( x,y ) 代表向左邊界至上邊界所圍起來的區塊的灰階值總和，如(圖 3.3)所示 Integral Image 定義如下：. ii ( x,y ) . . I ( x, y). x  x , y  y. 其中 ii ( x,y ) 代表 Integral Image 上點 ( x,y ) 的值， I ( x, y ) 代表輸入的原始影像點. ( x, y ) 的灰階值。. 17.

(18) 圖 3.3 Integral Image 示意圖當建立出 Integral Image，便可以快速的計算出輸入影像上一矩形內的灰階值總和，以(圖 3.4)為例，要計算 D 區域內的灰階值總和灰階值總和，先在 Integral Image 取得 P1 、 P2 、 P3 、 P4 各點的值，我們表示成： P1  A ， P2  A+B ， P3  A+C ， P4  A+B+C+D 以 P2 為例， P2 代表 A 區域加上 B 區域的灰階值總和，以此類推。再利用簡單的加減： P4  P3  P2  P1  (A+B+C+D)-(A+C)-(A+B)+A=D 便可以計算出 D 區域內的灰階值總和。藉由這樣的計算，在 Haar 特徵的結構中便可以快速的分別求出黑色區塊及白色區塊內的灰階值總和，在作相減的計算求出特徵值。. 圖 3.4 Integral Image 快速計算示意圖. 18.

(19) 3.1.2 Adaboost 演算法 Adaboost 演算法原理是在每一輪的演算決定一個弱分類器的種類、大小及位置，經過好幾輪的演算，選出許多個分類器，最後由這些弱分類器組成一個強分類器。Adaboost 演算法過程如下： A. 給定樣本集合 S  {( x1 , y1 ),..........( xm , ym )} ，其中 xi  X ， yi  {-1,1} ，. y  1 表示正面樣本 (人臉影像) ， y  1 表示負面樣本 (非人臉影像) ， m. 為樣本數量。初始每個樣本的權重： D (i )  1/ m 。所有弱分類器集合. H  {h1 .........hk } ， k 為所有弱分類器個數，設定要挑選弱分類器的數目 T ，也就是演算法的迴圈次數。 B. 對 t  1,......T ： (1)找出最佳的弱分類器 ht ，使的錯誤率  j 最小： m. ht  arg min  j ；  j   Dt (i )[ yi  h j ( xi )] ；(其中 h j  H ) i 1. (2)如果  j . 1 則結束演算法 2. (3)依照選出來的弱分類器 ht 調整它的權重：. 1  t 1  t  log( ) 2 t (4)更新每個樣本的權重：. Dt 1 (i) . Dt (i ) exp( t yt ht ( xi )) Zt. 其中 Z t 為正規化的參數。 C. 經過 T 次的挑選，會產生 T 個弱分類器，最後集結這些弱分類器成. 19.

(20) 為. 強分類器： T. C ( x)  sign(  t ht ( x)) t 1. 最後訓練出來的 C ( x ) ，便可以將輸入的資料進行分類。. 3.1.3 偵測結果在輸入影像中，以地毯式搜尋方式；從不同位置、不同大小取出待分類的影像(圖 3.5(b))，經過影像尺寸的調整，再輸入到 Adaboost 演算法產生出來的強分類器 C ( x ) ，即可判別出影像為人臉或非人臉，再標示出輸入影像中人臉的位置 (圖 3.5(c))。在這裡我們使用 OpenCV 所訓練出來的分類器進行偵測。OpenCV 的全稱是 Open Source Computer Vision Library，是一個跨平台的計算機視覺庫。OpenCV 是由英特爾公司發起並參與開發，以 BSD 許可證授權發行，可以在商業和研究領域中免費使用。OpenCV 可用於開發時的圖像處理、計算機視覺以及模式識別程序。其中計算機視覺庫中便包含了 Adaboost 演算法產生出來的強分類器，本研究即使用此分類器進行人臉偵測。. 20.

(21) (a)輸入影像. (b)分類器判定. (C)偵測結果圖 3.5 人臉偵測結果 3.2 布幕偵測在一般演講場景下，布幕亮度相對於布幕以外的場景較高，可依此特性可得知其影像灰階值分佈的明亮區域為布幕的部份，灰暗區域為布幕以外場景，所. 21.

(22) 以在這裡我們使用 Otsu’s method 找出影像上最佳的臨界值過濾出布幕的部份，作為偵測布幕的方式。 3.2.1. Otsu’s method. 在一影像上。令 i 表示影像的灰階值。它們的直方圖當作他的機率密度函數. P(i) 的估測。因為我們影像在演講廳的環境下，所以整個影像的密度函數可以很明顯的分為兩個主要的分布（圖 3.6）：一個是較明亮區域(主要是由布幕組成，圖 3.6 中 C2)；一個是較為灰暗區域(主要由布幕外的場景組成，圖 3.6 中 C1)。 Otsu’s method 可求出一個最佳的閥值 T，讓影像可藉由此閥值 T 過濾其中ㄧ個區域，這裡我們過濾掉灰暗區域的像素，保留下明亮區域的像素，藉此來偵測布幕位置。. 圖 3.6 影像灰階圖分布 Otsu’s method 最主要的想法是找出一個最佳的門檻值，使得兩群(C1、C2) 變異數的總和為最小。以下為 Otsu’s method 表示式：C1 和 C2 分別代表者陰暗區域與明亮區域的灰階分布，L=256，即灰階範圍 0~255，N 為總 pixel 數。令灰階機率分布為 P(i) . ni 。C1 及 C2 像素個數所佔的比例： N. 22.

(23) T. L 1. W1  Pr (C1 )   P(i) ， W2  Pr (C2 )  i0.  P(i). (3.1). i T 1. 這裡滿足 W1  W2  1 。而 C1 及 C2 平均亮度： T. L 1. P(i ) *i W1. u1   i 0. ， u2 . P (i ) *i i T 1 W2. (3.2). . 整張影像的平均亮度： L 1. n *i 1 uT   i  N i0 N. L 1.  n *i. (3.3). i. i 0. C1 及 C2 各自的變異數： T.  12   (i  u1 )2 i0. P(i ) W1. I 1. ，.  22 .  (i  u ) 2. i T 1. 2. P (i ) W2. (3.4). C1 和 C2 之間的變異數為：.  B2  W1 (u1  uT )2  W2 (u2  uT ) 2. (3.5). C1 和 C2 的變異數和為：.  W2  W1 12  W2 22. (3.6). 原始影像的變異數：.  T2   W2   B2 f. (3.7). 其中  T2 為一個定值，將灰階值由 0 到(L-1)一個一個代入，得出 256 個  W2 值，挑出最小的所對應的灰階值 T，即為最佳的閥值。圖 3.7 為 Otsu’s method 的一個例子，圖 3.7(a)為一演講場景的影像，首先將此影像用中的灰階值計算其直方圖(Histogram)，可得出圖 3.7(b)所表示的灰階分布圖，再透過此方法求出最佳的閥值，再過濾出影像中大於此閥值的像素。得出圖 3.2(c)，此例子的最佳閥值為 172。 23.

(24) 2000 1500 1000 500 0 1 31 61 91 121 151 181 211 241. (a)原始影像. (b)灰階直方圖. (c)過濾結果圖 3.7 Otsu’s method 在得到如圖 3.7(c)的影像後，再利用 Connect Component 方法取得如圖 3.8(a)中各個區塊，假設得到了 k 個區塊，我們取出各個區域中，離原點最近 j j j j j j j j 與最遠的座標 ( xmin , ymin )、( xmax , ymax )， j  1,......k，我們便以 xmin xmax 為寬、ymin ymax. 為高，將各個區塊以方形框出。得到這些區塊後我們需要從中判斷哪一區塊為布幕，這裡判斷的機制是以區塊的長寬比、面積比以及面積大小來做為判斷依據。以長寬比來說，一般布幕的長寬比有 4:5、16:10、16:9 這幾類。而面積比的方面，一般的布幕為方形，我們便依此特性來做判斷，令 A j 為 j 區塊所框出來的. 方形面積， a j 為 j 區塊的面積，當. aj Aj. 越接近於 1， n j 所呈現的形狀越接近所 24.

(25) 框出來的方形，也越有可能為布幕。另外，在演講場景下，布幕面積不至於過小，因此我們定義一個面積的門檻值 B，將小於門檻值 B 的區塊去除。我們此上述三個判斷方式過濾掉不可能為布幕的區塊。如圖 3.8(b) 為判定的結果，再以框出來的方形作為布幕位置，最後將布幕位置由輸入影像中標出如圖 3.8(c)。. (a)取出各個區塊. (b) 判定結果. (c)標出布幕位置圖 3.8 布幕判定 3.2.2 取得布幕資訊在 3.2.1 節的程序中可以取得布幕的區塊後，需要取得布幕的一些資訊，以利布幕追蹤程序的進行。由於本系統是藉由布幕座標與攝影方向所夾的角度與攝影機旋轉的角度這兩個角度來預測布幕在下一張影像中的位置。因此這裡我們需要取得布幕在影像上的座標位置，以及該座標位置與攝影機中心所夾的角度。 25.

(26) 首先取得布幕的座標，因為布幕為方形，所以取出其四個角的座標。令四點座標為 ( x1t , yt1 ) , ( xt2 , yt2 ) , ( xt3 , yt3 ) ,. ( xt4 , yt4 ) 如圖 3.9(a)所示，其中定義時間. t  0 。接著可利用三角函數公式：.   tan. 1. d f. (3.8). 分別計算出各點座標與攝影機中心所夾的角度，其中 d 為座標到中心點的距 1 1 2 2 離， f 為 focal length 。各座標的角度標示為 ( tx , ty ) , (tx ,ty ) ,. 3. 3. 4. 4. 1 1 (tx , ty ) , (tx , ty ) 。以 ( xt , yt ) 點為例(圖 3.9(b))，首先，可以透過指令. 命令 PTZ 攝影機回傳目前的 focal length，再取得布幕座標 ( xt1 , y1t ) 後，便可 1. i. 1. 以用公式(3.8)來計算出tx 與 ty 。這裡將影像座標改用 tx 表示，主要是為 i. 了在追蹤布幕程序時，藉由 tx 與攝影機轉動的角度  這兩角度來預測出布幕在下一時間點的座標。. 26.

(27) (a)布幕座標. (b)座標角度圖 3.9 布幕座標資訊. 27.

(28) 第四章取得演講資訊取得演講資訊程序中，主要是取得布幕位置與演講者狀態。布幕位置的取得，是根據前一個時間點中布幕位置，依攝影機的轉動方式計算出布幕現在的新位置，詳細方法將在 4.1 節中介紹。演講者的狀態主要是指演講者的位置及其臉部的面向。在此我們使用平均位移(Mean Shift)演算法來追蹤講者位置，4.2節將詳述平均位移演算法的概念與原理，4.3節介紹如何將平均位移演算法應用在物體追蹤上。最後，4.4節將介紹講者臉部面向的擷取。 4.1 追蹤布幕在 3.2 節布幕偵測程序中，我們可以得知系統啟動時布幕四個角落的座標。接下來，我們便根據 PTZ 攝影機的動作資訊，計算出布幕的新位置。這種方式比重新偵測布幕較能快速得到布幕在下一張影像上的位置，也能在攝影機沒有拍攝到布幕時，得到布幕相對於演講者的位置。 y image center. image plane. focal length (. z. k. P  x   y    z . P  x   y     z  . f). O. i. x. 圖 4.1 空間上布幕座標與影像平面關係圖 28.

(29) 圖 4.1 為空間中的布幕座標(以其中一點座標 P 為例)與攝影機影像平面的關係圖，而布幕追蹤的目的是得到空間中的 P 點在攝影機變動後的新位置。在此，我們使用攝影機的變動參數值，計算出 P 點在目前影像平面上的新位置 P 點。變動參數值主要分為兩部分，第一是攝影機的轉動參數值，主是攝影機光軸(optical axis)的角度變換(攝影機 pan、tilt 動作)，第二是攝影機的焦距變動值，焦距 f (focal length)的改變(攝影機 Zoom 動作)。在攝影機的轉動方面，我們可以控制攝影機的上下或左右轉動的角度，布幕的座標預測，便是根據系統控制左右旋轉的角度  P 與上下旋轉的角度  T 來計算 P 點在下一張影像中的位置。圖 4.2 中表示攝影機左右旋轉的角度  P 的示意圖，假設空間中的 P 點在時間 t 時，投影在影像平面上的座標為 ( xti , yti ) ， P 點 i. i. 與攝影機中心所夾的角度為 ( tx , ty )，攝影機焦距為 f 。當在下一時間點 t+1，攝影機左右旋轉了角度  P ，此時 P 點的 x 座標與攝影機中心所夾的角度為 i. i. tx1  tx   P ，且焦距不變。透過三角函數公式的推導求得： i P xi  x  f * tan(     t t )  i i  yti  f *sec( P  tx ) * tan(ty ). (4.1). 便能求出在時間 t+1 時， P 點在影像上的座標 ( xti1 , yti1 )。同理，在攝影機上下旋轉了角度  T 後可推得 P 點在影像張影像上的座標 ( xti1 , yti1 ) ：.  xi  f *sec( T   yi ) * tan( xi )  t t t  i  yti  f * tan( T  ty ) 29. (4.2).

(30) 可將(4.1)式(4.2)式整理成：.  xi  f *sec( T   yi ) * tan( P   xi )  t t t  i i  yti  f *sec( P  tx ) * tan( T  ty ). (4.3). ( xti1 , yti1 ). y. y. ( xti , yti ). Image Center. x. t. f. y. p. x. f. tx. Camera Center. P. 圖 4.2 攝影機旋轉示意圖在攝影機的變焦(Zoom)方面，可藉由 f (focal length)的改變與三角形的等比關係來預測出 P 點在下一個時間點投影在影像平面上的座標，如圖 4.3 中，以預測 x 座標為例，空間中的 P 點在時間 t 時，投影在影像平面上的座標為 xti ，攝影機焦距為 ft ，當在下一時間點 t+1，攝影機的焦距改變為 ft 1 ，再透過三角形等. 30.

(31) 比的性質. ft ft 1. xti f  i  xti1  t 1 * xti ，便可以求出在時間 t+1 時， P 點在影像上的 xt 1 ft. 座標 xti1。. 圖 4.3 攝影機變焦示意圖數學表示如下：在演講環境下，假設布幕在場景中不會改變位置，在時間. t=0 時. 藉由偵測布幕程序得出布幕四點座標分別為(. xt1 , y1t ),. 2 2 3 3 4 4 ( xt , yt ),( xt , yt ),( xt , yt )。由空間座標與影像平面的關係整理成：. xti 其中 i =1,2,3,4, 轉動後. xi y i i  ft , yt  f t z z. f 為 focal. length, t 為時間;假設在攝影機上下或左右. f t  f t 1 ,且空間中 ( x, y, z)t 不改變(布幕位置不會改變)，當攝影機. 做了旋轉動作後，各點的座標表示為： 31.

(32)  xi  f *sec( T   xi ) * tan( P   xi )  t t t t  i i  yti  ft *sec( P  tx ) * tan( T  ty ). (4.4). 布幕四點座標對於攝影機中心所夾的角度為： i.  txi  tan 1 xt , ft   xi  xi  P ,  t t 1. yi. t  tan i. i 1 yt. ft. , t  0;. i. ty ty1  T ,. t 0. (4.5). 在攝影機變焦動作方面，藉由攝影機現在時刻的焦距 ft 與前一時刻焦距 ft 1 來預測變焦後布幕的四點座標：. xti  ( xti1 ) *. ft f t 1. yti  ( yti1 ) *. ft f t 1. (4.6). 圖 4.4 顯示追蹤布幕結果，圖 4.4(a) (b)為攝影機旋轉的預測結果，圖 4.4 (a)為攝影機向左旋轉前，藍色框代表布幕的位置，圖 4.4 (b)為攝影機向左旋轉後，藍色框標示出預測後結果。圖 4.4(c) (d)為攝影機變焦的預測結果，圖 4.4(c)為攝影機向左旋轉前，藍色框代表布幕的位置，圖 4.4(d)為攝影機向左旋轉後，藍色框標示出預測後結果。. 32.

(33) (a)攝影機向左旋轉前. (b)攝影機向左旋轉後. (c)攝影機變焦前. (d)攝影機變焦後. (圖 4.4 布幕預測結果：(a) (b)攝影機旋轉的預測結果，(c) (d) 攝影機變焦的預測結果. 預測的布幕位置用藍線框出). 由於 PTZ 攝影機在實際運作上，可能無法完全精準的旋轉及變焦到系統下達的角度或焦距，預測出來的位置有可能有些誤差。因此，若是預測的位置在包含影像畫面中，我們便能夠針對預測的位置做修正(如圖 4.5)：在目前的影像中(圖 4.5 (a))，取出比預測的布幕的大小稍微大一點的影像(圖 4.5 (b))，再經過 3.2 節介紹的布幕偵測程序進行偵測(圖 4.5 (c))，由偵測出來的結果，對預測的布幕位置做修正(圖 4.5 (d))。. 33.

(34) (a)布幕預測結果. (b) 取出影像. (c)布幕偵測. (d)位置修正. 圖 4.5 布幕位置修正. 4.2 平均位移(Mean Shift)的基本概念在一 d 維空間 R d 中，空間上散佈著 n 個資料點， X 為其位置 x i 的集合， X  {xi }in1，(圖 4.6 中小圓點)，考慮空間中一個參考位置 x 其平均位移向量(Mean. Shift Vector) M h (x) 的計算如下：. M h (x) . 1  (x i  x) n x i Sh. (4.7-1). . 1  (xi )  x n x i Sh. (4.7-2). 其中 S h 是以 x 為中心 h 為半徑所構成的圓， S h (x)  {s : (s  x) t (s  x)  h 2 } (藍色圓圈)， n 表示落在 S h 內屬於 X 的資料點個數。(4.7-1)式中， M h (x) 為平均位置(4.5 式)與參考位置 x 所形成的平均位移向量(圖 4.6 黃色箭頭) ， (x i  x). 34.

(35) 是 x i 相對於參考位置 x 的偏移向量。令(4.7-2)式第一項為：. mh (x) . 1  (xi ) n xi Sh. (4.8). mh (x) 表示落在 S h 內 n  個資料點的平均位置(圖 4.6 綠色點)。. 圖 4.6 平均位移示意圖最初 Fukunaga 就將 M h (x) 向量稱做為平均位移 (Mean Shift) 。 Yizong Cheng[Yiz 95]在 1995 年對平均位移的基本形式(4.8 式)作了兩方面的擴展： (1). 基本形式中，在範圍 S h 內的資料點位置 x i 不管離參考點位置 x 多遠，對計算平均位移向量 M h (x) 所造成的影響是一樣的。但是一般來講，資料點離參考點越近對估計 S h 範圍內平均位移向量造成的影響越大，也就是越接近參考點 x 的 x i 具有較高的重要性，以此概念加入核函數(Kernel Function)。. (2). 對空間上所有的資料點而言，每個資料點的重要性不全然相同，因此對每個資料點依其重要性加入權重係數 w(x i ). 35.

(36) 根據以上概念可以將基本的平均位移向量 M h (x) 擴展成： 2. n. x x k( i ) w(x i )x i  h i 1 M h ,k (x)  x 2 n xi  x k( ) w(x i )  h i 1. (4.11). 2. x x 其中： k ( i ) 為核心函數， h 為核心函數的半徑； w( x i ) 為 x i 的權重值， h. w( xi )  0 。也可將(4.10)式擴展為： n. 2. x x k( i ) w(x i )x i  h i 1 m h , k (x)  2 n xi  x k( ) w(x i )  h i 1. (4.12). 隨著平均位移理論的發展，在近代的研究中所提到的平均位移演算法為迭代演算法，演算法如下： (1)在空間上給定一個初始位置 x t ， t  0 ， t 表示迭代的次數。 (2)以 x t 為參考位置，計算平均位置 m h , k (x t ) 。 (3)如果 m h , k (x t )  x t   則結束，否則進入(4) ，  為門檻值。 (4)令 x t+1 為 m h , k (x t ) ， t  t  1 回到(2)。. 36.

(37) (a) 計算出新參考位置 x t+1 。. (c)計算下一參考位置。. (b)移至新參考位置。. (d)重複迭代，當 m h , k (x t )  x t   則停止。. 圖 4.7 平均位移演算法示意圖由圖 4.7(a)可看出平均位移向量 M h , k (x) 會指向資料點分佈密度較密集的方向；根據起始參考點 x 0 與(4.10)式可以得到新的參考點 x1 ， x1  m h , k (x 0 ) ，再由新的參考點計算下一個參考點，經過幾次迭代後，參考點 x t ( x t  m h,k (x t 1 ) )會逐漸移向空間上資料點分佈密度較高的地方(圖 4.7(c))，當參考點 x t 與前一個參考點 x t1 的距離小於某一門檻值時則演算法停止(圖 4.7(d)) 。其中參考點 x t 可依照不同的應用而做調整，例如：當 x t  X 時，平均位移演算法被稱為blurring process[Com 02]，可應用來做分群(clustering)的工作。若以機率密度函數來看，機率密度函數的梯度是指向機率密度較高的方向 37.

(38) 向量，而 M h , k (x) 可看成是參考點 x 指向空間資料點分佈密度較高的方向向量，觀察兩者之間的共通點，可以將平均位移向量 M h , k (x) 也可當作指向機率密度梯度的方向向量。. Template image. Iq. Matching. Image Sequence y. Candidate image I p,y. Search range Image. It. 圖4.8 樣版比對搜尋法示意圖 4.3 平均位移應用於人臉追蹤平均位移(Mean Shift)追蹤演算法是一種快速的樣版比對法，樣版比對法必須先定義兩種影像，分別為樣版影像及候選影像。樣版影像 I q 是透過人臉偵測程序取得人臉的區塊，分析區塊內的顏色特徵或其他特徵(例如：紋路、edge)得到。候選影像 I p ,y 是對輸入影像定義一個搜尋範圍，在此範圍內以 y 為中心位置所取出與樣版影像大小相同的區塊，用於與樣版影像進行相似程度的比對。根據不同的位置可定義出不同的候選影像，從這些候選影像中找出與樣版影像比對後相似程度最高的候選影像作為比對結果(如圖4.8所示)。在這裡我們所使用的平均位移追蹤演算法[Com 00]來找出與樣版影像最相似的候選區塊的位置，主要優點在於簡化其相似程度的運算，並快速的找出相似程. 38.

(39) 度最高的區塊，完成追蹤的目的。 4.3.1節中定義樣版影像和候選影像的區塊特徵表示，在4.3.2節會介紹樣版影像和候選影像的比對方法，4.3.3節則會介紹如何使用平均位移追蹤法從定義的搜尋範圍內快速尋找與樣版影像最相似的候選影像。4.3.4節則會介紹如何使用平均位移追蹤法從定義的搜尋範圍內快速尋找與樣版影像最相似的候選影像。. 4.3.1 區塊特徵表示從人臉偵測程序中偵測出的人臉區塊，我們將該影像區塊當作樣版影像 I q 。在目前的影像中從定義的搜尋範圍內以 y 為中心，可取出 I p ,y 當作候選影像。為了比較 I q 影像與 I p ,y 影像的相似程度，我們需要分析這兩者影像的特徵，並得到兩者的特徵函數，我們定義兩者的特徵函數為 q 與 p (y) ，藉著計算 q 與 p (y) 之間的差異，來判斷 I q 影像與 I y 影像的相似程度。這裡所使用的特徵函數分為色彩分布密度函數與EOH(Edge Orientation Histogram)特徵函數。而我們定義的樣版影像與候選影像中的像素，距離樣版中心點的越近，其特徵的重要性也越大，因此可以加入核心函數(kernel function) 來表示重要性。以下介紹色彩分布密度函數的建立：令 {x *i }i 1...n 代表樣版中所有像素位置的集合，中心點為 (0,0) ，再定義一個函數 b : R 2  {1.....m} ， m 為色彩索引值， b(x*i ) 為像素在位置 x *i 的色彩索引值(color index)，以本論文為例，攝影機擷取. 39.

(40) 的影像為24位元的影像(R，G，B各8位元)，色彩索引值最大為 28 。定義樣版影像的色彩分布密度函數 q c 為：. q c  {quc }u 1,.......m. (4.13). 其中： 2 1 n q   k ( x*i ) [b(x*i )  u ] C i 1 c u. n. m. 2. C：正規化常數， C   k ( x*i ) ，使得  quc  1 。 i 1. u 1. 2. k ( x*i ) ：為Epanechnikov核心函數。.  (x) ：為Kronecker delta function。定義 {x i }i 1...n 來表示候選影像內所有像素位置的集合，而以 y 表示候選影像的中心位置， y  {x i }i 1...n ，並且使用核心函數k。定義候選影像的色彩分布密度函數 p c (y) 為：. p c (y)  { puc (y)}u 1,.......m. (4.14). 其中：. 1 p (y)  Ch c u. 2. n. x y k( i ) [b(x i )  u ]  h i 1 2. m x y Ch ：正規化常數， Ch   k ( i ) ，使得  puc (y)  1 。 h i 1 u 1 n. 2. k ( x*i ) ：為Epanechnikov核心函數。.  (x) ：為Kronecker delta function。 h ：核心函數的半徑。 40.

(41) 圖4.9表示樣版影像或候選影像的色彩分布函數示意圖，而色彩分布函數的精確度以色彩索引m的大小來決定。理論上精確度越高分析結果會越好，但是當精確度的要求越高，系統運算量也會相對的提高，為了避免運算量太大，我們降低了精確度，將24位元的影像(R，G，G各8位元)降至15位元(R，G，G各5位元)，讓精確度與運算量之間達到一個平衡點。. 0.12 Probability. 0.1 0.08 0.06 0.04 0.02 0 0. 3. 6. 9. .. 12. .. .. .. .. 63. Color. 圖4.9色彩機率分布 Comaniciu[Com03]使用色彩密度函數當作特徵函數，但容易受到光線的因素而影響追蹤結果，尤其在演講環境當中，當演講者進入布幕時，演講者身上的光線變化非常的劇烈，更容易追蹤失敗。因此本研究採用了 Weijin 在[Wei03]中所提出的，藉由增加 EOH(Edge Orientation Histogram)的特徵與色彩密度函數的結合來降低在追蹤上光線變化的影響，提高追蹤的準確度。在EOH建立前先將樣版影像或候選影像經過Canny邊緣偵測後，取得邊緣影像 (圖4.10(b))，再以邊緣影像上的邊緣方向來建立出EOH。. 41.

(42) 圖4.10 邊緣偵測影像（a）原始影像(b)邊緣影像 EOH的建立：令 {x *i }i 1...n 代表樣版中所有像素位置的集合，中心點為 (0,0) ，再定義一個函數 o : R 2  {1.....v} ， v 為邊緣方向索引值（ v  8 ）， o(x *i ) 為像素在位置 x *i 的邊緣方向索引值(color index)。定義樣版影像的邊緣方向密度函數 q e 為：. q e  {qre }r 1,.......v n. (4.15). 2. qre  C  k ( x *i ) [o(x *i )  r ]. 其中：. i 1. C：正規化常數， C . v. 1 n.  k( x. * 2 i. ，使得  qre  1 。 ). r 1. i 1. 2. k ( x*i ) ：為核心函數。.  (x) ：為Kronecker delta function。定義 {x i }i 1...n 來表示候選影像內所有像素位置的集合，而以 y 表示候選影像的中心位置， y  {x i }i 1...n ，並且使用核心函數k，定義候選影像的邊緣方向密度函數 p e (y) 為：. p e (y)  { pre (y)}r 1,.......v n. 其中. 2. x y p (y)  Ch  k ( i ) [o(x i )  r ] h i 1 e r. 42. (4.16).

(43) Ch ：正規化常數， Ch . v. 1 2. n. x y k( i )  h i 1. ，使得  pre (y)  1 。 r 1. 2. k ( x*i ) ：為核心函數。.  (x) ：為Kronecker delta function。 h ：核心函數的半徑。. 圖4.11表示樣版影像或候選影像的邊緣方向機率示意圖。. Probability. 0.2 0.15 0.1 0.05 0 0. 1. 2. 3. 4. 5. 6. 7. 8. EOH. 圖4.11邊緣方向機率分布 4.3.2 Bhattacharyya 係數藉由取得樣版影像與候選影像的特徵函數( q 與 p (y) )，來判斷兩者之間的相似程度或差異程度，判斷方法在這裡使用統計學上的 Bhattacharyya 係數，定義如下：.  (y)  [ p (y), q ]   p (y)qdu. (4.17). 將(4.17)式以離散的特徵函數來表示，因此可調整如下：.  (y)  [ p (y), q ]   p (y)q. (4.18). 由(4.18)式可知道，  (y)  [0,1]，  (y)  R ，當  (y) 越接近 1 時代表 p ( y ) 與 q(u ) 相似程度越高，相反的  (y) 越接近 0 則 p (y) 與 q(u ) 相似程度越低。. 43.

(44) 圖 4.12 Bhattacharyya 係數分布[簡 04] 4.3.3 平均位移追蹤演算法平均位移追蹤演算法的目的是藉由前一張影像追蹤結果的位置 y0 來尋找在目前影像中與樣版影像最相似的候選影像的位置 y 。尋找過程中若使用全域搜尋比對法，對輸入影像所定義的搜尋範圍內所有位置形成的候選影像都與樣版影像做相似程度的計算(相似程度分布如圖 4.12)，圖 4.12 中的高峰位置即表示候選影像與樣版影像相似程度最大。但是這個方法會耗費非常多時間在相似程度的計算上，為了簡化計算量，將 Bhattacharyya 係數   y  ，在 y = y 0 時(4.18 式)可利用泰勒展開式(Taylor Expansion)展開，得到：.   y    [ p (y), q ] . 1 1 p  y0  q   p  y   2 2. q p  y0 . (4.19). 再來將 p  y  分別以(4.14)與(4.16)式帶入整理成： 1 1   y    [ p(y), q]   p  y0  q  2 2Ch m. 其中 wi    [b(x i )  u ] u 1. n. 2. y  xi wi (x)k ( )  h i 1. (4.20). v quc qre   [ o (x )  r ]  i puc (y 0 ) r 1 pre (y 0 ). 演算法的目的就是要找到一個候選影像使得   y  接近於 1，也就是說與樣版 44.

(45) 影像的相似程度最大。(4.20)式的右式第一項中，因為 y 0 為一個定值，所以. 1 1 p  y0  q 也為一個定值，故   y  與  p  y 0  q 是互相獨立的，因此可以  2 2 1 知道 Bhattacharyya 係數的大小和 2Ch. 值也就相當於要找出讓. 1 2Ch. y  xi wi k ( ) 有關，要找出   y  最大  h i 1 2. n. y  xi wi k ( ) 最大的 y 值，可將(4.20)表示為  h i 1 2. n. 1   y  L  2Ch. 其中 L . 2. n. y  xi wi k ( )  h i 1. (4.21). 1  p  y0  q 。因為函數的梯度會指向函數的極大值，所以可藉由對 2.   y  函數的梯度估算找出函數的極大值。   y  的梯度   y  的估算為: 2. 2 n x y   y   w y  x i  k ( i ) 3  i 1 i  2Ch h. (4.22). 另外我們定義 k (x) 的負導函數 g (x) , g (x)   k ' (x) ，再將上式整理為： 1   y   3 Ch. 2. x y  i1 wi  x i  y  g ( i h ) n. (4.23). 2. x y 將(4.23)式的分子分母同乘上  i 1 g ( i ) 得： h n.   y  . 2  1  n xi  y g ( )   3 i 1 Ch  h           (1 ). 2   n xi  y w x  y g ( )    i 1 i  i h   2   (4.24) n xi  y g( )    i 1      h      (2). 其中(2)就是以 g (x) 為核函數得到的平均位移向量(Mean Shift vector)，記做 M h , g  x  ，我們便可以看出平均位移向量 M h , g  y  與   y  同向，因此可利用平均位移演算法逐漸收斂至   y  其鋒值處， M h , g  y  平均位移向量： 45.

(46)  xi  y 2   xi  y 2  n x  y g w x g  i 1  i   h  i  i 1 i  h  wi      y M h, g (y)  2 2  x y   x y  n n i 1 g  i h  wi  i1 g  i h  wi     n. m. 其中 wi    [b(x i )  u ] u 1. (4.25). v quc qre   [ o (x )  w ] 。  i puc (y 0 ) r 1 pre (y0 ). 在 [Comaniciu 00] 提到機率密度函數估計，使用 Epanechnikov Kernel Function 所得的追蹤效果較佳，所以區塊特徵的表示中(4.3.1 節)使用的核心函數為 Epanechnikov Kernel Function。因此(4.25)式中 k (x) 為核心函數為 K E (Epanechnikov Kernel Function)，其負導函數 g (x) 為 KU (Uniform Kernel Function)，可將 M h , g  y  改寫成： n. wx i. M h , KU (y) . i 1 n. i. y. (4.26). w. i. i 1. 求出 M h , g  y  後使用平均位移演算法，沿著 Bhattacharyya 係數   y  增加量最大的方向(梯度方向)前進。圖 4.13 中，我們可以先計算出在 y 0 點的平均位移向量(4.25 式)，利用求出的向量可以計算出下一個位置 y1 ，令 y 0  y1 ，再一次求得在 y0 點的平均位移向量，如此反覆的不斷迭代運算，便可以逐漸往 Bhattacharyya 係數分佈函數的鋒值前進，直到 y 0 與 y1 之間的距離小於一個門檻值，則停止此平均位移演算法，此時 y 0 便會接近於 Bhattacharyya 係數的最大值，而鋒值代表以 y 0 為中心的候選影像和樣版影像相似程度最大。. 46.

(47) 圖 4.13 平均位移向量示意圖，X,Y 軸代表影像上座標，Z 軸代表 Bhattacharyya 係數[簡 04] 上述所提到移動物件的追蹤方法，這裡將完整的敘述追蹤程序，首先從攝影機輸入的影像找出所要追蹤的物件後，將物件區塊當作樣版影像，在本研究以人臉偵測程序所偵測出來的人臉區塊當作樣版影像，接下來進入移動物件的追蹤程序[Comaniciu 03]：一、將樣版影像計算出相對的特徵函數 q c 與 q e ，如果是第一次迭代，便由樣版影像中心位置當作起始位置 y 0 ，二、取得 y 0 後，取出現在的候選影像，算出相對應的特徵函數 p c (y0 ) 與 p e (y 0 ) 。. 三、計算 Bhattacharyya 係數：  (y0 )  [ p (y 0 ), q ]   p(u, y 0 ) q 。 m. 四、根據 wi    [b(x i )  u ] u 1. v quc qre   [ o (x )  w ]  i puc (y 0 ) r 1 pre (y0 ). 計算出候選影像內各個像素的權重 {wi }i 1.... n. 47.

(48)  x i  y0 2  x k  i1 i u  h  wi    y ，得到新的候選影像五、由(4.25)式 M h , KU (y 0 )  0 2  x i  y0  n  i1 ku  h  wi   n. 位置 y1 ：  x i  y0 2   i1 xi ku  h  wi   y1  2  x y  n  i1 ku  i h 0  wi   n. 以新位置 y1 更新 p(y1 ) 和計算 [ p (y1 ), q ]   p(y1 )q 六、當  [ p (y1 ), q ] .  [ p (y 0 ), q ] 時，令 y1  1 (y1  y0 ) ，因為計算出的 2. 平均位移量不一定會使得 Bhattacharyya 係數增加，因此增加此步驟七、如果 y1  y0   ，則停止迭代，否則令 y.0  y1 ，回到步驟二執行，這裡的  為門檻值。藉由上述的追蹤流程，即可得知講者在目前影像中的位置。另外，可藉由連續影像的追蹤程序，得知講者在前後兩張影像中的相差位置，又可以得到前後兩張影像的相隔時間，便可以求出演講者在影像上移動的速度。 4.4 講者面向經由 4.3 節的追蹤程序後，可以在連續影像中得知目前講者在影像中的區塊位置。為了攝影機的動作更加完整，不光是只取得演講者的位置，更要分析演講者的其他狀態。在這裡取得的狀為講者的面向，藉由取得講者的臉部區塊後，由此區塊切割為左邊區塊，與右邊區塊，我們藉由這兩區塊內像素為膚色的數量作. 48.

(49) 一個判斷。例如：一般而言，當人面向左邊時，左邊區塊內的像素為膚色的數量會大於右邊區塊內的數量。本論文選擇將選擇 YCrCb 作為膚色判斷的色彩空間。主要是因為膚色分布在 CrCb 上有不錯的集中效果。在作法上，先將 RGB 色彩空間轉換至 YCbCr 空間上， (4.28)式為 RGB 轉換至 YCbCr 之轉換矩陣： 0.587 0.098   R  1  Y   0.299 Cr    0.500 0.4187 0.0813 G   128    Cb   0.1687 0.3313 0.500   B  128. (4.28). 其中 Y 為明亮程度，CbCr 為彩度。在轉換至 YCbCr 色彩空間後，我們按照 Chai [Cha99]所建議的 Cr [133, 173] 和 Cb [77, 127]的膚色篩選範圍來決定像素是否為膚色，我們便可以統計出左邊區塊或右邊區塊內像素為膚色的數量。以圖 4.14(a)為例，總膚色的個數為 15004，我們定義一個門檻值 L(這裡定義 L 為膚色總數量的百分之十，L=1500)，左邊區塊的膚色數量為 9440，右邊區塊的膚色各數 5564，因為左邊數量減去右邊數量大於 1500，我們便將講者臉朝的方向判定為向左邊。. 圖 4.14 臉朝方向(a)朝左 (b)正面 (c)朝右. 49.

(50) 第五章實驗結果在取得演講環境的資訊後，可得到演講者的位置、移動速度、臉朝方向以及布幕位置。本系統會依照我們所建立的攝影機事件控制表(表 5.1)，判斷出演講者的事件後，並自動的操控攝影機，最後將影片輸出。由於可能同時發生不同的事件，因此我們將在 5.1 節定義事件決策圖，來決定優先執行的事件。5.2 節為實驗的片段，實驗影片為各個事件錄製的片段。表 5.1 攝影機事件控制表 case 演講者. 臉. PTZ 動作. 1. 在布幕外慢移. *. pan、tilt 動作,跟著演講者. 2. 在布幕外快移. *. Zoom out. 3. 在布幕外,向觀眾講解. 4. 走向布幕. 5. 臉部位置不適合. *. pan 或 tilt 讓講者保持在畫面適當的位置. 6. 尺寸不適合. *. Zoom 到適當大小. 7. 適當位置. *. 無. 8. 走進步幕. *. Zoom out，pan tilt 動作使影像包含全部布幕. 9. 在布幕內走動. *. 無. 10 在布幕內接近幕邊 11 消失. 左(右) 布幕方向. 向左(右)微調讓講者在畫面偏右 (左) Zoom out 影像包含布幕部份. 布幕反方向包含一些布幕以外的場景以便偵測 *. Zoom out. 50.

(51) 5.1 定義事件決策樹在演講過程中，有可能不同的事件同時發生，例如：講者在畫面外移動，且講者在畫面中太小的情況同時發生。因此我們定義一個事件決策樹(圖 5.1)，將不同的事件做優先前後的判斷。講者使否在畫面中是. 否. 講者是否在布幕內. Case 11 布幕外. 布幕內. 講者位置. 布幕內. 其他位置畫面無完整布幕. 講者接近幕邊. Case 1. Case4. 接近畫面中央. Case 10 Case 8. 接近布幕. 接近畫面邊緣尺寸大小. 畫面有完整布幕. Case 2. Case 9. 不合適. 合適. Case 6 臉部位置不適合. 適合. Case 5. 講者面向左、右 Case 3. 正面 Case 7. 圖 5.1 事件決策圖經由決策圖的判斷，我們便可以確認目前攝影機該優先執行的動作，使得攝影機的動作不會產生衝突。而這裡事件的優先順序，是依照拍攝經驗所訂定的，每個攝影師定義可能有所不同。. 51.

(52) 5.2 實驗片段此系統的實驗影片是經由 PTZ 攝影機(Sony EVI-D30)，拍攝演講環境中的影像，並透過影像擷取卡，擷取出 320*240 像素大小的影像序列，影像格式為 24 位元的彩色影像檔。此系統測試的硬體設備為 Core 2 1.86Ghz，1GB 的記憶體，作業系統為 Microsoft Windows XP，實驗開發的平台為 Borland C++ 6.0。這裡將實驗片段為演講者在布幕外與布幕內幾個事件的片段，圖 5.2 到圖 5.5 為演講者在布幕外實驗片段。圖 5.2 到圖 5.9 為演講者由布幕外走進布幕內的實驗片段。在圖 5.2 中，演講者在布募外緩慢的移動情況下，系統自動控自攝影機的結果，圖中藍色框代表布幕追蹤結果，紅色框代表布幕追蹤結果，依照攝影師建議的規則，在講者沒有接近畫面邊緣且緩慢移動時，攝影機盡量以緩慢的旋轉來進行演講者的跟拍。圖 5.3 中，當攝影機緩慢移動至講者在畫面中適當的位置後，這時，系統判斷出講者在畫面中的臉部區塊較小，便進行 Zoom in 的動作。圖 5.4 中，表示演講者經過攝影機適當的動作後，將講者調整在攝影機畫面中合適的位置與大小。圖 5.5 中，當演講者，突然離開畫面，使得系統追蹤講者追蹤錯誤，系統便將事件判斷為講者消失，這時攝影機將進行 Zoom out 動作，盡量的拍攝到演講的全部場景，這演講者消失的情況下系統便會切換至講者偵測程序，不斷的偵測演講者是否回到畫面當中。. 52.

(53) 圖 5.2 講者在布幕外移動(a)第 25 影格(b)第 30 影格(c)第 35 影格(c)第 40 影格. 圖 5.3 講者尺寸太小(a)第 45 影格(b)第 50 影格. 53.

(54) 圖 5.4 適當的位置. 圖 5.5 講者消失事件(a)第 70 影格(b)第 80 影格(c)第 90 影格(c)第 100 影格在圖 5.6 中，演講過程時很有可能會為了解釋投影片內容而接近布幕，這時系統為了讓遠端觀眾能夠多少了解布幕內容，會將攝影機做 Zoom out 動作，藉. 54.

(55) 此拍攝到布幕的部份。圖 5.7 中，表示演講者走進了布幕，這時遠端觀眾勢必希望能夠完全看到演講者對投影片的解說，因此攝影機將移動到能夠拍攝到全部布幕的位置，圖 5.7(a)中布幕在畫面的左邊，經由攝影機向左邊轉動圖 5.7(b) (c) (d)，攝影機畫面便包含了全部布幕。圖 5.8 中，當攝影機包含全部布幕後，系統將對布幕的畫面做調整，經 Zoom in、Zoom out 後調整了布幕畫面的大小，讓遠端觀眾能夠更清楚看到布幕畫面。圖 5.9 中，表示當調整完布幕位置以及大小後，攝影機這時便進行待命。. 圖 5.6 接近布幕(a)第 251 影格(b)第 261 影格. 55.

(56) 圖 5.7 走進布幕(a)第 281 影格(b)第 329 影格(c)第 351 影格(c)第 384 影格. 圖 5.8 調整布幕大小(a)第 407 影格 (b)第 426 影格. 56.

(57) 圖 5.9 布幕內移動 (a) 第 495 影格 (b) 第 520 影格圖 5.10 為在另一個演講場景下的拍攝結果. 57.

(58) 圖 5.10 場景二拍攝結果. 58.

(59) 圖 5.11 為在另一個演講者的拍攝結果. 圖 5.11 講者二拍攝結果. 59.

(60) 第六章結論與未來方向 6.1 結論由於學校或公司單位經常舉辦各種專題演講、研討會或系列演講，內容涵蓋了各個領域，兼具學術與應用等各層面，這些都是超越課堂教學之重要學習資源，也是學生及職員相當重視的學習教材。為了保存這類珍貴教材資產，我們使用一台 PTZ 攝影機進行拍攝，並建立了自動化演講錄製系統取代固定攝影機拍攝或雇用攝影師，來改善在錄製影片的流暢度又能降低人事成本。本系統主要分為前處理、取得演講資訊與攝影機自動拍攝三個部份。演講一開始系統便會進行前處理程序，前處理程序中，經由布幕偵測程序取得布幕位置，並使用 OpenCV 之人臉偵測，偵測出演講者的臉部區塊。得到布幕位置以及臉部區塊後，在演講過程中進行取得演講資訊程序。取得演講資訊程序中主要為了取得布幕位置以及演講者狀態，分為布幕追蹤，講者追蹤與講者面向判斷三個程序，在偵測布幕程序中取得布幕的座標資訊後，便可以進行布幕追蹤程序，其中是利用座標資訊以及攝影機的內部參數和紀錄攝影機的動作來預測出新的布幕位置。在追蹤講者方面，在取得講者臉部區塊後，我們使用平均位移演算法來進行追蹤，可以在目前影像中快速的找出與講者臉部區塊最相似的區塊位置。最後，再根據人臉區塊中的膚色分佈，判斷出演講者的臉部面向。藉由取得的演講資訊（包括布幕位置，演講者狀態），再依照專業攝影師所 60.

(61) 建議的攝影機控制方式，我們可以對攝影機下達適當的操作，進行演講錄製。在最後的實驗中，我們將系統裝置在實際的演講會場，動態的攝影錄製演講畫面，錄製結果比起過去固定式的攝影錄製要生動活潑許多。. 6.2 未來方向在未來，我們希望能夠將演講者的狀態進行更多的分析，例如：演講者的手勢、演講者的身體方向等。如此ㄧ來自動化演講錄製系統將藉由這些的狀態分析，得到更準確的資訊來判斷出演講中的事件，使得攝影機能夠的在不同事件下能夠執行更有效的拍攝動作。然而再一場演講中，主要也包含了另外兩個部分(包含視覺教具(Visual Aids)與聲音)需要呈現給遠端觀眾。因此在之後的工作中，我們需要設置更多的硬體裝置來擷取聲音與視覺教具，將這些重要演講的焦點收錄下來，讓遠端觀眾能夠觀看更完整的演講內容。. 61.

(62) 參考文獻： [Bia04] Bianchi, “Automatic video production of lectures using an intelligent and aware environment. ” In Prcceedings of the 3rd International Conference on Mobile and Ubiquitous Multimedia, pp. 117-123 [Cha99] D. Chai and K. N. Ngan, “Face Segmentation Using Skin-Color Map in Videophone Applications,” IEEE Trans. on Circuits and Systems for Video Technology, vol. 9, no. 4, pp. 551-564, Jun. 1999. [Com00] Comaniciu D., Ramesh V., Meer P., ”Real-time tracking of non-rigid objects using mean shift” Computer Vision and Pattern Recognition, 2000. Proceedings. IEEE Conference on Volume 2, vol.2 pp:142 - 149 2000 [Com03] Comaniciu D., Ramesh V., Meer P.,”Kernel-based object tracking” IEEE ,Pattern Analysis and Machine Intelligence, vol 25, pp:564 – 577, 2003. [Fen03] Feng Wang, Chong-Wah Ngo, Ting-Chuen Pong,”Synchronization of lecture videos and electronic slides by video text analysis”, ACM international conference on Multimedia, 2003 [Fle07] Fleming Lampi, Stephan Kopf, Manuel Benz, Wolfgang Effelsberg, ”An automatic cameraman in a lecture recording system” Proceedings of the international workshop on Educational multimedia and multimedia education, ACM, 2007. [Fuk75] Fukunaga, Keinosuke, Larry D. Hostetler, "The Estimation of the Gradient of a Density Function, with Applications in Pattern Recognition". IEEE Transactions on Information Theory (IEEE) 21 (1): 32–40 1975 [Mic04] Michael Bianchi, “Automatic video production of lectures using an intelligent and aware environment” ACM, MUM '04: Proceedings of the 3rd international conference on Mobile and ubiquitous multimedia, 2004 [Oni04] Onishi M., Fukunaga, K., ”Shooting the lecture scene using computer-controlled cameras based on situation understanding and evaluation of video images” ICPR 2004. Proceedings of the 17th International Conference on vo1, pp:781 – 784, 2004.. 62.

(63) [Qio01] Qiong Liu, Yong Rui, Anoop Gupta, J. J. Cadiz ,“Automating camera management for lecture room environments” ACM , Proceedings of the SIGCHI conference on Human factors in computing systems 2001. [Rac07] Rachel Heck, Michael Wallick, Michael Gleicher, ”Virtual videography” ACM ,Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP) , vol 3 2007 [Ron03] Ron Baecker,”A principled design for scalable internet visual communications with rich media, interactivity, and structured archives” CASCON '03: Proceedings of the 2003 conference of the Centre for Advanced Studies on Collaborative research, IBM, 2003 [Row01] ROWE, L. A, PLETCHER, P.,HARLEY,D., AND LAWRENCE, S, ”BIBS:Alecture webcasting system.” BMRC 2001. [Rui01]Rui, Y., He, L., Gupta, A., and Liu, Q. 2001., “Building an intelligent camera management system.” In Proceedings of the ACM Multimedia, 2-11 [Sug99] Sugata Mukhopadhyay, Brian Smith,”Passive capture and structuring of lectures” ACM international conference on Multimedia, 1999 [Vio04] P. Viola and M. J. Jones, "Robust real-time face detection", in International Journal of Computer Vision, Vol. 57, no. 2, pp. 137-154, 2004. [Wal04] Wallick, M.N., Yong Rui, Liwei He,”A portable solution for automatic lecture room camera management” IEEE International Conference, vol 2, pp:987 – 990. 2004 [Wan03] Wang, F., Ngo, C. W., and Pong, T.C. , “Synchronization of lecture videos and electronic slides by video text analysis.” In Proceedings of the ACM Multimedia, 315-318 [Wei03] Weijin Liu, Yu-Jin Zhang,”Real time object tracking using fused color and edge cues” IEEE , ISSPA,Signal Processing and Its Applications, pp:1-4 , 2007 [Yar03]Yaron Ukrainitz , Bernard Sarel, “http://www.wisdom.weizmann.ac.il/~deniss/vision_spring04/files/mean_shift/ mean_shift.ppt” 63.

(64) [Yiz95] Yizong Cheng, “Mean shift, mode seeking, and clustering” Pattern Analysis and Machine Intelligence, IEEE Transactions on Volume 17, Issue 8, Aug. 1995 Page(s):790 - 799 [Yok05] Yokoi, T., Fujiyoshi, H.,”Virtual camerawork for generating lecture video from high resolution images” IEEE International Conference on 2005 [Yon01] Yong Rui, Liwei He, Anoop Gupta, Qiong Liu, “Building an intelligent camera management system” International Multimedia Conference; vol. 9 pp: 2 – 11,2001. [Yon03] Yong Rui, Anoop Gupta, Jonathan Grudin,”Videography for telepresentations” ACM, Proceedings of the SIGCHI conference on Human factors in computing systems, 2003. [Yon08] Cha Zhang, Yong Rui, Jim Crawford, Li-Wei He, ” An automated end-to-end lecture capture and broadcasting system” ACM Transactions on Multimedia Computing, Communications, and Applications (TOMCCAP) , vol 4, 2008. [Zha05] Zhang, C., Rui, Y., He, L. Wallick, M, “Hybrid speaker tracking in an automated lecture room” IEEE International Conference, pp.4, 2005. [簡 04] 簡隆至 “即時移動物體偵測及自動追蹤系統”國立台灣科技大學電機工程學系國家圖書館全國博碩士論文資訊網. 64.

(65)