研究方法 - Point-of-Capture Archiving and Editing of Personal Experiences from a Mobile Device

Point-of-Capture Archiving and Editing of Personal Experiences from a Mobile Device

2. 研究方法

我們的系統可以分成兩大部份：重點物件萃取(important object extraction)與內容重整與調適(content recomposition and adaptation)。整個系統流程圖展示於圖(二)。

圖二系統流程圖

[1] 重點物件萃取

在這部份，我們使用了三個模組(module)：影像分割(image segmentation)模組，使用者興趣區決定(region-of-interest determination)模組與物件/背景辨別(object /background discrimination)模組(參考圖(三))。

圖三重點物件萃取流程圖

由於我們希望經調適後的多媒體文件能有效地呈現出原始文件中讓使用者感興趣的物件或部份場景，同時也能讓使用者對整體內容有概括瞭解，因此首要任務就是要將重點物件與背景內容進行分離。我們所採用的方式是對視訊中的單張訊框(frame)進行影像分割，同時並找出使用者興趣區，最後利用影像分割資訊將興趣區中屬於背景部份的區域去掉，即可得到對應於該影像之重點物件。採用此法不但較能完整保留興趣區中的有效資訊，同時亦避免了複雜的物件追蹤(object tracking)計算。

在影像分割模組中，我們首先對目標影像進行初步的處理(image preprocessing)以提高分割準確率，在目前的系統中我們是使用二維縮貝爾(sobel)濾波器進行影像邊界強化。接著我們採用在數位影像處理中常見的技巧 — 分水嶺轉換分割 (watershed segmentation)技術對強化過的原始影像進行區域分析，由於分水嶺轉換容易產生過度分割(over-segmentation)的現象，因此在本模組中我們加入一個區欲合併(region merging)子模組來判斷已分割區域的合理性，該子模組會依據該些區域的平均影像強度(average intensity value)及相互連結性(connectivity)等資訊動態進行區域重合併(remerging)。最後，本模組會將合理化後各分割區的相關資料記錄下來，以利於在物件/背景辨別模組中進行重點物件萃取之參考。

另一方面，在使用者興趣區決定模組中，我們利用使用者注意模型來自動決定視訊興趣區的位置與大小，其主要是依據實驗室前人的研究成果與經驗來加以設計。在此模組中，視訊的注意特徵值(attentive features)及應用媒體美學(applied media aesthetics)的知識都被同時考慮且利用，在自動決定使用這興趣區的過程中，我們將每段場景(shot)以固定長度數量(內定值為 15)的訊框組成互不重疊之訊框切片(frame-segment)，並以其為興趣區分析的基本單位。在每一分析單位中，我們對每一張訊框分別以使用者注意模型取出三類不同的視覺注意特徵值映圖(feature map)，包含亮度(intensity)對比性、顏色

(color)對比性及運動(motion)特徵值，並分別以時間平均過濾器(temporal mean filter)將單位中之該類特徵值映圖過濾為唯一之已過濾特徵值映圖(filtered feature map)。同時，我們也對每一訊框切片找出其所屬之運鏡種類(camera motion registration)，並依據該種類查表得到預先定義好各特徵值映圖之合併參數以產生對應之重要性映圖(importance map)。在重要性映圖中，具有越高重要性值的像素代表越容易吸引使用者的注意，反之亦然。因此，我們採用重要性加權規律矩(importance weighted regular moment)來決定每個興趣區中心位置(x,y)=(m₁₀/m₀₀,m₀₁/m₀₀)及其大小₍₂ _η ₎_×₍₂ _η ₎

(a) 遠景

(b) 中景

圖五不同視訊畫面種類與其興趣區決定之比較實例。

值得注意的是，視訊場景依主題呈現的角度來看可分為三大類：遠景(long view)、

中景(medium view)及近景畫面(close-up view)。而並非所有的視訊場景都需要進行內容重組以在有限螢幕之手持式裝置上達到最佳的觀賞效果。以遠景來說，原始拍攝者所欲呈現的為整體場景，一般而言缺乏明確主體重點物件，直接降低其視訊解析度即可滿足使用者之需求。相同的，在近景畫面中重點物件通常已佔有大部份的場景空間，因此單純利用直接降低視訊解析度的方式同樣可以達到不錯的效果。而我們所提出之興趣區偵測方式可適當的將遠景近景與中景分開，因為在遠景與近景中所找出之興趣區通常較大，如圖(五)。所以我們可利用所找出之興趣區與訊框面積比來偵測其畫面種類，並做為是否需要進行物件分割與進一步視訊內容重組之判斷。

最後，由於影像分割模組僅能單純藉由像素資訊進行影像分割，卻無法瞭解哪些分割區域可形成一完整物件或使用者感興趣的部份；而使用者興趣區決定模組雖能判斷出使用者興趣之所在，亦無法由其計算出之重要性特徵值來獲得重點物件或興趣區域之絕對形狀與大小。因此，物件/背景辨別模組存在的目的即是依據由前兩模組所獲得之相關資訊，再進一步的將重點物件準確萃取出。我們假設所決定之興趣區可完整將使用者感

興趣之物件包含其中，接下來沿著興趣區之邊框比較邊框內部與外部是否屬於同一個影像分割區，若是，則將興趣區內部之對應部份判定為背景，反之則其屬於重點物件之一部份。圖(六)為其執行過程之示意圖。在圖(f)中所得之車牌部份即為最後萃取出對應於該影像之重點物件，我們可發現有別於傳統的物件萃取技術，本方法是藉由興趣區將重點物件鎖定其中，再經由比較刪去法將興趣區中的背景部份移除，因此可將重點物件(如前述之車牌)適當保留並辨別出該視訊之剩餘場景空間，有效避免因重點物件各部份特徵值(feature)資訊之不一致(inconsistent)而造成的判定錯誤。

圖六物件/背景辨別模組執行過程示意圖(執行過程為由圖(a)到(f))。紅色點框所包含之區域代表由使用者興趣區決定模組所決定之使用者興趣區。

[2] 內容重整與調適

在這部份，我們使用了兩個模組：影像填補(scene-hole filling)模組，場景空間分析與物件融合(scene space analyzing and objects pasting)模組(參考圖(七))。

在影像填補模組中，我們的目的是要填補因重點物件由背景分離後所留下之影像空洞(scene-hole)，以避免調適後之多媒體文件出現不自然的空白缺損造成使用者在觀看時有明顯的視覺缺陷現象。在文件內容表現上，由於背景與重點物件相比對使用者來說可視為次要資訊，因此我們無需將缺損部份完全依照真實的場景內容進行填補，只要填補

之結果能讓使用者在視覺上有自然合理之感(visually plausible)即可；在實務操作上，無論是物件本身的移動還是運鏡的結果，均可能使對應於不同時間點之訊框包含不同的靜態(static)或動態(moving)重點物件，因此對於視訊中的每張訊框我們都必須重覆判斷其位置並進行影像填補過程，所以若填補速度過慢將影響本系統之實際應用可行性。因此，在本模組中我們採用以範例為基礎之填補(exemplar-based inpainting)技術，其優點為整合傳統材質導向 (texture-oriented) 方法可快速且大量產生相同材質與結構導向 (structure-oriented)方法可正確保留並延展(propagation)影像線性結構(linear structure)之特點，同時具有速度上之優勢。圖(八)所示為本模組對一自然影像之填補過程實例。

場景空間分析與物件融合模組則是負責將重點物件與場景根據合理性與滿足重點物件最大化呈現的條件來產生出已調適之多媒體文件。因此首先由場景空間分析(scene space analyzing)子模組決定出重點物件與背景影像兩者相對於原多媒體文件之合理縮放空間參數(space parameters)。在我們的實驗中，大部份的情況下較合理之空間參數約為 (0.75, 0.5)，也就是說，當重點物件縮小為原來之 75%時，背景空間可縮小至 50%仍可維持合理空間視覺。由於視覺合理性對於觀察者而言為相當主觀之判斷，如何對於每一場景動態算出一客觀之參數組仍相當困難，因此目前在本模組中之空間參數值仍需使用者依據文件內容進行手動設定，此外本系統同時以前述之(0.75, 0.5)做為預設空間參數值 (default setting)。

圖七內容重整與調適流程圖

圖八影像填補實例(由圖(a)至(f)為填補順序)

當決定出空間參數值後，物件融合子模組即可對重點物件與背景影像進行比例調整，並依據原始文件算出重點物件在已調適文件之對應坐標，將重點物件融合入已填補之背景影像並進行部份必要後處理(post-processing)，如將欲融合重點物件邊緣(edge)與背景進行柔和化(smoothing)處理等等，即可產生出經內容重整與調適之完整多媒體文件。

[3] 應用

我們在這部份對本技術提出兩種可能的應用：第一種是異質環境之視訊傳播(video communication in heterogeneous environment)。如前所述，隨著行動通訊(personal mobile communications)平台的建構，個人式手持式裝置的發展朝向體積小且易於攜帶的方向發展，使得其螢幕可顯示之資訊量受到局限；而多媒體文件卻由於攝影與錄像裝置的技術突破，邁向高解析度(high-resolution)與高畫質(high-quality)的內容數位化時代。因此本系統的發展恰可用於填補此二者間的技術空缺，讓身處不同網路環境及裝置下的不同使用者都能獲得同等級資訊量的多媒體服務。我們的實驗結果將列於”3. 研究成果”中。

第二種是智慧型文件轉換(smart transcoding)。以目前最常見的視訊格式轉換為例，

當我們欲將訊框長寬比為 16:9 之視訊格式(format)轉換為 4:3 格式之影像時，一個常見的問題就是比例失真，如人物的過度拉長或變形。就影像中的重點物件而言，此種效果將嚴重影響使用者的觀賞品質，對於某些特殊應用如醫學視訊觀察或線上教學，更將造成無法預測的後果。顯而易見的，純粹之空間解析度(spatial-resolution)或時間解析度 (temporal-resolution)轉換將無法滿足新一代多媒體應用的需求，而本系統具備合理調整場景與重點物件視覺比例之特性，展示出具語義之高階智慧型文件轉換有別於傳統低階轉換技術之明顯優勢。實驗結果可參考”3. 研究成果”。

在文檔中經驗融合：兼具安全性及延展性之多媒體人本計算 (I) 產學合作計畫成果報告 (總計畫) (頁 117-125)