使用內容查詢及空間關係之多攝影機視訊保全監控系統
A Multi-Camera Video Surveillance System by Using the Content-based Retrieval and Spatial Relationship
張厥煒 台北科技大學資工系 [email protected]
曹佑羽 台北科技大學資工系 [email protected]
楊棣華 台北科技大學資工系 [email protected]
摘要
傳統的多攝影機保全監控系統,在災 害或犯罪事件發生後,想要找出可疑人 物,並歸納出行經路線時間,必須經由人 工調閱比對事件發生時所錄下的視訊影 像,如此一來將花費過多的人力、時間,
甚至延誤案情。因此,本論文提出一個適 用於多攝影機保全監控系統的空間關係建 立與視訊內容檢索搜尋方法。此方法使用 藉 由 關 鍵 異 常 畫 面 擷 取(Key Frame Extraction)法,利用異常物體面積、異常物 體密度、異常物體寬高比、畫面變動量、
畫面清晰度、畫面明亮對比等六種特徵,
過濾選取出可明顯表現出異常物體特徵之 關鍵異常畫面,儲存於視訊資料庫中。保 全管理者可在監控視訊資料的瀏覽過程 中,以時間或攝影地點等條件查詢異常事 件的畫面,找到可疑並欲搜尋的異常物體 後,可經由自行圈選出此異常物體,並以 異常物體之物體模型(Object Model),與監 控視訊資料庫中所儲存的,關鍵異常畫面 中異常物體的物體模型,計算出物體之間 的相似度,以進行比對。搜尋時,可按照 相似度排列其結果,並以異常事件發生時 間,得知異常物體的行經路徑,以建立出 一個完整的多攝影機監控視訊系統資料庫 中異常物體搜尋之方法。
關鍵詞:保全監控系統、多攝影機協同事 件偵測、物件追蹤、空間關係、視訊內容 查詢。
一、前言
由於恐怖攻擊與犯罪率的上升,企業 為了防治一般的竊盜行為以及天然災害,
紛紛設置各種保全監控系統(Surveillance System)。然而這些監控設備,不但花費成 本高,且必須由警衛人員在旁監看,有時 易因人為疏失而失去其精確性與即時性。
即使今日的數位式第三代保全監視系統,
其功能及研發方向也只著重於異常偵測及 多點涵蓋面管理等問題。然而,由於欠缺 多攝影機彼此在空間上的關係,導致手動 追蹤可疑人物時,常有空間迷失的缺點。
同時,對於歷史監控畫面的搜尋,也沒有 適當的視訊資料庫工具協助。
在多攝影機視訊監控的環境中,有些 情形我們會想要在監控畫面中搜尋異常物 體,第一種情況是在多攝影機監控環境 下,藉由特定嫌疑犯在固定式攝影機中出 現的位置,進而得知的其行經路線;第二 種則是如果可以藉由找出所有特定嫌疑犯 出現的畫面,來獲得不同角度的嫌疑犯原 貌,以取得可供指認、辨識之特徵。
因此,設計一套可適用於多攝影機之 協同偵測與追蹤監控系統平台,建立中央 操作控制站機制,負責與多攝影機進行同 步協調工作,並以數位影像處理技術,開 發新的結構化自動視訊物件偵測、分割、
追蹤及儲存等前端處理方法,同時在監控 系統背後的歷史視訊資料庫管理,或資料 庫畫面的快速檢索等,是目前在學術研究 及商業產品上,值得著墨的問題。
本論文的目的即是提出一個多攝影機 空間關係建立,以及快速的視訊內容搜尋 比對方法。此方法利用圖形理論建立多攝 影機網路拓撲空間關係,以特定時間日期 範圍、特定空間路線內有異常物體出現的 場景段落,進行異常事件的查詢,再以內 容 為 基 礎 的 檢 索 技 術[2] (Content-Based Retrieval),應用於監控視訊資料庫畫面的 檢索,藉由異常物體的顏色特徵等關鍵畫 面擷取,找出資料庫中符合條件之異常物 體,幫助我們縮小範圍,減少監看大量視 訊資料的人力與時間。
二、相關文獻探討
在本論文中將「異常物體」定義為「與 背景不同,會移動的夠大顏色區塊」,並將 有同一異常物體出現的連續畫面定義為一 個「異常事件」。要取得異常物體之特徵,
必須先在監控視訊畫面中偵測出移動物體 再進一步進行分割、特徵擷取之動作。而 今視訊畫面中的移動物體偵測方式主要有 三 種[3] : (1) 背 景 相 減 法 (Background Subtraction),此方法是將目前畫面與事先 訓練好的背景影像相減,即可將前景區域 留下。此方法優點是設計簡單而且計算複 雜度低,但容易受到光線變化的影響,而 發生誤判導致假警報,故需要良好的背景 模型(Background Model)。如 Jabri[6]融合 顏色以及邊緣資訊來建立背景模型。(2)時 間差異法(Temporal Differencing),跟背景 相減法一樣使用影像相減來留下移動物體 資訊,其差別為時間差異法是觀察特定時 間內連續的相鄰幅(Frame)變化,以取得移 動物體區域,如此一來因畫面間的相隔時 間短,較不容易受光線變化影響,但得到 的移動物體資訊不若背景相減法完整,如 Lipton[7]便是使用時間差異法,藉由前後 張 畫 面 的 相 減 , 在 經 過 一 個 閥 值 函 式 (Threshold Function)決定變動區域來取得 移 動 物 體 區 域 。(3) 光 流 偵 測 法 (Optical Flow),此方法是計算光流量變化來取得移 動物體資訊。光流偵測法可以在相機移動 (Camera Motion)的情況下找到移動物體,
但此方法計算太過繁複,較不適合運用於 有 即 時 偵 測 需 求 的 監 控 系 統 上 , 如 Meyer[8]便是使用光流偵測法來偵測移動 物體區域,找出畫面中人物相同區塊的移 動情形用來作為步伐的分析。關於異常物 體的偵測與切割問題,已經有相當多的文 獻探討此問題。因物件切割不是本論文所 著重的議題,故本論文中採用最常見也是 最容易實現的背景相減方法來偵測移動物 體並切割出異常物體。
另一方面,如何達到有效率的檢索、
搜尋異常物體資料變成為一個很重要的問 題。早期檢索系統,都是使用文字做為輸 入檢索條件。隨著多媒體時代來臨,影片、
聲音、動畫等多媒體資料普及化,若要對 所有資料一一做文字標籤建檔,需要龐大 人力,也相當沒有效率。因此,為了解決 這個問題,改由使用影像中本身內涵資 訊,做直覺式比較,這便是以內容為基礎 (Content-based)的影像檢索技術[2]。CBIR (Content-based Image Retrieval)主要的概 念是用影像內容的主要特性當特徵來對影 像資料本身加以描述,而特徵便成為搜尋 影像時的索引條件。例如色彩(Color)、形 狀(Sharp)、紋理(Texture)等是常見的低階 (Low Level)特徵。理想的特徵對於影像內 容必須具有代表性,這樣檢索系統才可以 依特徵索引搜尋到符合預期的影像,達到 有效的檢索效果。使用關鍵畫面當作影片 索引(Query by Key Frame)也是常見的影 片檢索方法,如Chang[3]等人提出一個關 鍵畫面擷取演算法(Key Frame Extraction Algorithm) , 找 出 影 片 中 的 代 表 性 圖 片 (Representative Image)當作關鍵畫面,並建 立 樹 狀 結 構 的 關 鍵 畫 面 階 層 (Tree-structured Key Frame Hierarchy),來 增加影片檢索速度,此種方法優點是所需 儲存資料量較少,但缺點是少了時間性 (Temporal)相關特徵。
Content-based Retrieval 技術所面臨的 問題,是不同類型的影像包含的特性包羅 萬象,很難用特定特徵去代表所有影像。
縮小範圍針對特定類型影像分析其特性再 選擇特徵,是可行的方式。而在監控視訊
資料庫中,其視訊資料中的異常物體是我 們關注的地方。在進行異常物體特徵擷取 前,必須先進行的工作就是異常物體偵 測。在異常物體從背景切割出來之後,我 們需要有縮放不變性質(Scale Invariant)的 特徵,並且要可以抵抗在不同角度拍攝下 物體相當程度的變形。在物件追蹤相關研 究 中 , 以 核 心 為 基 礎 的 物 件 追 蹤 (Kernel-based Object Tracking,[4]),採用 利用物體顏色建立帶有空間位置權重的物 體模型,來抵抗因移動造成的物體變形,
達到有效追蹤的效果,此一物體模型,便 成為我們異常物體特徵選取的最佳引用考 量。
此外,關於多攝影機監控系統的研 究,Remagnino、Shihab 與 Jones[11]提出 一個多代理人架構,對於由多攝影機發出 之資訊串流所形成的場景動態融合進行判 斷。在此架構下的模組軟體會控制不同的 系統元件,並以遞增方式建立場景模型。
Black、Makris 與 Ellis[12]針對監控保全應 用提出一個新的系統架構。在此架構下,
系統具有事件偵測與視訊內容分析之能 力。攝影機所拍攝的畫面中,在有部分重 疊(Overlapping)之情況下,系統都能夠協 調物件的追蹤。
三、系統運作架構與說明
本論文依前述功能需求,建置一個具 有多攝影機協調、可疑事件預警和能縮短 搜尋關鍵視訊時間的系統,以半自動化監 控技術減少監控中心人力,並提昇監控的 效能(如:降低回放搜尋時間、準確且有 時效的異常預警和可疑物體之特徵擷取 等)。本系統平台設計之方法,是要有效的 以圖形理論建立多攝影機同步協調機制,
並以影像處理技術開發新的結構化自動視 訊物件偵測、分割、辨識、追蹤及儲存等 前端處理機制。
為達成上述多攝影機協調及建構完整 前端處理機制的目的,本系統主要設計分 為五個部份,分別為(1)視窗介面管理子系
統、(2)多媒體控制子系統、(3)異常偵測子 系統、(4)物件追蹤子系統、(5)攝影機協同 子系統及(6)視訊資料庫內容查詢子系統。
視窗介面管理子系統為主功能選單與 基本輸出入設定(含即時監控影像畫面顯 示、回放影像畫面顯示、滑鼠事件處理、
視窗上視訊播放控制功能等)作業,並提供 適當的視窗介面執行多媒體控制、異常偵 測與攝影機協同之功能。
多媒體控制子系統負責在區域網路環 境下與網路攝影機溝通(如:透過 Socket 取得網路攝影機即時影像資料、將影像資 料儲存至資料庫、自資料庫中取得回放影 像資料等)。
物件追蹤子系統負責偵測、分割、辨 識、追蹤目標物體及記錄事件,藉由在事 先設定完成的偵測區域(Detection Region) 內執行物體移動偵測(Motion Detection)可 得知目前物體是否處於某區(Zone)內,一 個偵測區域與一個指定的監控空間相關 聯,在此空間內可有多台攝影機一起工 作。偵測區域的資訊可支援異常偵測子系 統進行異常事件偵測和搭配攝影機協同子 系統分析目標物體目前於圖形拓撲何處。
異常偵測子系統負責異常事件偵測,
當異常事件發生時,異常偵測子系統要負 責送出警示信號,異常偵測子系統需與物 件追蹤子系統搭配,藉由指定警戒區域 (Alert Region)以及判斷物體行動路徑是否 符合以區(Zone)為基本單位的條件路徑 (Critical Path)等作法,可研判出發生異常 事件的情況。
攝影機協同子系統負責建立多攝影機 間的協調機制,攝影機協同子系統需與物 件追蹤子系統搭配,分析目標物體目前於 圖形拓撲何處。其主要工作包含:建立以 區為基本單位的圖形拓撲、自動記錄發現 物體移動時的時間戳記以及於特定空間下 多攝影機監視屬性的變化等。
視訊資料庫內容查詢子系統是儲存並 提供在監控資料中,最被關注的異常物體 本身視訊畫面的查詢。在監控環境之下,
攝影機通常是固定不動的。因此,我們可 以使用固定背景的移動物體偵測方法來偵 測異常物體,同時可以記錄異常物體出現 的時間及固定位置等相關資訊,記錄有異 常物體出現的異常事件資訊,並從異常事 件中挑選出清晰、有助於特徵擷取的關鍵 異常畫面,再以關鍵異常畫面中異常物體 的資訊及特徵做為以後檢索異常物體之依 據。在不同攝影機或是不同的位置所觀察 到的異常物體,有很大的差異性,唯一不 至於變化太大的便是異常物體的顏色,所 以在物件追蹤中所使用的能抵抗物體變 形,並有縮放不變性質(Scale Invariant)的 物體模型是我們所採用的比對模式。故除 了異常事件所包含之日期、時間、攝影機 編號及位置等資訊之外,再加上異常物體 之間的相似度比對,如此便可建立一個可 以快速搜尋到重要的異常事件,以及異常 物體的監控視訊資料庫系統。
監控攝影機所拍攝儲存之畫面先經過 異常偵測,找出異常事件,並加以紀錄下 所有異常事件的資訊其中包含起始時間、
終止時間、拍攝攝影機編號等。而異常事 件通常會包含多張異常畫面,如果每一張 畫面都加以儲存,會造成資料庫空間的浪
費以及檢索時間的耗費,故關鍵異常畫面 擷取模組可以從異常事件中,挑選出一至 數張代表性畫面,我們稱之為關鍵異常畫 面,這樣可以有效減少儲存空間的浪費與 加快檢索時間。之後特徵擷取模組會再進 一步擷取關鍵異常畫面的特徵,成為之後 進行相似度比對的依據。至此階段,資料 庫中將記錄異常事件以及關鍵異常畫面之 相關資訊。
設計後的多攝影機保全中央控制系統 程式介面,如圖1 所示。此多攝影機保全 監控系統介面圖,其中包含(1)畫面顯示區 域(Camera Display&Control),可播放即時 選擇的現場畫面或點選查詢後的異常歷史 畫面、(2)攝影機群組(Group IP),可增刪 攝影機並設定拍攝地點名稱、(3)變動偵測 設定(Motion Detection Setup),設定各項異 常 警 示 之 臨 界 值 、(4) 歷 史 資 料 查 詢 (Historical Record Query),可依起迄時間、
區域地點或特定攝影機、特定事件等查詢 並表列、(5)圖形節點關連列(Graph Node Relation List),可設定不同房間走道間的 連 通 關 係 、(6) 條 件 路 徑 設 定 (Critical Path),指定需要偵測的條件路徑、(7)異常 事件表列 (Event List),即時以不同顏色燈
圖 1 多攝影機保全監控系統介面
號 顯 示 監 控 的 結 果 、(8) 查 詢 結 果 表 列 (Query Result),等介面區域。
其中,「異常偵測模組」使用背景相減 方法進行移動偵測,從循序的監控視訊畫 面中偵測出有異常物體出現的畫面,再根 據有異常物體存在的第一張畫面跟最後一 張畫面時間點,當成異常事件的起始時間 及終止時間,最後將結構化的異常事件儲 存在資料庫中。詳細作法將在第四節中加 以描述。
「關鍵畫面擷取模組」會在各個異常 事件中選出一張關鍵異常畫面,並將關鍵 異常畫面中之異常物體建立特徵索引,成 為日後異常物體搜尋之依據。關鍵異常畫 面的選取會影響後面異常物體搜尋之效 果,故我們希望能找出具代表性且有助於 擷取有效特徵的關鍵畫面,本論文以畫面 中的(1)異常物體面積、(2)異常物體密度、
(3)異常物體寬高比等標準,判斷其為人類 的可能性,並加上(4)畫面變動量、(5)畫面 清晰度、(6)畫面明亮度對比等三個畫質衡 量標準,提出一個關鍵異常畫面擷取演算 法,來選出具代表性之關鍵異常畫面。而 系統只需記錄關鍵異常畫面中異常物體之 資訊,如此便可減少儲存空間的浪費與加 快檢索時間。關鍵異常畫面擷取演算法的 詳細作法將在第五節中加以說明。
想要在監控視訊資料庫中,快速的搜 尋出特定的異常物體出現的所有異常事 件,我們需要可以度量出異常物體相似度 的特徵與比對方法。根據異常物體在監控 畫面中出現的特性,也就是前面所提在不 同攝影機觀察到的異常物體形狀與大小存 在一定的差異性,所以異常物體的顏色是 十分重要的依據。我們所採用的特徵是在 物件追蹤中所使用,能抵抗物體變形並有 縮放不變性質(Scale Invariant)的物體模型 (Object Model),也就是帶有像素位置權重 特性的顏色分佈統計(Color Histogram),度 量 相 似 度 的 方 法 採 用 Bhattacharyya Coefficient。之後系統便能依此特徵針對不 同異常事件所出現的異常物體作相似度比 對。特徵擷取與相似度比對將於第六節詳
述。
根據上述模組建構出的系統,異常物 體搜尋的操作步驟如下:(1)目標異常物體 框選:使用者瀏覽視訊畫面,找到目標異 常物體出現的畫面時,使用滑鼠拉曳框選 異常物體在畫面中出現的位置與範圍進行 搜尋。(2)異常物體特徵擷取與比對:從使 用者框選的異常物體擷取出特徵,與視訊 資料庫異常事件中關鍵異常畫面的異常物 體,擷取出特徵進行比對。(3)相似度比對 結果顯示:將異常事件依其異常物體特徵 相似度依排序,並依系統所設定的信心閥 值當做門檻值顯示出搜尋結果,使用者可 點選查詢結果列表或播放以檢視內容。(3) 行經路徑判斷:可以依照搜尋結果,按時 間以及攝影機位置資訊,推算出異常物體 行經路徑。如此一來,系統使用者,便能 快速的從監控視訊資料庫中搜尋特定異常 物體。
四、異常事件偵測
本論文將「異常事件」定義為在監控 視訊畫面中有移動物體出現的一個視訊段 落(Video Clip),移動物體也就是相對於背 景之前景物體,也就是在此系統中定義的
「異常物體」。因此我們使用移動物體偵 測,來判斷監控畫面中是否有移動物體出 現。由於本論文將重點放在視訊資料庫之 檢 索 , 故 採 用 較 簡 單 的 背 景 相 減 法 (Background Subtraction) 來 偵 測 移 動 物 體 。 相 較 於 時 間 差 異 法 (Temporal Differencing) 和 光 流 偵 測 法 (Optical Flow),背景相減法可以找到比較完整的異 常物體資訊,並且沒有太高的計算複雜度。
由於監控環境中系統已事先學習了全 彩(RGB 24 Bits)的背景畫面,且本研究中 假設背景及光源不會有太大的變化,所以 取得背景畫面後便不再做任何更新學習的 動作。當目前監控畫面進入系統時,將目 前畫面與背景影像相減,每一個相對位置 的像素中 RGB 三個成分各自相減後的結 果,只要其中之一超過閥值(Threshold),
便視為前景區域(圖 2(c)),之後進行形態 學操作(Morphological Operation)以消除雜 訊(圖 2(d))。
型態學操作中,我們使用一次斷開運 算以及一次閉合運算,用以去除一些雜訊 以及填補物件殘缺的部份。
經過形態學操作的運算後,我們將畫 面中的最大區塊填滿(圖 2(e)),並畫出可 包含最大區塊的最小框盒(Bounding Box) (圖 2(f) ),如此一來便取得了畫面中異常 物體的位置資訊。當異常物體區域超過一 個閥值(Threshold)時,我們便認定有異常 發生並記錄下相關資訊。
完成異常物體偵測動作後,我們可以 得到一連串有異常物體存在的畫面,將異 常物體最先出現及最後出現的時間,視為 一個異常事件的起始時間及終止時間,此 異常事件的區間便是我們必須記錄於資料 庫中的對象。接下來關鍵異常畫面擷取的
動作,則是為此異常事件找出其能成為索 引的關鍵異常畫面。
五、關鍵異常畫面擷取
(一)關鍵異常畫面選取考量因素
關鍵畫面(Key Frame)或稱為代表性 圖片(Representative Images),是指可表示 一 個 場 景 意 境 的 主 要 畫 面 。 在 Content-Based Video Retrieval (CBVR)相 關 研 究 中 , 關 鍵 畫 面 擷 取(Key Frame Extraction)即是找出代表性畫面當作視訊 檔案的索引[2][3]。而在我們的應用中,也 是利用這個概念,將關鍵畫面作為視訊資 料庫檢索之依據。在本論文的應用中,需 考量關鍵畫面中的異常物體是否可擷取出 良好之特徵,能幫助系統正確比對異常物 體之相似度。因此我們改良李冠穎[1]的方 式 找 出 關 鍵 畫 面 候 選 , 再 利 用 類 似 Zhang[10]的觀念,當前後畫面差異性過大 時便視為關鍵畫面。因此本論文提出之關 鍵異常畫面擷取演算法,可以依照異常物 體在畫面中是否符合清晰度高、物件切割 完整等特徵,擷取出良好之關鍵異常畫 面。針對異常物體在畫面中的清晰度、總 面 積 以 及 異 常 物 體 是 否 為 假 警 報(False Alarm)等狀況,我們希望關鍵異常畫面的 條件如下:
(a)第一是異常物體面積的大小。某些 雜訊造成的假警報,以及異常物體只 有部份出現在畫面中的情形必須排 除,故異常物體的面積大小是我們考 量的條件。
(b)異常物體與其框盒的面積比,本論 文中稱之為異常物體密度,這個值用 來確保異常物體切割的完整度。
(c)判斷異常物體寬高比在合理範圍 內。使用背景相減容易造成的問題是 當背景與前景顏色相近時,會造成誤 判。此時所得到的異常物體並不完 整,根據經驗異常物體的框盒寬高比 落於0.25~0.75 之間時,所取得的異 常物體較完整及正確。
(a) 原始影像 (b) 背景影像
(c)背景相減二值化 (d)消除雜訊
(e) 填滿區塊 (f) 前景物體及框盒 圖2 異常物體偵測主要影像處理結果
(d)畫面變動量的考量。當異常物體出 現在監控畫面中時,如果有停留駐足 時,我們對這段畫面有較高的興趣,
此時前後畫面間的變動量較少,是我 們考量的依據。
(e)畫面清晰度的考量。當攝影機對焦 不正確時,會造成畫面的模糊不清 晰,而畫面清晰與否,邊緣(Edge) 強度是很好的參考依據,同一物體的 邊緣強度在清晰畫面中會比在模糊 畫面中來的強。
(f)畫面明亮度對比的考量。當畫面像素 色階分佈越均勻時表示此畫面顏色 越佳,畫面顏色越均勻也代表此畫面 明亮對比較強烈,也表示畫面中帶有 較多的資訊量,故利用此特性作為選 取關鍵異常畫面之考量。
以上 a、b、c 三點是考量背景相減後 得到異常物體的正確性以及完整性,d、e、
f 則是考慮畫面的清晰度及對比。接下來 將分別對各項考量,說明如何計算關鍵異 常畫面特徵值。
(二)關鍵異常畫面特徵值 1、異常物體面積
異常物體面積就是取切割出之前景區 域的面積大小,也就是背景相減再二值化 成像素值為0 與 1 的二值圖後,統計圖中 不為0 的像素總數,計算方法如下,
) (
,
∑
,=
y x
y
I
xn
Size
(1) 其中,Size(n)即是第 n 張畫面中的異常物 體面積特徵值,I
x,y表示二值圖中在位置 (x,y)的像素值。2、異常物體密度
將上一個異常物體面積特徵值除以其 框盒面積,計算方法如下,
) /(
) ( )
(
n Size n Width
nheight
nDensity
= × (2)其中,
Width 為包含異常物體之最小框盒
之寬,
Height 為包含異常物體之最小框盒
n 之高,Density(n)即是第 n 張畫面中的異常 物體面積特徵值。3、異常物體寬高比
異常物體寬高比也是使用異常物體的 框盒寬高比來計算,計算方法如下,
otherwise Height Width
n if
Ratio 0.25 ( n/ n) 0.75
0 ) 1
( ≤ ≤
⎩⎨
=⎧
(3) 其 中 ,
Width 為 包 含 異 常 物 體 之 最 小
n Bounding Box 之寬,Height 為包含異常
n 物體之最小框盒之高,Ratio(n)即是第 n 張 畫面中的異常物體面積特徵值。4、畫面變動量
我 們 使 用 邊 緣 變 化 率(Edge Change Ration,ECR[9])演算法計算第 n 個畫面與 第 n+1 個畫面的邊緣變化來表示畫面變動 量。畫面變動量表示異常物體在監控畫面 中移動之情形,若變動量小表示物體移動 速度慢,此時異常物體在畫面中可能是移 動緩慢或靜止的狀態,而我們對異常物體 在畫面中停留時的動作、情形感到興趣。
故畫面變動量小將是我們考慮的因素之 ㄧ。
ECR 演算法定義兩個邊緣變化率,其 一為離開邊緣像素(Exiting Edge Pixel,
Outgoing Edge Pixel),此為在畫面 In邊緣 像素,卻不存在於下一個畫面 In+1之邊緣 像素中,也就是原本屬於 In之邊緣像素,
在下一張畫面 In+1中消失。其二為進入邊 緣 像 素(Entering Edge Pixel , Incoming Edge Pixel),是在畫面 In 邊緣像素不存 在,卻存在於下一個畫面 In+1之邊緣像素 中,也就是原不屬於畫面 In之邊緣像素,
再下一張畫面 In+1中出現。此離開邊緣像 素與進入邊緣像素比例關係,可用來偵測 場景內容改變的份量。離開邊緣像素與進 入邊緣像素值,需經過畫面邊緣計算流程 計算出來,此計算流程步驟如下。
步驟一:
將 RGB 全彩畫面轉成灰階影像,而 灰階影像值同等於 YCrCb 色彩空間中 Y 值 , 也 就 是 明 亮 度 元 件 (Luminance Component)。
步驟二:
對兩個連續畫面In與 In+1分別做Sobel 邊緣偵測(Edges Detection),計算畫面中邊 緣出現的位置與強度。邊緣偵測處理後,
此兩個畫面分別為
sobel
E
n 和sobel
E
n+1 ,每一像 素值都被調校在0 到 255 之間。步驟三:
是 進 行
sobel
E
n 與sobel
E
n+1 兩 畫 面 的 二 值 化,用來保留兩影像中邊緣強度大於事先 定義閥值的所有像素,判斷方式如下,⎩⎨
⎧ ≥
=
otherwise T y x E y if
x E
sobel thresh n
n 0,
) , (
, ) 255 , (
(4) 步驟四:
利用形態學(Morphological Operation) 中的膨脹(Dilation)運算將
E
nthresh和thresh
E
n+1 這 兩個二值化影像中的邊緣增加厚度,處理 後影像為dilation
E
n+1 和dilation
E
n 。 此後,利用thresh
E
n 與thresh
E
n+1 經公式(5)求 得離開邊緣像素影像X
nout,式中 AND 與NOT 為二元影像邏輯運算。同理,進入邊
緣像素影像in
X
n+1,也可由thresh
E
n+1 與dilation
E
n 依 公式(6)求得。)) (
(
ndilation1thresh n out
n
E AND NOT E
X =
+ (5))) (
1
(
1
dilation n thresh
n in
n
E AND NOT E
X
+=
+ (6)計算出
out
X
n 與in
X
n+1影像後,可透過比 較離開與進入兩影像的變化量,求得離開 與進入邊緣像素比例值,取其兩個比例值 最大者為畫面 In之邊緣變化率 ECR(n),計 算式如(7)。) /
, / max(
)
( n X
noutE
nthreshX
nin1E
nthresh1ECR =
+ + (7)5、畫面清晰度
在影片拍攝中會有模糊及對焦不準確 的狀況,此時邊緣強度將是我們找尋對焦 準確且清晰的依據。我們計算此場景中所 有畫面中框盒涵蓋範圍內的邊緣強度來表 示異常物體之清晰度值,計算方式可使用 前述ECR 演算法中,Sobel 邊緣偵測及二 值化處理後之畫面
thresh
E
n 。如此,在邊緣特 徵不明顯像素去除後,累計畫面中每一個 像素點的值,再計算框盒中的平均強度即 代表畫面清晰度。計算方式如下,∑
=
y x
thresh
n
x y
E n
Edges
,
) , ( )
(
(8)其中 x, y 為框盒中之像素座標。
6、畫面明亮度特徵
像 素 在 色 階 上 之 統 計 分 佈 (Histogram) ,是影像中一項重要的特徵。
明亮度像素色階分佈圖可幫助了解影像的 明亮度像素色階分佈,也就是明亮度空間 特性。根據我們實驗結果,色階分佈上若 是能夠越趨於平均,此畫面的整體畫面明 亮對比會較強烈。而在我們的應用中,有 兩項用處,一是希望所偵測出之異常物體 帶有較多的資訊量,以排除框盒只框住物 體局部的情形;二是拍攝地點如光源不穩 定,如建築物出入口,則我們希望留下明 亮對比比較大的異常物體畫面。
同樣的我們在意的範圍只在框盒的範 圍裡,故色階分佈計算方法,是利用明亮 度分佈機率,計算框盒涵蓋範圍內的熵 (Entropy),以顏色為灰階值(0~255)之顏色 分佈來做計算,式子如下,
)) , ( ( log ) , ( )
( n p x n
2p x n
H
x
∑
−
=
(9) 其中 p(x,n)表示在畫面 n 中灰階值為 x 時 之統計機率值。H(n)值代表整張圖所需要 的位元(Bit)數,值越大代表資訊量較大也 就是色階分佈較均勻。
根據上述六種特徵值,計算影片畫面
n 的異常物體面積 Size(n)、異常物體密度 Density(n)、寬高比 Ratio(n)、畫面清晰度 Edges(n)、畫面變動量 ECR(n)、與畫面明
亮對比度 H(n)。計算完畢取得特徵值後,我們將寬高比 Ratio(n)之外的特徵值做除 以每個特徵值中各自出現的最大值作正規 化(Normalization)的動作,讓每一個特徵值 都可以介於0 與 1 之間。
經過上述各種特徵,我們可整理成畫 面 n 關鍵值 KeyFrameScore(n),公式如下,
( ) ( ) ( )
( ) ( )
( ) ( )
Normal
size Ratio
Normal Normal
Density ECR
Normal Normal
Edges H
KeyFrame n w Size n w Ratio n
w Density n w ECR n
w Edges n w H n
= × + ×
+ × + ×
+ × + ×
(10) 其中
w
Size、w
Density、w
Ratio、w
ECR、w
Edges、w 為各項權重因子。在不同考慮因素下,
H可調整其權重因子。而權重因子的考量要 視使用情境而定,如拍攝物體因距離有 Scaling 的情況,則異常物體面積必須小心 考慮,因最大面積的異常物體不見得是完 整的。同理,畫面變動量也需視情況而定,
在異常物體移動速度不變的情形下,畫面 變動量較無考慮價值。故在不同拍攝環境 下,需考慮不同的權重因子,已達到較好 的關鍵畫面擷取結果。
計算出 KeyFrameScore 後,我們選擇
KeyFrameScore 最高的前百分之二十為關
鍵異常畫面候選。但這些關鍵異常畫面間 有些十分相似,因為相鄰畫面間異常物體 並沒有太大的改變。因此我們將關鍵異常 畫面候選按照時間順序排序後,選取第一 張當做關鍵異常畫面,再依序檢查直到有 一張畫面和目前這張關鍵畫面的異常物體 差異超過一個閥值時,就選取這張畫面為 關鍵異常畫面,並把此畫面的異常物體當 作選取下一張關鍵異常畫面的依據。六、異常物體特徵相似度比對
在多攝影機的監控視訊影像中,同一 個人在不同角度拍攝下的形狀特徵可能有
很大的差異,而不同一個人在相同拍攝角 度下形狀特徵卻可能十分相似。因此,本 論文使用最直覺的顏色特徵,藉由異常物 體的穿著衣物顏色來辨別其在不同攝影機 拍攝下的相似度。我們採用使用於物件追 蹤(Object Tracking)的物體模型與核心函 數。當異常物體在監視畫面中移動時,除 了形狀的變形外,其面積也會隨著與攝影 機的距離跟著改變。所以我們選擇的特徵 需要有縮放不變性質(Scale Invariant),足 以抵抗在不同角度拍攝下物體相當程度的 變形與面積的改變。在以核心為基礎的物 件追蹤(Kernel-based Object Tracking,[4]) 研究中,使用核心函數(Kernel-function)所 建立的物體模型十分符合本論文中異常物 體特徵的條件。因此在本論文中我們提出 一個以顏色為基礎的物件模型比對方法,
來做異常物體的相似度比對,讓使用者可 以選擇視訊監控畫面中的異常物體對資料 庫中所紀錄的異常物體進行搜尋。
在以核心為基礎中(Kernel-based)的物 件 追 蹤 方 法 中 使 用 核 心 函 數(Kernel Function)建立物體模型特徵,其特性是使 用物體中每個像素的顏色作為特徵,並將 像素座標位置加入考量,建立一個有顏色 權重差異的物體模型。其想法來自於,當 觀察畫面中一物體時,會發現越靠近物體 中心點的像素穩定性越高,物體邊緣附近 像素容易受周遭背景影響造成顏色偏差。
我們套用此以核心為基礎的追蹤方法中所 用之物體模型,抵抗在不同攝影機的不同 角度拍攝下物體的變形與面積的改變,建 立出一個越靠近物體中心的像素其色彩資 訊的重要性越高的物體模型。
建立這類模型是使用核心函數來建 立,核心函數會依據每個像素座標位置與 中心點的距離來分配其權重,使得越靠近 中央的像素顏色資訊越重要。我們使用核 心函數為Epanechnikov Kernel Function。
其特性如下,
⎪⎩
⎪⎨
⎧ + − <
= −
. 0
1 )
1 )(
2 2 (
1 ) (
1
otherwise x if x d
x C
K d (11)
其中,d 表空間的維度,在此為二維影像,
故 d=2,Cd表 d 維空間中,單位圓的面積,
故在此為π。
接著說明如何使用核心函數建立物體 模型。假設{xi}i=1…n 代表為目標物體中所 有像素點位置集合,中心點為 y。另定義 函數 b:R2→{1…m},b(x)之值為像素 x 所 在 位 置 於 模 型 中 的 色 彩 索 引 值(Color Index)。物體模型為:
] ) ( [ ) (
) (
1
2
u x h b
x k y C u
q
in
i
i
−
= ∑ −
=
δ (12)
∑
== −
n i
i
h x k y C
1 ( )
1 (13)
其中,δ
(x )
是Kronecker delta function,C 表正規化常數,h 表半徑長度。(12)式即代 表物體模型分布密度函數。y 是物體的中 心點,h 用來讓計算x 與中心點的距離正
i 規化為最大值為1。(13)式正規化常數的目 的是使∑
=m
u
q u y
1 ( , )為1 恆成立。
色彩索引值的多寡和所使用的色彩空 間(Color Space)會影響物體模型的精確 度。RGB 是最常見的色彩空間,但因為每 個像素的 R、G、B 三個元素會同時影響 到色彩的明亮度,因此在向量空間中的辨 識度並不算良好。因此我們使用在顏色上 辨識度較佳的 HSV 色彩模型來建立物體 模型,並考慮運算量以及資料庫中所需儲 存的資料量,將色度(Hue)量化成 16 等 分、飽和度(Saturation)與亮度(Value)量化 成四等分。也就是使用 16×4×4 共 256 個 bin 來表示物體模型。
當物體特徵模型建立好後,我們得到 的是一個帶有像素座標位置權重的顏色分 佈 統 計(Color Histogram)。Bhattacharyya Coefficient 可用來量度兩個物體模型也就 是此含像素座標權重值的Color Histogram 之間的相似度。Bhattacharyya Coefficient 定義如(14)式。
[ ] = ∫ ⋅
≡ t u q u t u q u du
q
t , ) ( ), ( ) ( ) ( )
(
ρρ (14)
其中 t(u)代表 target 物體模型中第 u 個色彩
索引中的量,q(u)表物體模型中第 u 個色 彩索引中的量。由於圖片為離散訊號,所 以Bhattacharyya Coefficient 離散形式如式 (15)。
[ ] ∑
=
×
=
≡
mu
u q u t u
q u t q t
1
) ( ) ( )
( ), ( ) ,
(
ρρ (15)
Bhattacharyya Coefficient 值越大,表 示 兩 個 物 體 模 型 越 相 似 , 反 之 Bhattacharyya Coefficient 值越小表示兩個 物 體 模 型 越 不 類 似 。 故 在 模 組 中 藉 由 Bhattacharyya Coefficient 計算兩個物體模 型的相似度。
七、實驗結果與討論
我們的測試實驗方法,是在四個地點 使用固定攝影機各自拍攝一段時間,並讓 數個測試目標在四個地點輪流出現。拍攝 完畢後,將影片一一經由系統進行異常偵 測,以及關鍵異常畫面擷取和特徵擷取儲 存於資料庫中。最後藉由查詢曾在四個地 點出現的目標人物,看是否能藉由本論文 提出之方法,找出衣服顏色相近之異常物 體,以便縮小所需檢視範圍,快速的在監 控視訊資料庫中找到所關注的特定異常物 體,並藉由在攝影機中出現的時間順序找 出異常物體行經之路線。此系統開發環境 為Window XP Professional Server Pack 2 作業系統、Intel Pentium4 3.2 GHz 處理 器、DDR 1G 記憶體、WD 7200 RPM 250G 硬碟。開發工具是Microsoft Visual Studio 2005 以 及 OpenCV , 使 用 程 式 語 言 為 C++,資料庫採用 Microsoft Access 2003。
實驗影片是Intel Indeo R5.1 壓縮格式,解 析度是640×480,每秒 30 張畫面。
當使用者瀏覽異常事件後,想要找出 資料庫中某特定異常物體,可以使用異常 物體查詢功能。使用者可以按下去系統介 面下方除背景鈕,讓系統取得對應的背景 影像以便減去背景(結果如圖 4 系統介面 左上方畫面),方便減少背景對特徵擷取時 的干擾。使用者勾選系統介面下方異常物 體查詢的Check Box 後,便可以框選想查
詢的異常物體。框選後按下查詢鈕,系統 會將查詢結果,以相似度依序排列於查詢 結果列表(圖 3 右下方)。而使用者可以選 擇信心閥值,將相似度在信心閥值以上的 查詢結果留下,此時按下顯示路徑鈕,則 系統會依照異常事件發生時間重新排序,
並依照攝影機編號推算出異常物體行經路 線(圖 3 右方)。
利用相似度比對方法,在下面的例子 中我們在框選異常物體並進行查詢後,成 功的找出在資料庫中所有該異常物體出現 的異常事件。圖4 (a)是 Query Image,(b)、
(c)、(d)、(e)分別是從資料庫中找到最相近 的前四個異常事件的異常物體,(b)與(a) 是同一段影片中的影像,相似度達0.945;
(c)與(a)相似度為 0.85,用肉眼已可看出在 亮度上有所差異; 而(d)、(e)除了亮度的關 係再加上下半身顏色資訊較少,與(a)相似 度已小於0.8。
我們所使用的相似度比對法有一定的 準確度,但使用顏色當作唯一特徵的缺點
是當有不同異常物體穿著相似顏色時,必 定會造成混淆。此外,光線也是很重要的 影響因素。光線的影響從圖5 的例子中更 可明顯看出,(a)與(b)相似度是 0.87,(b) 與(c)則只有 0.76。
八、結論
本論文提出一個運用於保全監控系統 的視訊內容檢索搜尋方法架構。此方法使 用背景相減(Background Subtraction)方式 偵測異常物體出現的事件段落,並藉由關 鍵異常畫面擷取(Key Frame Extraction)演 算法,利用異常物體面積、異常物體密度、
異常物體寬高比、畫面變動量、畫面清晰 度、畫面明亮對比等六種特徵,過濾選取 出可明顯表現出異常物體特徵之關鍵異常 畫面,儲存於視訊資料庫中。保全管理者 可在監控視訊資料的瀏覽過程中,以時間 或攝影地點等條件查詢異常事件的畫面,
找到可疑並欲搜尋的異常物體後,可經由 自行圈選出此異常物體,並以我們設計的 圖 3 搜尋結果輸出介面
使用Epanechnikov Kernel Function 為核心 建立異常物體之物體模型(Object Model) 的方法,與監控視訊資料庫中所儲存的,
關鍵異常畫面中異常物體的物體模型,計 算出Bhattacharyya Coefficient 來度量異常 物體之間的相似度,以進行比對。搜尋時,
可按照相似度排列其結果,並以異常事件 發生時間,得知異常物體的行經路徑,以 建立出一個完整的監控視訊系統資料庫中 異常物體搜尋之方法。
本論文提出之方法,經實驗測試證 明,可以讓保全管理者有效率的瀏覽查詢 監控系統視訊資料庫中的異常事件,異常 物體查詢方法也可快速的縮小所需檢視範 圍,有效的減少監看錄影畫面時間。
九、參考文獻
[1] 李冠穎,「視訊片段之代表性圖片選 擇法」,國立台北科技大學資訊工程 所論文,民國93 年。
[2] S. Antani, R. Kasturi, and R. Jain, “A Survey on the Use of Pattern Recognition Methods for Abstraction, Indexing, and Retrieval of Images and Video,” Pattern Recognition, Vol. 35, No. 4, pp. 945-965, 2002.
[3] H. S. Chang, S. Sull, S. U. Lee,
“Efficient Video Indexing Scheme for Content-Based Retrieval,” IEEE Trans
Circuits Sys. Video Techn., Vol. 9, No.
8, pp. 1269-1279, 1999.
[4] D. Comaniciu, V. Ramesh, and P. Meer,
(a) (b) (c) (d) (e) 圖 4 相似度比對查詢結果
(a) (b) (c) 圖 5 受光影影響之相似度比對
“Kernel Based Object Tracking,” IEEE
Trans. Pattern Analy. Machine Intel.,
Vol. 25, No.5, pp. 564-557, May 2003.[5] W. Hu, T. Tan, L. Wang, and S.
Maybank, “A Survey on Visual Surveillance of Object Motion and Behaviors,” IEEE Transaction on
System, Man, and Cybernetics—Part C:
Applications and Reviews, Vol. 34, No.
3, Aug., 2004.
[6] S. Jabri, and et al., “Detection and Location of People in Video Images Using Adaptive Fusion of Color and Edge Information,” Proc. Intl. Conf.
on Pattern Recognition, Vol. 4, pp.
627-630, 2000.
[7] A. J. Lipton, H. Fujiyoshi, and R. S.
Patil, “Moving Target Classification and Tracking from Real-time Video,”
Proc. of the 4th IEEE Workshop on Applications of Computer Vision, pp.
8-14, 1998.
[8] D. Meyer, J. Denzler, and H. Niemann,
“Model Based Extraction of
Articulated Objects in Image Sequences for Gait Analysis,” Proc.
IEEE Int. Conf. Image Processing, pp.
78-81, 1998.
[9] R. Zabih, J. Miller,and K. Mai. ,“A Feature Based Algorithm for Detecting and Classifying Scene Breaks,” Proc.
of ACM Multimedia 95, San Francisco,
CA, pp. 189-200, Nov. 1995.[10] H. J. Zhang, J. Wu, D. Zhong, and S.
W. Smoliar, “An Integrated System for Content-based Video Retrieval and Browsing,” Pattern Recognition, Vol.
30, No. 4, pp. 643-658, 1997.
[11] P. Remagnino, A. I. Shihab and G. A.
Jones, “Distributed Intelligence for Multi-Camera Visual Surveillance,”
Pattern Recognition, Vol. 37,
pp.675-689, 2004.[12] J. Black, D. Makris and T. Ellis,
“Hierarchical Database for Multi- Camera Surveillance System,” Pattern