第一章 緒論
1.1 研究背景
在網路盛行之前,影像檢索在發展上未受重視有兩大主因:影像檢索技術難以克服 與數位影像尚未普及,因此數位資料大多僅於特定領域中被使用,例如生物科技或是國 防相關、太空研究、醫療影像等。然隨著近年來資訊科技快速進步,網路快速普及,影 像處理技術與成本及速度亦大幅改善,數位影像應用快速從特定領域擴展至各方面及多 樣化領域。例如 Google 網站已蒐集了超過十億張影像,而對於典藏機構而言,上千萬 張影像之儲存量亦頗為普遍,對於個人使用者而言,亦可能擁有數以千計之影像。面對 影像相關技術演進與發展,傳統以人工方式進行檢索勢不可行,因此影像檢索技術之需 求應運而生。影像檢索技術之目標為快速且精確的自大量影像中獲取符合使用者需求影 像,亦即符合使用者意圖之影像。使用者之意圖對應於影像之意涵,在此可以語意
(semantics)統稱之。當使用者表達其意圖時,影像檢索系統必須判斷影像之語意並與之 比對,再依其相似程度呈現於使用者,然而影像之語意頗難判定。目前已有許多影像檢 索方法已被發展出來,依照不同方式可以將其概分為三大類。
第一類為基於關鍵字之影像檢索(keyword-based image retrieval)。這類技術基本上為 自傳統以文字為主之資訊檢索技術所延伸出來。在資料庫中的每一張影像,除了影像內
第二類稱為基於內容之影像檢索(content-based image retrieval)。這類方式是直接以 影像內容進行檢索,而不用透過人為之註解。其主要方法為淬取出影像中之特徵並以此 特徵來表示影像。使用者可以影像特徵或範例影像來描述其資訊需求,並據以進行影像 特徵間之相似度比對。由於這樣的方式不需專門人員進行影像註解,其特徵淬取以至比 對皆可自動完成,因此較適合儲存大量影像之資料庫使用。在此所採用之影像特徵,多 為人類視覺所能感測之特徵,例如色彩(color)、形狀(shape)、紋理(texture)、輪廓(Contour) 以及這些特徵間之結構資訊等等。由於其高度自動化的特性,以內容為主之影像檢索為
2. 使用者很難將其意圖完整的表達。例如若使用者想要檢索有關蝴蝶的影像,在 以色彩為主的影像檢索系統中是很難表達他的需求的。即使是在使用以範例查 詢(query by example)的系統時,使用者仍然會發現要找到可以完全描述其需求 之範例影像是一件不容易的事。 色彩、形狀、紋理或輪廓等進行查詢,即所謂之第一階查詢(level 1 query)。事實上,查 詢之方式還有更高階的方式,即所謂的第二階(level 2)與第三階(level 3)查詢。第二階查 詢是以衍生特徵(derived features)為主的查詢。衍生特徵包含了影像中物件的某種程度的 像檢索(semantic-based image retrieval)(或稱語意影像檢索)相關研究便因運而生,試圖 解決語意鴻溝之問題。基於語意之影像檢索便是我們所歸類之第三類影像檢索方法。
語意影像檢索為一十分困難的問題。主要的困難在於如何淬取出影像中所包含之語
之上。人工方式雖可獲得較佳的語意,但費時費力,僅可應用於小型影像資料庫上,對 於大型資料庫而言實用性不高。自動影像註解(automatic image annotation)則可有效的解 決人工註解的困難。自動影像註解乃是藉由分析影像之意涵,淬取其語意,轉化為註解 型式附加於影像。其優點為無需或僅需少量人力介入,可迅速處理大量影像,並可即時 處理新進影像。
自動影像註解技術雖有諸多優點,但其難度頗高。主要的難處在於影像語意之淬取 為一高階認知過程(high-level cognitive process),一般人雖可輕易的藉由觀察影像而得知 其意涵,但此一過程要以自動化之過程完成之卻頗為困難。一張影像內包含有各式資 訊,以傳統影像內容分析觀點視之,可分為色彩、形狀、紋理與輪廓等主要影像特徵。
雖然我們可以有效的自影像中淬取出上述的特徵,但仍、需克服兩個問題。其一為此特 徵是否可以有效的表達影像之全部語意。其二為如何將此特徵對應至以文字形式所描述 之影像語意。第一個問題其實與第二個問題相關,因不論所採用之影像特徵為何,其後 之文字對應方式若能完善,均可獲致較佳的效果。但如前所言,此對應方式為一高階認 知過程,頗難克服,也成為自動影像註解中最為關鍵之步驟。
將影像之內容對應至符合其語意之文字註解的過程,在此稱之為影像語意發掘 (image semantics discovery)過程。影像語意發掘技術已被研究許久,主要可分為兩個方 向。其一為根據內容直接發掘語意,其二為根據環境間接的發掘語意。第一種方法直接 自影像內容萃取出影像視覺特徵後,再與相關文字對應以產生具語意性的註解。這種方 式的優點為影像語意為內容直接分析而得,較為直接且合理。其缺點為較難設計出有效 的對應方式。第二種方式不直接分析影像的內容,而以其周邊的文字資訊為主要分析對 象。其優點為語意取得容易,缺點為周邊文字不易精確的獲取甚至完全缺乏。目前大部 份的影像註解相關研究都採取第一個方向,因周邊文字之不一致性較高,因此很難精確 的取得。