章節介紹

第一章前言

1.4 章節介紹

在以下章節中，第二章首先介紹圖像檢索、自動圖像註解相關研究；第三章介紹本研究如何以圖像區塊為基礎進行圖像區塊標記字詞及權重建構，以及如何綜合圖像區塊的資訊產生自動圖像註解；第四章是第三章所提出的自動圖像註解方法實驗結果，以驗證其可行性與效能；第五章是結論及對未來的展望。

第 2 章相關研究

2.1 圖像檢索

如何從眾多圖像中找出需要的圖像是一個被研究多年的題目，而其方法大致可以分為兩大類：(1)以文字為基礎的圖像檢索(Text-Based Image Retrieval, TBIR)；(2)以內容為基礎的圖像檢索(Content-Based Image Retrieval, CBIR)。

2.1.1 以文字為基礎的圖像檢索(TBIR)

在以文字為基礎的圖像檢索中，檢索系統主要根據使用者輸入的關鍵字詞在資料庫中與圖像的描述文字做比對，找出符合的圖像，此種方式通常可以很快地找出檢索結果，因為系統的主要工作只是在資料庫中做搜尋，然而檢索結果是否符合所需則需倚賴資料庫中的圖像描述文字。

在早期的系統中，圖像的描述文字通常以分享者所提供的資訊或是檔案名稱為主或是由人工進行標記分類，然而在這個網際網路資料量倍增的時代，此種方式太過耗時費力；Shen 等人【1】曾提出將圖像所在的網頁中的文字作為圖像的潛在註解文字，用以自動產生圖像的描述文字供以文字為基礎的圖像檢索使用；

Srihari 等人【2】提出藉由圖像週遭的敘述文字透過分析後取出適合該圖像的索

引字詞作為圖像的描述文字，然而這些方式均需要在網頁圖像週遭有相關文字資訊的情況下，才能夠順利產生圖像的描述文字。

2.1.2 以內容為基礎的圖像檢索(CBIR)

儲存體、硬體成本的降低以及網際網路的普及促進了以內容為基礎的圖像檢索朝著許多不同的方向迅速發展，Smeulders 等人【3】將其應用大致分為三種廣泛的型態：(1)目標搜尋(target search) ─ 主要利用樣式比對(pattern matching)及物件辨識技術來達到搜尋的目的，在不同場景及大量物件型式的情況下，以內容為基礎的檢索方式面臨一大挑戰；(2)分類搜尋(category search) ─ 植基於物件辨識與樣式模型統計(statistical pattern recognition)等問題上，大量的類別及缺乏特徵擷取時的明確相位為其困難處；(3)關聯性搜尋(search by association) ─ 以未具體指定的目標物為搜尋目標，其結果往往會受限於電腦視覺領域上所使用的特徵集合與相似度函數，亦須解決語意上的困難問題。

以內容為基礎的圖像檢索主要目的就是希望在缺乏元資料(meta-data)的情況下，客觀地找出圖像中可能擁有的概念(concept)；徐【4】利用複合式高斯混合模型進行圖像檢索，首先將圖像進行圖像分割，對於分割後的圖像讓使用者選擇其感興趣的部份，即欲檢索的圖像區塊(region of interest)做為視覺關鍵字在資料庫中進行相似度計算；然而在以內容為基礎的圖像檢索方式中，由於需要做較高維度的相似度計算比較，速度上往往較以文字為基礎的圖像檢索需要更多的時間。

2.2 自動圖像註解(Automated Image Annotation)

如何對一張圖像自動給予適當的圖像註解是一個被認為很具挑戰性且困難的問題，而其亦與以內容為基礎的圖像檢索有著很大的相關性【5】，若圖像與字詞間的自動對應能夠達到一定的可靠程度，則在此自動對應的輔助之下，以內容為基礎的圖像搜尋在語意方面將變得更具有意義【6】。

2.2.1 文字-圖像聯合模型(Joint Word-Picture Modeling Approach)

2.2.2 監督式分類方法(Supervised Categorization Approach)

此方法將圖像註解的問題視為一個監督式分類的問題，它將每一個不同的註

indoor outdoor outdoor city landscape，最後再進一步將 landscape

sunset forest m

判斷，會侷限於初始設定的類別個數。

Li 等人【10】提出的 ALIP(Automatic Linguistic Indexing of Pictures)系統是址對應到一些合適的標記字詞，做不同的分類，例如www.google.com 會對應到

「入口網站」、「信箱」等。

第 3 章

以圖像區塊為基礎自動圖像註解

本章敘述所提的自動圖像註解方法，本方法主要針對單張圖像中各圖像區塊進行標記字詞與標記字詞權重計算，再綜合各區塊的標記字詞及權重產生該張圖像的註解字詞排序，圖3-1 是對單張圖像進行自動圖像註解的流程圖，首先對新進圖像做圖像分割，切割出可能的物件區塊，針對較大的區塊在資料庫中做以內容為基礎的相似度比對，對於比對後相似度較大的結果統計其各個標記字詞的出現次數，出現次數較多者視為候選標記字詞並計算其平均相似度作為權重，並將權重較大的候選標記字詞設定給該圖像區塊，最後綜合該圖像各圖像區塊的標記字詞與權重產生該張圖像註解字詞。本章3.1 節介紹圖像分割與圖像區塊特徵擷取；3.2 節介紹圖像區塊標記字詞及權重之建構方式；3.3 節介紹如何綜合圖像各區塊資訊產生圖像註解字詞。

圖3-1：單張圖像自動註解流程圖。

3.1 圖像分割與圖像區塊特徵擷取

本節說明對圖像所做的前處理與特徵擷取，首先藉由視覺相似度的比較將一張圖像分割成許多視覺相似區塊，再對各個視覺相似區塊取出一組特徵向量作為其描述，用於與其它圖像區塊間的相似度計算。

圖像處理流程如圖3-2，本方法希望能將圖像中具有視覺相似性的物件區塊取出，為了降低雜點對圖像分割的影響，先將圖像模糊化，再將視覺上相似度較高的點分成幾個區域，流程圖中各步驟詳述如下：

圖3-2：圖像處理流程。

步驟一：圖像模糊化

高斯低通濾波器(Gaussian low-pass filter)【13】是很常用來做圖像模糊化的一種方法，然而此方法也可能會將圖像中很明顯的邊緣或邊界模糊化，為了避免此種現象發生，使用非線性擴散(anisotropic diffusion)【14】方法做處理，其原理為對圖像中一個座標點做模糊化時，先偵測其附近是否有顯著的邊界存在，再對邊界內的區域進行模糊化，如此只會將區域內部顏色較相近的部份模糊化而保留原有清楚的邊緣或邊界，圖3-3 為圖像模糊化的範例，圖 3-3(a)為原圖像，(b)與 (c)分別為使用高斯低通濾波方法與非線性擴散方法模糊化後的圖像。

圖3-3：圖像模糊化範例。(a)原圖像，(b)經高斯低通濾波模糊化圖像，(c)經非線性擴散模糊化圖像。

步驟二：相似區域判斷

字詞給相似度較大的圖像區塊，使得資料庫中可以產生大量帶有標記字詞資訊的

圖3-5：候選標記字詞產生流程。

3.2.2 圖像區塊標記字詞權重計算

使用標記字詞權重值的效益有二：(1)當使用文字為基礎的檢索時，權重可作為檢索結果排序的依據，在產生圖像註解時，權重亦可作為該標記字詞出現的排序優先權；(2)在 Web 2.0 的圖像檢索系統中，當使用者錯用或故意誤設標記字詞給圖像時會因為得不到高的權重值而將其所給定的標記字詞消除，可降低人為因素造成的不良影響甚至錯誤的檢索結果。

將標記字詞設定到圖像區塊上的流程如圖3-6，候選標記字詞輸入到權重產生器產生權重後，若其大於預先設定的臨界值，則將該後選字詞及權重設定到圖像區塊上，若小於預先設定的臨界值 W 則表示該圖像區塊與該候選標記字詞的相關性不高，將該標記字詞捨棄。

圖3-6：標記字詞設定流程。

標記字詞之權重可視為該標記字詞對於該圖像區塊的相關程度，當候選標記字詞輸入到權重產生器之後，權重產生器先以候選標記字詞為關鍵字做以文字為基礎的檢索(TBIR)，找出資料庫中具有該標記字詞的圖像區塊，再對檢索出的結果與欲標記的圖像區塊做視覺相似度比對後並排序，並取其前 m 個平均值做為該標記字詞在該圖像區塊上的權重值，權重產生器的詳細過程如圖 3-7，其中 TBIR 的檢索結果若太少則將標記字詞暫存但不計算其權重，這是因為在 web 2.0 的標記字詞建構下，若使用者所提供的標記字詞在資料庫中未出現過，則其權重用此方法亦無法計算出，故將其暫時保留且給予一個人工設定標籤，待資料庫更新時若有多個該標記字詞，則可將其權重算出，如此可以讓整個系統的標記字詞隨著web 2.0 的方式建構，而有越來越多種類的標記字詞產生。

圖3-7：標記字詞權重產生流程。

3.3 綜合圖像區塊資訊產生圖像註解字詞

在本節中我們設計了三種不同的方法利用圖像區塊的資訊來產生圖像註解；3.3.1 節的方法主要考慮圖像區塊上的標記字詞權重來產生註解字詞排序；

3.3.2 節的方法忽略標記字詞權重而僅考慮標記字詞在圖像中的出現次數來作為產生圖像註解的依據；3.3.3 節則將圖像區塊在圖像中所佔的面積大小也加入成為產生圖像註解的考量因素之ㄧ；對於本節所提出的幾個方法，將在第四章中以實驗驗證其效能與可行性。

3.3.1 根據最大權重產生圖像註解字詞

當圖像 I 中的圖像區塊經過標記字詞與權重建構後，藉由這些帶有標記字詞 的圖像區塊資訊來產生圖像 I 的註解字詞；首先找出在圖像 I 的所有圖像區塊中 所出現的不同的標記字詞，並找出每一個不同的標記字詞所擁有的最大權重值，

再利用此數值將各個不同的標記字詞排序，產生圖像的註解字詞，此數值可視為 該標記字詞在圖像 I 上的近似值。

舉例如下，假設圖 3-8 為圖像 I 經過圖像區塊標記字詞及權重建構後的結

第四章中以實驗驗證其可行性。

第 4 章實驗結果

在本章中對於第 3 章所提自動圖像註解方法，加以實作，並設計實驗來評估此方法的效能。對於實驗的平台，在硬體方面使用 Intel Pentium-4 3.0GHz 時脈速率中央處理器的個人電腦，搭配有 1Gigabytes 主記憶體，作業系統為 Fedora Core 5 搭配 MySQL 資料庫；在圖像資料來源方面，使用 Corel 圖像資料庫中 28 個圖像類別集合，每個類別集合有 100 張圖像，並對這 2800 張圖像做 3.1.1

在文檔中自動圖像註解於圖像檢索系統之研究 (頁 13-0)

第一章 前言