監督式分類方法

第二章相關研究

2.2 自動圖像註解

2.2.2 監督式分類方法

此方法將圖像註解的問題視為一個監督式分類的問題，它將每一個不同的註

indoor outdoor outdoor city landscape，最後再進一步將 landscape

sunset forest m

判斷，會侷限於初始設定的類別個數。

Li 等人【10】提出的 ALIP(Automatic Linguistic Indexing of Pictures)系統是址對應到一些合適的標記字詞，做不同的分類，例如www.google.com 會對應到

「入口網站」、「信箱」等。

第 3 章

以圖像區塊為基礎自動圖像註解

本章敘述所提的自動圖像註解方法，本方法主要針對單張圖像中各圖像區塊進行標記字詞與標記字詞權重計算，再綜合各區塊的標記字詞及權重產生該張圖像的註解字詞排序，圖3-1 是對單張圖像進行自動圖像註解的流程圖，首先對新進圖像做圖像分割，切割出可能的物件區塊，針對較大的區塊在資料庫中做以內容為基礎的相似度比對，對於比對後相似度較大的結果統計其各個標記字詞的出現次數，出現次數較多者視為候選標記字詞並計算其平均相似度作為權重，並將權重較大的候選標記字詞設定給該圖像區塊，最後綜合該圖像各圖像區塊的標記字詞與權重產生該張圖像註解字詞。本章3.1 節介紹圖像分割與圖像區塊特徵擷取；3.2 節介紹圖像區塊標記字詞及權重之建構方式；3.3 節介紹如何綜合圖像各區塊資訊產生圖像註解字詞。

圖3-1：單張圖像自動註解流程圖。

3.1 圖像分割與圖像區塊特徵擷取

本節說明對圖像所做的前處理與特徵擷取，首先藉由視覺相似度的比較將一張圖像分割成許多視覺相似區塊，再對各個視覺相似區塊取出一組特徵向量作為其描述，用於與其它圖像區塊間的相似度計算。

圖像處理流程如圖3-2，本方法希望能將圖像中具有視覺相似性的物件區塊取出，為了降低雜點對圖像分割的影響，先將圖像模糊化，再將視覺上相似度較高的點分成幾個區域，流程圖中各步驟詳述如下：

圖3-2：圖像處理流程。

步驟一：圖像模糊化

高斯低通濾波器(Gaussian low-pass filter)【13】是很常用來做圖像模糊化的一種方法，然而此方法也可能會將圖像中很明顯的邊緣或邊界模糊化，為了避免此種現象發生，使用非線性擴散(anisotropic diffusion)【14】方法做處理，其原理為對圖像中一個座標點做模糊化時，先偵測其附近是否有顯著的邊界存在，再對邊界內的區域進行模糊化，如此只會將區域內部顏色較相近的部份模糊化而保留原有清楚的邊緣或邊界，圖3-3 為圖像模糊化的範例，圖 3-3(a)為原圖像，(b)與 (c)分別為使用高斯低通濾波方法與非線性擴散方法模糊化後的圖像。

圖3-3：圖像模糊化範例。(a)原圖像，(b)經高斯低通濾波模糊化圖像，(c)經非線性擴散模糊化圖像。

步驟二：相似區域判斷

字詞給相似度較大的圖像區塊，使得資料庫中可以產生大量帶有標記字詞資訊的

圖3-5：候選標記字詞產生流程。

3.2.2 圖像區塊標記字詞權重計算

使用標記字詞權重值的效益有二：(1)當使用文字為基礎的檢索時，權重可作為檢索結果排序的依據，在產生圖像註解時，權重亦可作為該標記字詞出現的排序優先權；(2)在 Web 2.0 的圖像檢索系統中，當使用者錯用或故意誤設標記字詞給圖像時會因為得不到高的權重值而將其所給定的標記字詞消除，可降低人為因素造成的不良影響甚至錯誤的檢索結果。

將標記字詞設定到圖像區塊上的流程如圖3-6，候選標記字詞輸入到權重產生器產生權重後，若其大於預先設定的臨界值，則將該後選字詞及權重設定到圖像區塊上，若小於預先設定的臨界值 W 則表示該圖像區塊與該候選標記字詞的相關性不高，將該標記字詞捨棄。

圖3-6：標記字詞設定流程。

標記字詞之權重可視為該標記字詞對於該圖像區塊的相關程度，當候選標記字詞輸入到權重產生器之後，權重產生器先以候選標記字詞為關鍵字做以文字為基礎的檢索(TBIR)，找出資料庫中具有該標記字詞的圖像區塊，再對檢索出的結果與欲標記的圖像區塊做視覺相似度比對後並排序，並取其前 m 個平均值做為該標記字詞在該圖像區塊上的權重值，權重產生器的詳細過程如圖 3-7，其中 TBIR 的檢索結果若太少則將標記字詞暫存但不計算其權重，這是因為在 web 2.0 的標記字詞建構下，若使用者所提供的標記字詞在資料庫中未出現過，則其權重用此方法亦無法計算出，故將其暫時保留且給予一個人工設定標籤，待資料庫更新時若有多個該標記字詞，則可將其權重算出，如此可以讓整個系統的標記字詞隨著web 2.0 的方式建構，而有越來越多種類的標記字詞產生。

圖3-7：標記字詞權重產生流程。

3.3 綜合圖像區塊資訊產生圖像註解字詞

在本節中我們設計了三種不同的方法利用圖像區塊的資訊來產生圖像註解；3.3.1 節的方法主要考慮圖像區塊上的標記字詞權重來產生註解字詞排序；

3.3.2 節的方法忽略標記字詞權重而僅考慮標記字詞在圖像中的出現次數來作為產生圖像註解的依據；3.3.3 節則將圖像區塊在圖像中所佔的面積大小也加入成為產生圖像註解的考量因素之ㄧ；對於本節所提出的幾個方法，將在第四章中以實驗驗證其效能與可行性。

3.3.1 根據最大權重產生圖像註解字詞

當圖像 I 中的圖像區塊經過標記字詞與權重建構後，藉由這些帶有標記字詞 的圖像區塊資訊來產生圖像 I 的註解字詞；首先找出在圖像 I 的所有圖像區塊中 所出現的不同的標記字詞，並找出每一個不同的標記字詞所擁有的最大權重值，

再利用此數值將各個不同的標記字詞排序，產生圖像的註解字詞，此數值可視為 該標記字詞在圖像 I 上的近似值。

舉例如下，假設圖 3-8 為圖像 I 經過圖像區塊標記字詞及權重建構後的結

第四章中以實驗驗證其可行性。

第 4 章實驗結果

在本章中對於第 3 章所提自動圖像註解方法，加以實作，並設計實驗來評估此方法的效能。對於實驗的平台，在硬體方面使用 Intel Pentium-4 3.0GHz 時脈速率中央處理器的個人電腦，搭配有 1Gigabytes 主記憶體，作業系統為 Fedora Core 5 搭配 MySQL 資料庫；在圖像資料來源方面，使用 Corel 圖像資料庫中 28 個圖像類別集合，每個類別集合有 100 張圖像，並對這 2800 張圖像做 3.1.1 節所述的圖像分段，總共分成約21 萬個圖像區塊，在實驗中我們以人工標記字詞作為標準答案，而設定人工標記字詞的標準如下：

(1) 針對每張圖像中較顯著的圖像區塊設定一個或多個人工標記字詞；

(2) 對於每張圖像設定 1~7 個不同的人工標記字詞，即使用 1~7 個不同的字詞描述一張圖像。

如此一共對約16000 個圖像區塊設定了人工標記字詞，其中包含約 300 種不同的標記字詞，實驗時從每個類別集合中隨機選取80 張圖像做為訓練資料，即已存在資料庫中的圖像，其餘做為測試資料。

4.1 圖像區塊自動標記字詞實驗與結果分析

表4-1：標記權重建構對圖像區塊自動正確標記之影響。

從評比方法二的結果看來，由於其條件訂得較為嚴格，所以其正確率較評比

在此定義測試資料圖像 I 的註解字詞標準答案T_GT 為圖像I 中所有圖像區塊上的

圖4-2：自動圖像註解正確率(標記字詞及權重建構之影響)。

圖4-3：自動圖像註解召回率(標記字詞及權重建構之影響)。

從圖4-2 與 4-3 的結果可以發現隨著系統給的自動註解字詞個數增加時，正確率逐漸下降、召回率逐漸上升，這些結果都是在預期的範圍中，因為系統給的註解字詞排序在越前面代表其具有越大的權重值，即其適合該圖像的可能性越高，當個數增加時，會使得一些可能性比較不高的字詞被選出，所以正確率會下

降，而系統給的註解字詞個數越多時，圖像註解字詞的標準答案被找出的機率相對也較高。

圖 4-2 與 4-3 的結果亦可發現在資料庫未經過標記字詞及權重建構的情況下，正確率與召回率均高於資料庫經過標記字詞及權重建構的情況，這是因為在經過標記字詞及權重建構後，經由視覺相似度比較後系統自動設定一些標記字詞給圖像區塊，這個動作雖然可以達到藉由少量的人工標記字詞產生較大量的自動標記字詞，但同時也可能因為視覺相似度算出來較相近而設定了不適當的標記字詞給資料庫中的圖像區塊，造成測試資料計算註解字詞時受到不正確字詞的干擾，進而使得正確率與召回率降低，然而，在資料庫經過標記字詞及權重建構的情況下正確率與召回率曲線較為平順。

在以下實驗中，我們將測試資料以隨機順序輸入系統中進行整批測試，標記後不將先進入的測試資料移除，即隨著測試資料圖像一張一張進入資料庫後，先進入的圖像有可能影響後一張圖像的自動圖像註解結果，而資料庫中的圖像會越來越多，這是因為本論文所建置的系統是採用web 2.0 的概念，使用者可提供圖像或字詞進行檢索，而圖像輸入到系統後，亦可作為之後輸入圖像的訓練資料；

實驗同樣分為資料庫中的圖像區塊未經過標記字詞及權重建構與資料庫中的圖像區塊經過標記字詞及權重建構兩重情況，並將其結果與圖 4-2、圖 4-3 的結果比較，實驗結果如圖4-4、圖 4-5、圖 4-6 與圖 4-7，圖 4-4 與圖 4-5 為資料庫圖像區塊未經過標記字詞及權重建構的情況下，將測試資料圖像單張測試與整批測試的結果正確率與召回率比較，圖4-6 與圖 4-7 為資料庫圖像區塊經過標記字詞及權重建構的情況下，將測試資料圖像單張測試與整批測試的結果正確率與召回率比較。

圖4-4：自動圖像註解正確率(資料庫未經標記字詞及權重建構)。

在文檔中自動圖像註解於圖像檢索系統之研究 (頁 16-0)

第二章 相關研究