有正確人工標記字詞提供對自動圖像註解效能影響

第四章實驗結果

4.2 圖像自動註解實驗與分析

4.2.3 有正確人工標記字詞提供對自動圖像註解效能影響

在本小節的實驗中，我們讓測試資料圖像以整批測試的方式輸入到系統中，

而先輸入的測試圖像經過系統自動註解並計算其正確率與召回率後，我們將其圖像區塊的人工標記字詞設定到對應的圖像區塊上，然後再將下一張測試圖像輸入系統中進行自動註解，這個動作相當於對本論文所建置的系統持續增加圖像及人工標記字詞；在本實驗中我們將區塊大小限制在300 像素點以上，系統自動給定 1~15 個自動註解字詞，觀察其正確率與召回率之變化，結果如圖 4-10 與圖 4-11，

橫軸為系統給定的自動註解字詞個數。

圖4-10：自動圖像註解正確率(持續提供人工標記字詞)。

4-11：自動圖像註解召回率(持續提供人工標記字詞)。

圖

從圖4-10 與圖 4-11 的結果可以看出在持續提供人工標記字詞給新進圖像區塊的情況下，可以維持自動圖像註解系統的正確率與召回率，因此本論文所提的自動圖像註解系統可藉由使用者的回饋資訊，維持穩定的自動圖像註解效能，並

4.2.

字詞，其結果正確率與召回率如圖4-12、圖 4-13，

橫軸為自動註解字詞個數。

增加圖像數量。

4 使用不同方法綜合圖像區塊資訊產生圖像註解

在本小節中我們比較在3.3 節中所提的三種綜合圖像區塊資訊產生圖像註解字詞的方法與隨機方式產生圖像註解字詞的效能，由於本論文所建置的系統希望能達到即時產生圖像註解字詞，所以將綜合圖像區塊資訊時的圖像區塊大小限制在300 個像素點以上，以達到速度上的要求，在評比效能方面使用正確率與召回率，系統給定1~15 個自動註解

圖4-12：自動圖像註解正確率(使用不同註解字詞產生方法)。

圖4-13：自動圖像註解召回率(使用不同註解字詞產生方法)。

從圖4-12 與圖 4-13 的結果來看，可以發現 3.3 節中所提的三種方法種，使用最大權重方式產生圖像註解字詞可以得到最佳的效果；而使用最大出現頻率方式產生的註解字詞在系統給定的自動註解字詞個數少時，不容易命中正確的註解字詞，這表示在不考慮標記字詞權重時，正確的註解字詞無法依據權重取得排序上的優先權，進而降低了自動圖像註解的效能；而從實驗結果看來，綜合標記字詞權重與圖像區塊面積比例產生圖像註解字詞的效果似乎不如預期，其正確率只能達到約1 成左右，與前兩個方法效能相差甚遠，其原因可歸咎於有些較大的圖像區塊擁有不適當且權重不大的標記字詞，但卻因為其區塊所佔面積比例較大而加重了這些不適當標記字詞在產生圖像註解時的影響力，所以此方法不適合用於產生自動圖像註解。

4.3 自動圖像註解範例

本節展示一些用所提的方法產生的自動圖像註解範例，圖4-14 與圖 4-15 分別為一些自動圖像註解比較成功的範例與自動圖像註解無法找到適當的註解字詞的範例，在自動註解字詞的欄位中，依照各個不同註解字詞權重排序由系統給

出前15 個註解字詞，其中粗體字是代表其符合人工標記字詞，加註底線的字詞

圖像 tiger ground deer

building people ice mountain building street fox sand nest wood

圖4-15：自動圖像註解無法找到適當的註解字詞的範例。

第 5 章

結論與未來展望

5.1 結論

本論文提出了以圖像區塊為基礎的方式，藉由圖像區塊間的視覺相似度計算將人工標記字詞設定到未帶有標記字詞資訊的圖像區塊上，再綜合圖像區塊資訊來達到產生圖像註解字詞的目的，對於缺乏關鍵字資訊的圖像使用本方法可以用一個較客觀的角度自動找出其可能適合的關鍵字，用來描述該張圖像，並可用於以文字為基礎的圖像檢索。

我們利用所提的方法建置了一個以web 2.0 為基礎的多模式圖像檢索系統；

在以內容為基礎的圖像檢索系統中，通常需使用者提供範例圖像做為檢索依據，

而對我們建置的系統而言，範例圖像的來源除了可以讓使用者提供外，亦可讓使用者以文字方式在系統中搜尋，同時並提供一個可以讓使用者新增人工標記字詞的機制；系統從網路中收集圖像時，所能得到的資訊通常僅有圖像本身與其檔案名稱，因此我們在以內容為基礎的圖像檢索系統中加入本論文所提方法，對收集來的圖像以客觀的方式產生描述字詞，供使用者使用文字檢索。

5.2 未來展望

在本論文的研究與實驗和應用中，發現有幾個方向是我們還可以繼續改進的重點，在此說明如下：

1. 在綜合圖像區塊資訊產生圖像註解字詞時，在所提方法中及實作的系統中僅使用標記字詞的權重大小作為註解字詞排序依據，然而如此所產生的字詞通常在語意上屬於較低階層級，如花、草等等，如果能綜合各不同標記字詞間的關係，則可能可以產生較抽象且具有較高階語意層級的註解字詞，如慶典、

聚會等等。

2. 在本論文所提的架構中，並不侷限於所提的圖像分割方法，如果能有更準確的圖像分割方法能正確切割出圖像中的物件區塊，將有助於自動圖像註解正確率的提升。

3. 在本論文中為達到較佳的即時自動圖像註解速度，僅使用圖像的色彩資訊進行圖像前處理與特徵擷取，如果能夠使用其他更有分別性的特徵資訊則可以達到更加的自動圖像註解正確率。

參考文獻

【1】 Heng Tao Shen, Beng Chin Ooi, and Kian-Lee Tan, “Giving meanings to www images,” in MULTIMEDIA ’00: Proceedings of the eighth ACM

international conference on Multimedia, New York, NY, USA, 2000, pp. 39-47, ACM.

【2】 Rohini K. Srihari, Zhongfei Zhang, and Aibing Rao, “Intelligent indexing and semantic retrieval of multimodal documents,” Inf. Retr., vol. 2, no. 2-3, pp.

245-275, 2000.

【3】 A. W. M. Smeulders, M. Worring, S. Santini, A. Gupta, and R. Jain,

“Content-based image retrieval at the end of early years,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, No. 12, pp.1349-1380, 2000.

【4】徐永煜, “The Study of Mixture Faussian Neural Networks,” 國立交通大學, 資訊工程研究所博士論文, 民國九十三年.

【5】 Jia Li and James Z. Wang, “Real-Time Computerized Annotation of Pictures,”

IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 30, No. 6, pp.985-1002,June. 2008.

【6】 R. Datta, D. Joshi, J. Li, and J. Z. Wang, “Image retrieval: Ideas, influences, and trends of the new age,” ACM Computing Surveys, Vol. 40, No. 2, April, 2008.

【7】 P. Duygulu, K. Barnard, J.F.G. de Freitas, and D.A. Forsyth, “Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary,” ECCV, pp. IV:97-112, 2002.

【8】 J. Jeon, V. Lavrenko and R. Manmatha, “Automatic Image Annotation and Retrieval using Cross-Media Relevance Models,” Proc. ACM SIGIR, 2003.

【9】 Vailaya, A., Figueiredo, M. A. T., Jain, A. K., and Zhang, H.-J., “Image Classification for Content-Based Indexing,” IEEE Trans. Image Processing, Jan 2001.

【10】 Li, J., Wang, J.Z., “Automatic Linguistic indexing of pictures by a statistical modeling approach ,” IEEE Trans. Pattern Analysis and Machine

Intelligence, 2003.

【11】 Tim O’Reilly, “What Is Web 2.0,”

http://www.oreillynet.com/pub/a/oreilly/tim/news/2005/09/30/what-is-web-2 0.html, 2005.

【12】 Uche Ogbuji, “Real Web 2.0: Bookmarks? Tagging? Delicious!,”

http://www.ibm.com/developerworks/xml/library/wa-realweb1/index.html, 2006.

【13】 John C. Russ, The Image Processing Handbook, Ron Powers, 3 edition, 1998.

【14】 Pietro Perona and Jitendra Malik, “Scale-space and edge detection using anisotropic diffusion ,” IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 12, no. 7, pp. 629-639, July 1990.

【15】 http://www.brucelindbloom.com/

在文檔中自動圖像註解於圖像檢索系統之研究 (頁 40-0)

第四章 實驗結果