實驗評估

第四章實驗結果與評估

4.2 實驗評估

為驗證本研究方法之成效，本實驗進行三種效能評估標準，分別為註解重疊率 (overlap)、精確率(precision)以及召回率(recall)。在本研究中，認為影像資料所包含之註解內容為經由專家加以人工註解所得，具有極高正確性，因此本研究自動註解方法所自動註解結果中，若與影像原始註解重疊程度越高則表示本研究所給予影像之註解正確率高。而本研究採用之精確率與召回率兩種評估準則為分別代表以使用者查詢關鍵字對影像進行檢索，召回率代表正確被檢索出來之文件各數占所有正確文件之比率，而精確率則是代表正確文件占所有被檢索出文件之比率。這兩種評估方式均可作為系統效能評估方式，而在本研究在進行評估之前，將先隨機選取關鍵字作為評估自動註解方法成效之測試關鍵字。一個良好的自動註解方法，應可賦予影像較符合其語意之註解。當使用者進行檢索時，也應能得到較佳的結果。在本實驗中，我們將測試影像經過自動註解後，

利用關鍵字進行檢索。而後再分別計算其註解重疊率、精確率與召回率，據以評估本研究方法對於自動影像註解成效。本研究在關鍵字檢索部分，由於影像資料共分為 21 類，

因此隨機選取 21 組查詢關鍵字進行檢索以評估系統成效。首先計算如下表 4-2 之 21 組關鍵字在透過本研究方法所自動給予之註解重疊率。

表4-2 檢索評估關鍵字

Boats sidewalk buildings

sky bushes trees cherry Water clear

grass clouds ground mountain house overcast

flowers partially rocks people window Rockes

由於本研究所採用之影像資料集中，影像所屬註解資料均為經由影像專家透過人工

本研究針對 21 組關鍵字進行檢索後得到之平均檢索重疊率為 0.709165181，但重疊率具有容易隨著資料分佈狀況而產生變動或不平衡之狀態，因此本研究加入精確率與召回率此兩種評估方式。在資訊檢索領域，經常以精確率與召回率作為系統效能評估方式，

所謂精確率與召回率可以下圖加以說明：

正確且被成功錯誤但被成功檢索出(A) 檢索出 (B) 正確但未被成功錯誤且未被成功檢索出(C) 檢索出(D)

圖 4-2-2 系統評估示意圖

以圖 4-2-2 加以說明，A 代表正確且有被檢索得出之資料集合，B 代表被檢索出來但 是非正確資料之集合，C 為正確但並未被檢索得出之集合，D 為非正確且未被檢索出之資料集合，召回率代表正確被檢索出來之文件各數占所有正確文件之比例，而精確率則是代表正確文件占所有被檢索出文件之比例，其計算方法如下：

精確率＝

C A

A +

召回率＝

B A

A +

在本節中，實際將 21 組關鍵字對透過本研究方法所對應之影像與註解進行檢索後，

並計算其平均精確率與召回率分別得到召回率為 0.53936363 ，而精確率則為 0.419772727，各關鍵字之精確率與召回率如下表 4-3。

表4-3 關鍵字精確率與召回率

關鍵字項目精確率召回率

Boats 0.444 0.75

buildings 0.25 0.3

bushes 0.461 0.439 cherry 0.357 0.5

Clear 0.461 0.48 clouds 0.47 0.592 mountain 0.461 0.583

overcast 0.521 0.631 partially 0.428 0.75

people 0.364 0.632 Rockes 0.375 0.6 sidewalk 0.333 0.304

Sky 0.755 0.792 Trees 0.567 0.741 Water 0.391 0.555 Grass 0.38 0.636 ground 0.307 0.307

House 0.395 0.542 flowers 0.4 0.583

Rocks 0.142 0.428 window 0.307 0.571

平均 0.539 0.420

在文檔中基於增長層級式SOM之自動影像註解方法 (頁 50-54)

第四章 實驗結果與評估

4.2 實驗評估

第四章實驗結果與評估