文獻探討 - 基於增長層級式SOM之自動影像註解方法

行後續研究，Duygulu 等學者[6]在 2002 年便為影像中所有的區塊(blob)群集建立了一種離散型態之字彙集合(vocabulary)，並將這些集合視為一種視覺語言(visual language)，所用跨媒體關連模型(cross-media relevance model)來發掘影像與註解之間關聯，進而對影像進行註解與檢索，研究結果證明在檢索的效能上優於 Duygulu 等學者所提出的機器翻譯模型。接著 Lavrenko 等學者[13]在 2003 年採用 Jeon 等學者[10]所提出之跨模體關聯模型，結合連續機率密度函數來描述產生不規則影像區域的過程，他們希望降低因量化程序(quantization process)所造成的資訊損失，之後再透過與 Jeon 研究相同之資料集進行驗證，在結果上得到顯著的改善效果。而 Metzler 與 Manmatha 等學者[17]在 2004 年採用相同方式，先將影像依內容切割成不規則區域後，再使用推論網路(inference network) 方式來連結影像以及註解。首先他們所提出的新進影像之註解方法先以影像切割演算法

索切割出不規則區域影像，並以此影像啟動推論網路，並於網路中傳遞信任度(believe) 用來代表某區域之字詞之節點產生註解。之後 Feng 等學者[7]在 2004 年提出將不規則影像區域(blob)轉變成為方型區塊，結合多重伯努力分配(multiple Bernoulli distribution)方式來建立關鍵字模型，目的在於改善 Lavrenko et al.與 Metzler et al. 之實驗缺陷與結果，

而研究結果亦證實其所提之方法的確可得到較前兩者更佳之結果。Blei 等學者在 2003 年提出將 Latent Dirichlet Allocation(LDA)[5]模型加以擴充，LDA 屬於一完整之生成模型，此模型將每一份資料之機率視為潛藏於各主題中隨機字詞之混和模型，並進而求得資料出現之機率值，Blei 等學者所提出之模型將一組潛在因素(latent factors)混合產生字詞語不規則影像之特徵[4]，並利用該模式將字詞指定予不規則影像。

第二個方向則是較簡單的場景(scene)導向方式，由 Oliva 與 Torralba 等學者[20][21]

在 2001 年所提出，其認為影像是由多個不同之影像內容物件所組成，並將影像內容物加以區隔做為場景標籤，根據其研究結果顯示影像可藉由影像內容相關之低階全域特徵結合影像內場景標籤來描述，如建築物、公路等具有明顯低階特徵一致性之物件。

Torralba 等學者[31]在 2003 年更進一步以此種場景導向方式結合影像統計資訊以推論出場景內之物件是否存在。Yavlinsky 等學者[35]在 2005 提出遵循上述之場景導向方式，

探討全域特徵在自動影像註解上之可行性之研究。他們的研究顯示在此架構下即使僅利用簡單之權域特徵，如全域之色彩統計等，亦能夠有效的進行自動影像註解之目的。

2.2 文件關聯方式

隨著科技發展，各式各類的資料也呈現爆炸性成長，因此資料分群 (data clustering) 相關概念與技術日漸受到重視且已經廣泛應用於不同領域中，例如決策支援與市場預測、圖像辨識與處理、資料探勘、機器學習、資訊檢索等。一般研究人員面臨到大量資料時，首先所採取的步驟即為對資料進行簡化及分類與分類，而分群的目的是為了能夠使得在某些特性上相似或是具有關聯性之事物，並依照特性或關聯程度將其劃分成幾個群集，同一集群所包含之資料彼此間具有極高之同質性，而群集與群集間分別所包含之

的課題，Merk 與 Kohonen 等人分別運用所提出之 SOM(self-organizing map, SOM)將資料進行視覺化二維的方式呈現。SOM 是由學者 Kohonen 於 1982 年所提出[11]，可將多維資料映射至二維空間，並藉由其可視覺化判斷之特性來呈現資料群聚特性 [12][14]，

在將多維資料映射至二維平面後，資料群集兼具有相鄰群集具有相似的特性之關係，故此方法屬於分群技術之一。但是 SOM 具有兩大缺點，分別是圖形之拓撲結構固定且需在資料進行訓練前設定完成，因此不易找到最適大小，另外是以二維平面方式呈現大量多維資料容易過度簡化資料與群集間複雜關係，在大量的文件資料中可能包含有多階層的關係，僅以簡化之二維方式來表示資料群集關係無法充分表達出資料間隱含之關係。

學者 Miikkulainen 提出此 Hierarchical Feature Map[18] 之改良方法，其可將資料訓練結果透過階層方式加以表示，但此種方法僅可產生具有固定與對稱架構之 SOM，且每一階層之拓樸結構均相同，如此依舊無法充份表示出資料群集之關聯階層。而 Growing SOM[2]雖可依據資料之關聯程度於二維空間上自行擴展圖型拓鋪結構，但此種方法卻無法產生階層架構。因此以 Rauber 等學者便於 2002 年提出了 GHSOM[25]來克服 SOM 之兩大限制。GHSOM 屬於一種動態演算法，大量且多為資料經由其訓練後可依照資料群集關聯程度呈現階層樹狀結構，各層級之樹狀節點皆為一獨立之 SOM。且每一 SOM 之的拓撲結構大小均依據資料所需而增長。

GHSOM 應用於各領域均有極佳之成效，Rauber 等學者利用 GHSOM 對俄、英、德、

法等三種語言進行探勘工作[17]，實驗結果表示該方法具有相當準確的分群品質。Yeh 和 Chau 利用 Fuzzy 概念將中文與英文兩種詞彙產生隸屬程度關係，再經由 SOM 進行文件分類之動作，在 19,257 篇文章中，有 17,136 篇被正確的分類，接近 89%的效能[36]。

GHSOM 亦被應用於新聞文件的分群 [25]、文件的典藏 [25]及法律文件的分類 [28]以及多語言文本探勘[34]、金融詐欺發掘[32]、以及行銷專家系統開發[30]等，此方法逐漸各領域學者廣泛重視。

2.3 階層式架構

階層式架構是由階層式分群法概念所構成，階層式分群[26]是透過訂定訓練終止條

件，當滿足終止條件後便停止訓練之分群方法。終止條件通常為群與群之間在經過資料

本研究所採用之 GHSOM[25]屬於階層式分群法，為根基於 SOM[11]，且為改善 SOM 之缺點所發展出來。SOM 可將大量資料映射至二維平面上以利分析，但其拓撲結構須在資料開始訓練前加以設定，並且拓樸結構大小於訓練過程中均固定無法更改，拓樸結構大小是否適合須依據分群結果方可判定，因此不易設定適當之拓樸結構大小。透過二維的方式呈現大量與高維度資料亦容易造成過於簡化資料之間的複雜關係，在大量且可能具有階層關係的資料中，只以二維方式呈現資料結構有時無法充分表達文件的概念。

為改善此問題，強化 SOM 對於辨認群集之間與群集內的關係，U-Matrix[33]和 Cluster Connections[15]等測量方法便被提出，藉由分析拓樸結構中，各鄰近單元之間的距離，者 Miikkulainen 便提出 Hierarchical Feature Map[18]方法，該方法可將訓練結果透過階層

方式表示，但此種方法僅產生固定與對稱架構之拓樸結構，拓樸大小每一階層都一樣，

因此無法充份顯示出資料集的階層與資料之間所隱含之關係。因此，學者 Alahakoon 便提出 Growing SOM[2]加以解決此問題，Growing SOM 可以在二維空間上,根據資料訓練過程所需自行擴展地圖大小，不過此種方法無法產生階層架構。所以 Rauber 等學者提出了 GHSOM[25]來克服 SOM 的兩個限制。GHSOM 屬於動態演算法，此方法結合 Hierarchical Feature Map 以及 Growing SOM 之優點，對於大量且多維度資料可依據其資料訓練所需而對拓樸結構大小進行自動增長已達到最佳拓樸結構大小，每一層均為一獨立之 SOM，若資料在分群過程中未達到終止條件，表示資料間尚有隱含之關聯，因此將再進行訓練直到所有資料均分配至最適合之群集，且各群集亦得到最佳之拓樸結構大小便停止訓練。

在文檔中基於增長層級式SOM之自動影像註解方法 (頁 17-22)