實驗結果與討論

第四章實驗結果分析與評估

第三節實驗結果與討論

A Ans

Class α call( )= Re

方程式 13：Recall公式

其中， α 是系統將文件標記為「A 類」的總篇數、_A Ans 是人工答案中「A_A

類」標記的總篇數。當「其他」類過多時，將會反映在 Recall 的數值上 (Recall 會很低)。因此，要同時對此兩項評估指標做觀察，才能得知系統的實際效能表現。

第三節實驗結果與討論

4.2.1 實驗一

此實驗目的在於比較 GOSOM 依使用者特定的觀點分群的效能，藉由 Accuracy 跟 Recall 來估計其效能。在斷詞切字的部分，我們將在整個資料集 (Data Set) 中，只出現 1 次 (Tf=1) 的詞去掉，不予使用。表格 3 是其實驗結果。

從實驗結果中我們可以發現，隨著不同的實驗資料，Accuracy 跟 Recall 的值會跟著相對變動。針對特定概念的引導分群，在 Accuracy 上，GOSOM 平均將 SOM 改善 24.6%；在 Recall 方面則改善 24.25%。

第一類實驗資料 1 第一類實驗資料 2

Method SOM GOSOM SOM GOSOM

Size 6*6 6*6 6*6 6*6

Accuracy 0.44 0.56 0.59 0.72

Recall 0.548 0.693 0.737 0.9

表格 3：實驗1結果數據

4.2.2 實驗二

此實驗目的在於希望證明雖然文件數變多，分群目標較為模糊，但系統的效能仍能穩定地維持一定水準，依使用者喜好，將關於某一主題的文字內容，

依使用者特定的觀點分群，並藉由 Accuracy 跟 Recall 來估計其效能。表格 4 是其實驗結果。

從實驗數據中，我們可以發現，與分類目標數同為 3 的第一類實驗資料相比，雖然在 Accuracy 方面改善效果下降至 18.75%，但在 Recall 方面的改善卻上升至 32.7%。因此，我們認為 GOSOM 對於 SOM 的改善效果尚稱穩定。

第二類實驗資料 1

Method SOM GOSOM

Size 6*6 6*6 Accuracy 0.48 0.57 Recall 0.424 0.563

表格 4：實驗2結果數據

4.2.3 實驗三

此實驗目的在於測試我們提出的使用者相關回饋策略，是否能進一步改善 GOSOM 效能。若可，則表示策略成功。此外，由於我們的使用者相關回饋機制是調整詞權重，所以實驗結果亦可證明透過其他方法，只要能提升詞權重的

品質，GOSOM 的效能表現會更好。與前兩個實驗相同，我們透過 Accuracy 跟 Recall 來估計其效能。表格 5 是其實驗結果。

第一類實驗資料 1 第一類實驗資料 2 第二類實驗資料 1 使用者回饋前後回饋前回饋後回饋前回饋後回饋前回饋後使用者勾選出的正

確答案比例

0 0.1 0 0.15 0 0.15

Accuracy 0.56 0.61 0.72 0.78 0.57 0.525 Recall 0.693 0.751 0.9 0.975 0.563 0.527

表格 5：實驗3結果數據

在第一類實驗資料中，我們的使用者相關回饋機制在 Acuuracy 及 Recall 的兩項測量上，效能都有提升 — 第一組資料 Acuuracy 較回饋前改善 8.9%，

Recall 改善 8.3%；第二組資料 Acuuracy 較回饋前改善 8.3%，Recall 改善 8.3%。

這表示了透過使用者相關回饋來調整詞權重，的確可以在提升 GOSOM 的效能。但在第二類的實驗資料中，Recall 及 Accuracy 都變差，這表示若策略失敗，

無法將真正重要的特徵反映於詞權重，GOSOM 的效能便會下降。至於在第一類實驗資料中，改善效果會明顯比第二類來的好，其主要原因是由於我們在 3.1.4 提出的策略中，步驟 3 會依詞–詞關係矩陣，將原本使用者勾選文件中的主要特徵加以延伸，找出其他相關的詞，加強其詞權重，所以步驟 3 對於詞–

詞關係矩陣的品質反應較為靈敏。而第二類實驗資料的使用者目標較為模糊，

所以經由 LSA 方法找出的詞–詞關係矩陣，較無法有效凸顯重要的詞。因此，

在詞–詞關係矩陣品質較不好的情形下，步驟 3 的延伸動作效果便減弱，而容易對詞權重做不適當的調整。

4.2.3 綜合討論

綜合前面三個小節的實驗，我們可以發現，GOSOM 的效能表現關鍵，在於詞權重是否能適度加強，而這跟詞–詞關係矩陣有直接的關係。在本論文提

出應用 LSA 方法的架構下，使用者目標若為較清晰的概念，GOSOM 的分群結果會較好。因此，若未來能找到比 LSA 更有效的方法，能將使用者目標所代表的概念，擴展到其他詞上，將能使 GOSOM 更具實用性。

關於使用者相關回饋：要根據使用者的意見，對分群系統作有效而顯著的改進並不容易。本論文提出的使用者相關回饋機制，受詞–詞關係矩陣影響太大，因此即便使用者正確地表達了意見，系統也不一定能有顯著改善。如何參考類似 LVQ[Kohonen98]的演算法，找到在 SOM 中可做使用者相關回饋機制的切入點，從而提出有效的回饋法，是個可嘗試的方向。在圖形檢索 (Image Retrieval) 方面，有人提出將輸入資料的特徵分開，套用多個 SOM，來落實使用者相關回饋機制，亦或是個可行的方法。但如何應用在本系統中，仍待研究 [Laaksonen01]。

在文檔中目標導向之SOM應用於文件分群 (頁 43-47)

第四章 實驗結果分析與評估

第三節 實驗結果與討論

第四章實驗結果分析與評估

第三節實驗結果與討論