3. 資訊檢索架構與問題論述
3.6 支援向量機在資訊檢索之實驗
3.6.2 問題討論
由初步結果得知,透過支援向量機訓練的訓練模型,相較於傳統檢索方法並沒有 得到較好的檢索效能。以下,根據此結果,我們進行研究討論。
由於支援向量機的最佳化評估方式為分類正確率,因此,我們先對平均精確 率與支援向量機分類正確率做討論。我們需先觀察在上節中 SVM 之訓練語料分
50
類正確率與 SVM 之測試語料分類正確率之情形。在 TDT-2 的分類正確情形為表 3.8;在 TDT-3 的分類正確情形為表 3.9,其中精確率(Precision)示意圖如圖 3.14。
圖 3.13 精確率示意圖
由表 3.8 可知,在 TDT-2 中,雖然支援向量機的測試語料正確率高達 98.8%,但 是,其測試語料的精確率卻太低,觀察實際為相關文件的估測錯誤筆數,其錯誤 筆數過高。因此,在 TDT-2 中,模型對於實際不相關文件的估測情況良好,但 是在實際為相關文件的估測狀況不佳。而同時,我們也發現,不論在訓練語料或 是測試語料,實際相關文件的資料數(訓練語料中共有 4931 篇文件,測試語料中 共有 468 篇),遠小於實際為不相關文件的資料數(訓練語料中共有 49310 篇文 件,測試語料共有 35872 篇)。因此在訓練時,相關文件的訓練量是比不相關文 件的訓練量少很多的。
實際為相關文件 實際為不相關文件 TDT-2 正確率 Precision
估測正確 估測錯誤 估測正確 估測錯誤 訓練語料 92.8% 0.4030 1987 2944 48366 944 測試語料 98.8% 0.0833 39 429 35752 120
表 3.8 實驗於 TDT-2 語音正確轉寫文件 SVM 訓練之實驗結果分析
實際相關
U
估測相關
估測相關文件集
估測相關文件集 實際相關文件集∩
= precision
實際為相關文件 實際為不相關文件 TDT-3 正確率 Precision
估測正確 估測錯誤 估測正確 估測錯誤 訓練語料 94.5% 0.5927 796 547 13171 259 測試語料 99.5% 0.2500 236 708 157354 139
表 3.9 實驗於 TDT-3 語音正確轉寫文件 SVM 訓練之實驗結果分析
而在表 3.9 中,一樣發現在 TDT-3 語料中,其測試語料正確率高達 99.5%,但是,
其精確率依然太低。觀察實際為相關文件的估測錯誤筆數,其錯誤筆數依然過 高。因此,在 TDT-2 中,模型對於實際不相關文件的估測情況良好,但是在實 際為相關文件的估測狀況不佳。而同時,我們也發現,不論在訓練語料或是測試 語料,實際相關文件的資料數(訓練語料中共有 1343 篇文件,測試語料中共有 2287 篇),遠小於實際為不相關文件的資料數(訓練語料中共有 13430 篇文件,測 試語料共有 157493 篇)。因此在 TDT-3 語料中進行訓練時,相關文件的訓練量同 樣比不相關文件的訓練量少很多。
總結以上之觀察,我們發現兩種現象:1.當正確率高時,平均精確率仍然不 高:2.不論在訓練語料或是測試語料中,皆存在有訓練語料不平衡的問題,亦時,
不相關文件的數量遠大於相關文件的數量。以下,我們觀察正確率與平均精確率 的關係是否為正相關。倘若正確率與平均精確率為正相關,那麼我們才能確定當 正確率變高時,一定能提升平均精確率。然而,在[Yue et al. 2007]中提出了有力 的例證中提出了有力的例證,說明了平均精確率與正確率之關係並非正相關。
平均精確率與正確率之比較
平均精確率和正確率並不一定呈現一定的正向的關係,亦即正確率越高不能 保證平均精確率也越高。表 3.10(a)為一組 11 則文件的正確相關度解答,經過兩 種不同的排序方法,得到了兩組排序結果,如表 3.10(b),接著,我們可以經由 訂定不同的門檻值,得到最佳的正確率。其算法如下:以第一種排序結果而言,
52
當正確率提升時,並不能保證平均精確率也有同樣的提升效果。
對於初步實驗結果不如理想之情況,我們發現 SVM 的訓練模型之訓練依 據:正確率,和檢索的評估方法:平均精確率並沒有正相關的關係。此外,我們 也發現到訓練語料的相關文件數與不相關文件數比例相差懸殊。但由於 SVM 一 直被公認一個效能很好的分類器之一[Manning et al. 2007]。因此,我們並不考量 SVM 本身的模型問題。而造成分類狀況不好,有可能是因為訓練語料相關文件 數與不相關文件數比例相差懸殊的特殊語料狀況,亦可能是我們擷取的特徵資訊 不足,也最有可能是因為 SVM 並不適合使用於資訊檢索之訓練上。因此,歸納 以上所述,可以下三點作為改進目標:
1. 改變訓練模型。
2. 訓練語料資料狀況的改善。
3. 特徵擷取資訊是否足夠。
第四章,我們將對第 1 點及第 2 點進行改進討論。而特徵擷取問題初步不在本論 文討論之列。