6. 實驗結果與討論
6.1 逐點式訓練在語音文件上的檢索
6.1.1 SVM 在 Dragon 語音辨識器轉寫之語音文件的檢索效能
此節中,我們討論使用 Dragon 語音辨識器分別轉寫 TDT-2 及 TDT-3 語音文件,
再經由逐點式訓練中的 SVM 進行訓練後之檢索效能。
TDT-2
圖 6.1 為實驗於 TDT-2 之平均精確率結果,圖 6.2 為實驗於 TDT-2 之均化遞減累 積獲益結果。在 TDT-2 語料中,我們發現平均精確率以 BM25 表現最好,經由 SVM 訓練後的平均精確率僅較 VSM 高,高出 0.0221。在均化遞減累積益中,同 樣以 BM25 及 LM 表現較好,而 SVM 訓練卻較 VSM 不理想。這樣的結果顯示,
雖然 SVM 訓練後的總體精確率較 VSM 好,但僅看前 10 個排序位置時的相關文 件正確率卻較 VSM 差。經過 SVM 訓練之前,我們所擷取的特徵包含了傳統資 訊檢索方法的各種參數設定結果,包括參數設定後,檢索效能表現較好的,或者 參數設定後,檢索效能不佳者。經由 SVM 訓練之後,我們發現,即使採用了傳 統資訊檢索結果的分數作為特徵值之一,訓練後的模型並不能保證其檢索效能一
78
0.5325
0.5104
0.5462 0.5490
0.50 0.51 0.52 0.53 0.54 0.55 0.56
SVM VSM BM25 LM
檢索方法
平均精確率
圖 6.1 檢索方法在 TDT-2 使用 Dragon 語音辨識器轉寫之平均精確率
0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8
NDCG@1 NDCG@3 NDCG@5 NDCG@10
均化遞減累積獲益
SVM VSM BM25 LM
圖 6.2 檢索方法在 TDT-2 使用 Dragon 語音辨識器轉寫之均化遞減累積獲益
定能夠架構在最佳的傳統資訊檢索方法之上。
TDT-3
圖 6.3 為實驗於 TDT-3 之平均精確率結果,圖 6.4 為實驗於 TDT-3 之均化遞減累 積獲益結果。由圖 6.3 之實驗結果得知,經由 SVM 訓練之檢索結果,其平均精 確率效果最佳,為 0.6613。此平均精確率大於傳統資訊檢索方法 VSM:0.0381;
大於 BM25:0.0825;大於 LM:0.029。
0.6613
0.6232
0.5788
0.6323
0.55 0.56 0.57 0.58 0.59 0.6 0.61 0.62 0.63 0.64 0.65 0.66 0.67
SVM VSM BM25 LM
檢索方法
平均精確率
圖 6.3 檢索方法在 TDT-3 使用 Dragon 語音辨識器轉寫之平均精確率
而在圖 6.4 中,經由 SVM 訓練之檢索結果,其均化遞減累積效益也是表現最好。
NDCG@1 NDCG@3 NDCG@5 NDCG@10
SVM - - - -
VSM 0.0212 0.0237 0.0150 0.0279 BM25 0.0851 0.0751 0.0429 0.0718 LM 0.0425 0.0289 -0.0014 0.0260 表 6.1 TDT-3 中 SVM 與各項傳統資訊檢索方法在 NDCG 差異狀況
80
在表 6.1 中可以看出,在各個均化遞減累積效益位置點上,經由 SVM 訓練的效 果大都較傳統檢索方法為好。雖然在位置 5 時,LM 略勝於 SVM,但其它位置 點,SVM 的效果都較好。
0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85
NDCG@1 NDCG@3 NDCG@5 NDCG@10
均化遞減累積獲益
SVM VSM BM25 LM
圖 6.4 檢索方法在 TDT-3 使用 Dragon 語音辨識器轉寫之均化遞減累積效益
從以上兩個語料中,我們發現,經由 SVM 訓練後的結果,在 TDT-2 時表現並不 理想,但是在 TDT-3 時表現卻最為突出。在這樣的結果之下,我們觀察兩種語 料在訓練模型之前,所擷取的各項特徵之差異情形。主要由兩個方向進行觀察:
1. 各個特徵的平均精確率;2. 各個特徵彼此之間的排序差異。各別特徵的平均 精確率為圖 6.5,此平均精確率是有被選取為訓練資料點才進行計算,並不是整 體訓練語料的平均精確率。從圖 6.5 中,我們可以看出,在兩種不同的語料中,
所有特徵的平均精確率曲線趨勢類似,在 TDT-3 語料中,各特徵的平均精確率 變化幅度較大,而 TDT-2 則較小。接下來,我們觀察特徵彼此之間的排序差異,
由於,這是更為精確的比較兩種特徵之間的排序結果,需要細部考量到特徵之間
每一則文件的排序差異。而比較兩種排序結果的方法有許多種,我們選用
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 特徵編號
平均精確率
TDT-2 TDT-3
圖 6.5 TDT-2 與 TDT-3 Dragon 辨識器轉寫之訓練語料擷取的各項特徵之 MAP
Spearman’s Footrule Distance [Kendall & Gibbons 1990],來比較每個特徵的排序結 果。Spearman’s Footrule Distance 如式(6.1.1)所示。
∑
= −= N
1
n xn yn
d
List Rank Y
, X
, Y y , X x
∈
∈
∈ (6.1.1)
Spearman’s Footrule Distance 中X 和Y 分別代表比較的兩個排序結果。取在 X 序 列中的某個文件,其在 X 序列的位置為x ,在Y 序列中排序的位置為n y ,將此n 兩個位置資訊相減,並取絕對值。將所有文件位置差異進行加總,就可以得知兩 個序列的排序情形。Spearman’s Footrule Distance 越小,則代表 X 序列與Y 序列 越相近,Spearman’s Footrule Distance 越大,則代表 X 序列與Y 序列差異較大。
圖 6.6 及圖 6.7 分別為 TDT-2 及 TDT-3 的訓練語料經過 Dragon 辨識器轉寫的文 件,擷取的所有特徵彼此之間的 Spearman’s Footrule Distance。其中,顏色越黑
82
圖 6.6 TDT-2 Dragon 辨識器轉寫之訓練語料特徵之 Spearman’s Footrule Distance
圖 6.7 TDT-3 Dragon 辨識器轉寫之訓練語料特徵之 Spearman’s Footrule Distance
的部份,代表其排序差異大;顏色越淺的部份,代表其排序差異較小。因此,我 們可以發現,不論是哪一種語料,低階特徵與其它的特徵排序差異皆較大。TDT-2 與 TDT-3 的差異情形其實很類似,但 TDT-3 的部份差異結果較 TDT-2 顯明。
觀察了訓練時各項特徵的呈現狀況後,我們再來觀察實際的分類情形,為表 6.2 及表 6.3。
實際為相關文件 實際為不相關文件 TDT-2 正確率(%) Precision
估測正確 估測錯誤 估測正確 估測錯誤 訓練語料 93.32% 0.4571 2254 2677 48366 944 測試語料 98.03% 0.4893 229 239 35298 474
表 6.2 TDT-2 Dragon 辨識器轉寫之語音文件 SVM 訓練實驗結果分析
實際為相關文件 實際為不相關文件 TDT-3 正確率(%) Precision
估測正確 估測錯誤 估測正確 估測錯誤 訓練語料 94.65% 0.5920 795 548 13187 243 測試語料 99.44% 0.4566 431 513 157123 370
表 6.3 TDT-3 Dragon 辨識器轉寫之語音文件 SVM 訓練實驗結果分析
從表 6.2 及表 6.3 中,我們可以發現,在訓練語料中,TDT-3 的 SVM 訓練模型的 正確率及精確度較 TDT-2 的 SVM 訓練模型為高;在測試語料中,TDT-2 的測試 結果精確率其實比 TDT-3 測試結果更好。就這樣的結果中,我們懷疑,其實 TDT-2 的訓練模型的整體分類結果並不差,但在更細度的排序上並沒有很好。因此,我 們額外進行了另一個小實驗。首先,我們相信經由 TDT-2 的 SVM 訓練模型後,
測試結果大略的排序狀況,依此排序,我們選用 VSM 檢索方法對此排序做細部 的調整。也就是說,我們將 SVM 的測試結果之排列序列切分為n等份,對此n等 份的每一等份,內部以 VSM 的序列結果為依據進行細部調整。其示意圖如圖 6.8。接著,我們觀察經過微調之後的序列結果的平均精確率。在圖 6.9 中,比較
在 = =
84
1 2
3 1
2 3
SVM VSM
圖 6.8 TDT-2 Dragon 辨識器轉寫之語音文件調整細部排序示意圖
0.5325
0.5862 0.5882
0.5 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.6
n=0 n=30 n=40
等份設定
平均精確率
圖 6.9 TDT-2 Dragon 辨識器轉寫之語音文件細部調整排序後之平均精確率
調整之後,平均精確率得到很大的改善。因此,在 TDT-2 中,平均精確率的表 現不佳,可能是因為細部的排序並不好,但整體而言,SVM 的分類狀況並不差。