6. 實驗結果與討論
6.4 使用更新方法解決不平衡語料問題之實驗
在本節中,我們將本論文所提出之更新方法使用於 TDT-2 語料庫,並使用在經
0.5109 0.5185 0.5227
0.3837
0.4565
0.5183
0.3 0.35 0.4 0.45 0.5 0.55
Modified RankNet SVM VSM BM25 LM
檢索方法
平均精確率
圖 6.29 TDT-2 臺師大大陸口音中文大詞彙語音辨識器轉寫之語音文件不平衡語 料問題更新方法之 MAP
過臺師大大陸口音中文大詞彙語音辨識器所轉寫的語音文件中。對訓練語料進行 處理後,再使用成對式訓練中的 RankNet 進行訓練。實驗結果為圖 6.29 及圖 6.30 所示。圖 6.29 使用了更新方法之後的平均精確率與未經過處理以及傳統資訊檢 索方法進行比較。
0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75
NDCG@1 NDCG@3 NDCG@5 NDCG@10
均化遞減累積獲益
Modified RankNet SVM VSM BM25 LM
圖 6.30 TDT-2 臺師大大陸口音中文大詞彙語音辨識器轉寫之語音文件不平衡語 料問題更新方法之 NDCG
由圖 6.29 可以得知,經過改變的訓練語料,訓練模型後,並無法得到比原先的 訓練語料進行訓練的模型,在平均精確率的表現更好。在圖 6.30 中,一樣可以 發現,經過改變的訓練語料,其所訓練出來的模型在均化遞減累積獲益上也不能 有所提升。
在這樣的結果下,我們檢視訓練語料的分群是否有誤。由於,我們對所有的 文件以及訓練查詢一起進行分群,所以,我們可以得到所有文件的分群狀況。而 我們又已經擁有所有的測試查詢對應到所有文件為相關的正確解答。因此,若每 一個測試查詢對應的相關文件,在我們分群時都被分在同一群之中,我們認為這
104
樣的分群是沒有問題的。觀察分群的結果如表 6.12。我們可以看到,僅有 20002.query 和 20048.query 中的對應相關文件在分群時有被分到兩大群中,
20002.query 相關文件數共有 13 篇,13 篇中有 12 篇被分到第 2 群;有 1 篇被分 到第 3 群。而其它,如 20001.query 相關文件數共有 15 篇,這 15 篇群全部都被 分到第 14 群。因此,我們可以得知,上述實驗結果,在訓練語料的分群時,並 沒有錯誤。
測試查詢 相關文件數 (篇) 分群結果(文件數→群編號) 20001.query 15 15 →14
20002.query 13 12 → 2; 1 → 3 20005.query 14 14 → 10 20013.query 5 5 → 8 20015.query 87 87 → 8 20020.query 3 3 → 16 20023.query 2 2 → 4 20039.query 35 35 → 14 20048.query 3 2 → 4;1 → 19 20070.query 84 84 → 14 20071.query 31 31 → 15 20076.query 70 70→ 14 20088.query 2 2 → 7 20089.query 13 13 → 17 20091.query 9 9 → 6 20096.query 4 4 → 0
表 6.12 TDT-2 臺師大大陸口音中文大詞彙語音辨識器轉寫之語音文件不平衡語 料問題更新方法之分群測試
改變訓練語料之不平衡狀況,目前仍無法對檢索結果進行改善,其原因可能 是訓練語料過於混淆,我們擷選出的正例增加過多,造成雜訊過多,影響了訓練 結果。此外,正例與反例的比例是相當難以拿捏的,而其對訓練結果亦有很大的
影響。對於正反例的選取,不僅是本論文進行討論,在微軟團隊於 2008 年公開 發表的 LETOR 3.0 版(此為提供一套純文字的資訊檢索語料,並針對排序學習於 資訊檢索議題上的各種討論)中,在說明文件的草稿中,他們也同樣針對訓練語 料擷選的問題進行討論。最剛開始,他們使用 BM25 對文件進行排序,先選出所 有標示為正例者的資料點,接著選出經由排序後前n筆反例的資料點。然而,資 訊檢索大師 Rijsbergen 認為,不應該先選出所有標示為正例者,應該直接選擇經 由 BM25 排序後前m筆資料點做為訓練資料點。其理由為,當有一正例資料點,
其 BM25 分數很低,但是卻擷選為訓練資料點,那麼就會存在一種現象:訓練資 料中含有 BM25 分數高者亦含有 BM25 分數低者。這樣的資料在訓練時就會產生 混淆,不知道訓練模型該符合 BM25 分數高者,還是該符合 BM25 分數低者。
因此,即便我們對訓練語料進行的改變並不能達到改善的效果,但訓練語料 的問題,仍然是大家著重的議題。