使用更新方法解決不平衡語料問題之實驗 - 實驗結果與討論 - 使用機器學習方法於語音文件檢索之研究

6. 實驗結果與討論

6.4 使用更新方法解決不平衡語料問題之實驗

在本節中，我們將本論文所提出之更新方法使用於 TDT-2 語料庫，並使用在經

0.5109 0.5185 0.5227

0.3837

0.4565

0.5183

0.3 0.35 0.4 0.45 0.5 0.55

Modified RankNet SVM VSM BM25 LM

檢索方法

平均精確率

圖 6.29 TDT-2 臺師大大陸口音中文大詞彙語音辨識器轉寫之語音文件不平衡語料問題更新方法之 MAP

過臺師大大陸口音中文大詞彙語音辨識器所轉寫的語音文件中。對訓練語料進行處理後，再使用成對式訓練中的 RankNet 進行訓練。實驗結果為圖 6.29 及圖 6.30 所示。圖 6.29 使用了更新方法之後的平均精確率與未經過處理以及傳統資訊檢索方法進行比較。

0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75

NDCG@1 NDCG@3 NDCG@5 NDCG@10

均化遞減累積獲益

Modified RankNet SVM VSM BM25 LM

圖 6.30 TDT-2 臺師大大陸口音中文大詞彙語音辨識器轉寫之語音文件不平衡語料問題更新方法之 NDCG

由圖 6.29 可以得知，經過改變的訓練語料，訓練模型後，並無法得到比原先的訓練語料進行訓練的模型，在平均精確率的表現更好。在圖 6.30 中，一樣可以發現，經過改變的訓練語料，其所訓練出來的模型在均化遞減累積獲益上也不能有所提升。

在這樣的結果下，我們檢視訓練語料的分群是否有誤。由於，我們對所有的文件以及訓練查詢一起進行分群，所以，我們可以得到所有文件的分群狀況。而我們又已經擁有所有的測試查詢對應到所有文件為相關的正確解答。因此，若每一個測試查詢對應的相關文件，在我們分群時都被分在同一群之中，我們認為這

104

樣的分群是沒有問題的。觀察分群的結果如表 6.12。我們可以看到，僅有 20002.query 和 20048.query 中的對應相關文件在分群時有被分到兩大群中，

20002.query 相關文件數共有 13 篇，13 篇中有 12 篇被分到第 2 群；有 1 篇被分到第 3 群。而其它，如 20001.query 相關文件數共有 15 篇，這 15 篇群全部都被分到第 14 群。因此，我們可以得知，上述實驗結果，在訓練語料的分群時，並沒有錯誤。

測試查詢相關文件數 (篇) 分群結果(文件數→群編號) 20001.query 15 15 →14

20002.query 13 12 → 2； 1 → 3 20005.query 14 14 → 10 20013.query 5 5 → 8 20015.query 87 87 → 8 20020.query 3 3 → 16 20023.query 2 2 → 4 20039.query 35 35 → 14 20048.query 3 2 → 4；1 → 19 20070.query 84 84 → 14 20071.query 31 31 → 15 20076.query 70 70→ 14 20088.query 2 2 → 7 20089.query 13 13 → 17 20091.query 9 9 → 6 20096.query 4 4 → 0

表 6.12 TDT-2 臺師大大陸口音中文大詞彙語音辨識器轉寫之語音文件不平衡語料問題更新方法之分群測試

改變訓練語料之不平衡狀況，目前仍無法對檢索結果進行改善，其原因可能是訓練語料過於混淆，我們擷選出的正例增加過多，造成雜訊過多，影響了訓練結果。此外，正例與反例的比例是相當難以拿捏的，而其對訓練結果亦有很大的

影響。對於正反例的選取，不僅是本論文進行討論，在微軟團隊於 2008 年公開發表的 LETOR 3.0 版(此為提供一套純文字的資訊檢索語料，並針對排序學習於資訊檢索議題上的各種討論)中，在說明文件的草稿中，他們也同樣針對訓練語料擷選的問題進行討論。最剛開始，他們使用 BM25 對文件進行排序，先選出所有標示為正例者的資料點，接著選出經由排序後前n筆反例的資料點。然而，資訊檢索大師 Rijsbergen 認為，不應該先選出所有標示為正例者，應該直接選擇經由 BM25 排序後前m筆資料點做為訓練資料點。其理由為，當有一正例資料點，

其 BM25 分數很低，但是卻擷選為訓練資料點，那麼就會存在一種現象：訓練資料中含有 BM25 分數高者亦含有 BM25 分數低者。這樣的資料在訓練時就會產生混淆，不知道訓練模型該符合 BM25 分數高者，還是該符合 BM25 分數低者。

因此，即便我們對訓練語料進行的改變並不能達到改善的效果，但訓練語料的問題，仍然是大家著重的議題。

在文檔中使用機器學習方法於語音文件檢索之研究 (頁 118-123)