語音文件搜尋研究之介紹 - 緒論 - 使用機器學習方法於語音文件檢索之研究

1. 緒論

1.3 語音文件搜尋研究之介紹

語音文件在現實的環境中是廣佈在我們的週遭的，例如 CNN TV 廣播新聞播放全球新聞、MIT 開放式課程錄音等文件。而語音長久以來是人與人之間一項主要並且最為便利的溝通方式。並且隨著科技發展，電子設備的體積越來越小，還有無線通訊及網絡的蓬勃發展之下，我們可以相當期待語音在不久的未來世界當中，不僅在人與人之間扮演著重要的溝通橋樑，甚至也將在人與機器之間做為重要的溝通媒介[Chen 2006]。當前語音文件搜尋研究主要有兩大主軸，分別為口說詞偵測(Spoken Term Detection, STD)和語音文件檢索(Spoken Document Retrieval, SDR) [Meng et al. 2007]。以下將分別對這兩大研究主軸進行介紹。

口說詞偵測又可稱為關鍵字擷取(Keyword Spotting) [Meng et al. 2007]，主要的目標是在給定的語音語料中找出某些特定的詞(Word)或詞組(Phrase)所有出現的位置。在口說詞偵測研究之中系統通常須使用者輸入文字查詢(通常是一至三字詞)[NIST 2006]，將查詢與語音文件的自動轉寫進行詞層次(Word-level)或次層次(Subword-level)比對[Meng et al. 2007]，找出含有部份或全部文字查詢詞的語音文件。口說詞偵測強調的是逐詞比對(Literal Term Matching)，而不強調主題或概念相關的搜尋。例如輸入查詢是「歐巴馬」，就只能搜尋出含有「歐巴馬」一詞的語音文件，若文件中僅有「美國總統當選人」或者是歐巴馬的演講內容，則是 無法被偵測出來的。

回溯在 1996 年間，Spärck Jones 探討如何將既有的資訊檢索方法應用在語音辨識結果之中[Garofolo et al. 2000]，開創了語音文件檢索研究的先端。語音文件檢索是自動語音辨識技術與資訊檢索技術的結合[Garofolo et al. 2000]。自動化語音辨識過程為：一個給定音訊串流(Audio Stream)，在經過自動化語音辨識器 (Automatic Speech Recognition, ASR)之後，可以得到一個具有時間標籤的語音轉寫(Speech Transcript)。此轉寫結果的表現方式可以是音素(Phone)圖或詞(Word) 圖[Ortmanns et al. 1997]，並且，音素圖或詞圖也可以用兩種方式來作為呈現，

第一：可以選擇找出一組結果最好的轉寫結果，例如機率值最高者為最好的轉寫結果；或者，第二：在每一個單位時間點上皆找出前 N 組最佳的音素或詞，使語音檢索文件擁有更多種可能的轉寫結果提供選擇[Garofolo et al. 2000]。語音文件檢索旨在搜尋主題上相關的文件(Topic-Relevant Documents)以回應使用者輸入的口說或文字查詢(Spoken or Text Queries)。語音文件檢索的查詢，可以是簡短的幾個詞，或是一篇文字或語音文件範例，亦即所謂的 Query-By-Example。大詞彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)技術常被用來產生語音查詢與文件的自動轉寫，而檢索模型則是使用一般已常在文字檢索(Text Retrieval)使用的現有模型。近幾年來，隨著語音辯識技術的快速發展，

在語音辨識上已經有重大的貢獻以及相當令人振奮的結果[Zhou et al. 2006]，而

正確率高的辨識結果將有助於檢索成效的提升。

文字文件檢索的研究中，經常使用詞出現的頻率(Term Frequency)、是否為虛詞(Function Words)或者是否為關鍵詞等資訊，融入檢索函數中，據此對文件進行排名。在語音文件檢索中，主要會使用到兩種方法[Mamou et al. 2006]，第一，

根據查詢，找尋文件中語音學上相同的音素串(Phone Sequence)[Clements et al.

2002]，第二，需先將語音資訊透過大詞彙連續語音辨識器轉寫為文字資料，接著運用檢索文字文件的檢索模型進行檢索[Garofolo et al. 2000]。語音文件檢索受到自動語音辨識的影響甚大[Mamou et al. 2006]。因為，在自動轉寫的過程之中，

如果發生轉寫錯誤，造成文件中有辨識錯誤的資訊，這些錯誤的資訊若是沒有經過處理，直接使用純文字檢索的模型進行檢索，會使得檢索的成效降低。過去，

NIST(National Institute of Standards and Technology) SDR (Spoken Document Retrieval, SDR)Track 計畫引領了大部份的語音文件檢索研究。NIST SDR Track 著重在檢索廣播新聞語音語料庫的自動轉寫[Mamou et al. 2006]，計畫執行者曾對語音文件檢索研究下了一些結論，其中一個重要結論是─資訊檢索的成效大部份取決於轉寫文字的正確率。而根據 NIST SDR Track 報告顯示，參與單位的最佳語音辨識正確率已大於 90%；因此，NIST SDR Track 認為 SDR 是一個已解決之問題[Mamou et al. 2006]。然則，NIST SDR Track 並非將資訊檢索技術應用在自發性語音(Spontaneous Speech)辨識上[Meng et al. 2007]，而在自發性語音的語音辨識正確率並無法達到像廣播新聞如此高的效果[Saraclar et al. 2004]。而且，

即使是最佳的辨識器，目前仍舊無法達到百分之百的辨識率。所以，在語音文件檢索的研究中，仍需要去探討如何提升在無法達到百分之百辨識率情況下檢索成效所將會受到的影響。並且，如果能夠找到比文字資訊更有代表性的特徵，那麼，

語音文件將擁有文字文件未見之資訊，則語音文件檢索成效的最大臨界值，將不見得僅是文字檢索成效。

本論文將著重於搜集語音文件的特徵，並考量語音文件的獨特性，將其用於機器學習方式的檢索模型，以期不同的查詢皆能給予對應的相關(Relevant)語音

文件有較正確的排序結果。

在文檔中使用機器學習方法於語音文件檢索之研究 (頁 22-25)