• 沒有找到結果。

語音文件搜尋研究之介紹

1. 緒論

1.3 語音文件搜尋研究之介紹

語音文件在現實的環境中是廣佈在我們的週遭的,例如 CNN TV 廣播新聞播放 全球新聞、MIT 開放式課程錄音等文件。而語音長久以來是人與人之間一項主要 並且最為便利的溝通方式。並且隨著科技發展,電子設備的體積越來越小,還有 無線通訊及網絡的蓬勃發展之下,我們可以相當期待語音在不久的未來世界當 中,不僅在人與人之間扮演著重要的溝通橋樑,甚至也將在人與機器之間做為重 要的溝通媒介[Chen 2006]。當前語音文件搜尋研究主要有兩大主軸,分別為口說 詞偵測(Spoken Term Detection, STD)和語音文件檢索(Spoken Document Retrieval, SDR) [Meng et al. 2007]。以下將分別對這兩大研究主軸進行介紹。

口說詞偵測又可稱為關鍵字擷取(Keyword Spotting) [Meng et al. 2007],主要 的目標是在給定的語音語料中找出某些特定的詞(Word)或詞組(Phrase)所有出現 的位置。在口說詞偵測研究之中系統通常須使用者輸入文字查詢(通常是一至三 字詞)[NIST 2006],將查詢與語音文件的自動轉寫進行詞層次(Word-level)或次層 次(Subword-level)比對[Meng et al. 2007],找出含有部份或全部文字查詢詞的語音 文件。口說詞偵測強調的是逐詞比對(Literal Term Matching),而不強調主題或概 念相關的搜尋。例如輸入查詢是「歐巴馬」,就只能搜尋出含有「歐巴馬」一詞 的語音文件,若文件中僅有「美國總統當選人」或者是歐巴馬的演講內容,則是 無法被偵測出來的。

回溯在 1996 年間,Spärck Jones 探討如何將既有的資訊檢索方法應用在語音 辨識結果之中[Garofolo et al. 2000],開創了語音文件檢索研究的先端。語音文件 檢索是自動語音辨識技術與資訊檢索技術的結合[Garofolo et al. 2000]。自動化語 音辨識過程為:一個給定音訊串流(Audio Stream),在經過自動化語音辨識器 (Automatic Speech Recognition, ASR)之後,可以得到一個具有時間標籤的語音轉 寫(Speech Transcript)。此轉寫結果的表現方式可以是音素(Phone)圖或詞(Word) 圖[Ortmanns et al. 1997],並且,音素圖或詞圖也可以用兩種方式來作為呈現,

第一:可以選擇找出一組結果最好的轉寫結果,例如機率值最高者為最好的轉寫 結果;或者,第二:在每一個單位時間點上皆找出前 N 組最佳的音素或詞,使 語音檢索文件擁有更多種可能的轉寫結果提供選擇[Garofolo et al. 2000]。語音文 件檢索旨在搜尋主題上相關的文件(Topic-Relevant Documents)以回應使用者輸入 的口說或文字查詢(Spoken or Text Queries)。語音文件檢索的查詢,可以是簡短的 幾個詞,或是一篇文字或語音文件範例,亦即所謂的 Query-By-Example。大詞 彙連續語音辨識(Large Vocabulary Continuous Speech Recognition, LVCSR)技術常 被用來產生語音查詢與文件的自動轉寫,而檢索模型則是使用一般已常在文字檢 索(Text Retrieval)使用的現有模型。近幾年來,隨著語音辯識技術的快速發展,

在語音辨識上已經有重大的貢獻以及相當令人振奮的結果[Zhou et al. 2006],而

8

正確率高的辨識結果將有助於檢索成效的提升。

文字文件檢索的研究中,經常使用詞出現的頻率(Term Frequency)、是否為 虛詞(Function Words)或者是否為關鍵詞等資訊,融入檢索函數中,據此對文件進 行排名。在語音文件檢索中,主要會使用到兩種方法[Mamou et al. 2006],第一,

根據查詢,找尋文件中語音學上相同的音素串(Phone Sequence)[Clements et al.

2002],第二,需先將語音資訊透過大詞彙連續語音辨識器轉寫為文字資料,接 著運用檢索文字文件的檢索模型進行檢索[Garofolo et al. 2000]。語音文件檢索受 到自動語音辨識的影響甚大[Mamou et al. 2006]。因為,在自動轉寫的過程之中,

如果發生轉寫錯誤,造成文件中有辨識錯誤的資訊,這些錯誤的資訊若是沒有經 過處理,直接使用純文字檢索的模型進行檢索,會使得檢索的成效降低。過去,

NIST(National Institute of Standards and Technology) SDR (Spoken Document Retrieval, SDR)Track 計畫引領了大部份的語音文件檢索研究。NIST SDR Track 著重在檢索廣播新聞語音語料庫的自動轉寫[Mamou et al. 2006],計畫執行者曾 對語音文件檢索研究下了一些結論,其中一個重要結論是─資訊檢索的成效大部 份取決於轉寫文字的正確率。而根據 NIST SDR Track 報告顯示,參與單位的最 佳語音辨識正確率已大於 90%;因此,NIST SDR Track 認為 SDR 是一個已解決 之問題[Mamou et al. 2006]。然則,NIST SDR Track 並非將資訊檢索技術應用在 自發性語音(Spontaneous Speech)辨識上[Meng et al. 2007],而在自發性語音的語 音辨識正確率並無法達到像廣播新聞如此高的效果[Saraclar et al. 2004]。而且,

即使是最佳的辨識器,目前仍舊無法達到百分之百的辨識率。所以,在語音文件 檢索的研究中,仍需要去探討如何提升在無法達到百分之百辨識率情況下檢索成 效所將會受到的影響。並且,如果能夠找到比文字資訊更有代表性的特徵,那麼,

語音文件將擁有文字文件未見之資訊,則語音文件檢索成效的最大臨界值,將不 見得僅是文字檢索成效。

本論文將著重於搜集語音文件的特徵,並考量語音文件的獨特性,將其用於 機器學習方式的檢索模型,以期不同的查詢皆能給予對應的相關(Relevant)語音

文件有較正確的排序結果。