資訊檢索於多種資訊型態之應用 - 緒論 - 使用機器學習方法於語音文件檢索之研究

1. 緒論

1.2 資訊檢索於多種資訊型態之應用

自有人類歷史以來，資訊就有各種不同的型態，隨著文明不斷地演進，資訊型態亦越見繁複，不同資訊型態的結合在今日亦是經常發生[陳光華 1999]。另一方面，由於電腦科技的蓬勃發展，網路傳送速度的提升與網路上各種活動的日益頻繁，可以被檢索的資訊可以有以下列幾種類型存在：

1. 純文字(Pure Text)：

過往在檢索的議題上，通常是以純文字檢索為主。初始的研究中著重在將查詢與文件中的字作比對或詞作比對，因此，許多探討詞重要性的議題隨之產生。

例如在[Luhn 1958]中認為，文件中出現的詞頻率(Word Frequency)是一項非常重要的指標，可用於決定詞之重要性。而由於純文字文件牽涉到各種語言的特性，因此除了字比對與詞比對之外，其它各類自然語言處理(Natural Language Processing, NLP)的技術也被應用在純文字文件處理之中。自然語言處理的範疇

相當廣，而有被應用在資訊檢索議題上進行處理者，例如，句法分析(Parsing) [Keselj 1997]、詞性標註[Meteer et al. 1991]、自動摘要(Automatic Summarization) [Hardy et al. 2002]等，皆是利用更高階的自然語言處理技術對檢索文件進行分析，以得到更多除了詞比對之外的資訊，對於資訊檢索之成效亦會有幫助。

2. 圖像(Image)：

圖像檢索的研究主要可分為兩個時期。第一個時期：最初的圖像檢索研究盛行於 1970 年代時[Bashir 2002]，圖像檢索架構在純文字檢索的概念之上，先對圖像做圖義註解(textual annotation)。例如，在 Art and Architecture Thesaurus (AAT) 中提出了縱向 33 階層的類別以及橫向 7 個面向的圖像描述架構，就是為了鉅細靡遺地描述圖像[Goodrum 2000]，提供圖像的對應資訊。而使用者在進行檢索時，就是對這些已轉換為文字的資訊進行比對。這個時期的檢索方式有很大的缺點，其缺點在於文件資訊對圖像的解釋未必精確。例如：一幅畫標示為「裝著酒的杯子」，事實上可能這幅畫是跟「基督徒群聚」有關[Goodrum 2000]。

除此之外，所有的圖像都必須經過標示，這樣的過程勢必耗費大量資源並且相當耗時。想要解決這樣的問題，於是開始了第二個時期的研究。第二時期的研究開始於 1990 年代，其著重在圖像內容檢索(Content-based Image Retrieval, CBIR)，方法為直接針對圖像本身，產生圖像原有的重要特徵。例如：顏色 (Color)、形狀(Shape)、質地(Texture)、姿態(Motion)、及特別關聯的物件[Goodrum 2000; Bashir 2002]。以圖像內容檢索概念發展成功的搜尋引擎包括了 IBM 團隊的 QBIC[Flickner et al. 1995]。

3. 視訊(Video)：

視訊檢索和圖像檢索類似，但是視訊檢索又更為複雜，而視訊檢索的需求和圖像檢索亦類似[陳光華 1999]。在視訊檢索中一樣需要了解視訊內容，而以視訊內容為導向之檢索(Content-based Video Retrieval, CBVR)與下列四個過程有關：視訊內容分析(Video Content Analysis)、視訊結構語法剖析(Video Structure Parsing)、視訊摘要(Video Summarization)及視訊索引(Video Indexing) [Sebe et al.

2003]。視訊內容分析遇到的最大問題，在於無法輕易地將視覺化(Visual)的特徵對應到隱藏的語意概念(Semantic Concept)。我們可以很容易的得到顏色、形狀、結構等等的資訊；但卻很難從這些資訊中輕易得定義出實質的意義，像是影片中的人群正在喝酒。於是在視訊內容分析上，有時會引用一些其它的資訊來輔助了解，例如視訊的聲音資訊，視訊的文字資訊等等[Sebe et al. 2003]。視訊結構語法剖析是將視訊根據不同場景(Scene)進行切割的過程，在[Otsuji et al.

1991]中，即是利用不同框架(Frame)中，所有像素(Pixel)之顏色飽合度(Intensity) 變化量來區別場景是否有所改變。視訊摘要則是在整段視訊擇選出最能夠代表全段視訊之部份段落，摘要的結果不僅能夠呈現視訊的內容，亦能夠幫助視訊檢索時對視訊內容的掌握及了解[Sebe et al. 2003]。視訊索引可以幫助視訊檢索，在對視訊進行分鏡(Shot)動作之後，對主要的鏡頭建立索引。而通常我們在進行檢索時，會給予關鍵詞(Keywords)，因此只要去比對關鍵字與建立好之索引關係，就能進行檢索。例如在[Petkovic et al. 2002]中曾探討視訊索引在網球比賽類型視訊中之應用。

4. 語音(Speech)：

在語音方面的檢索可以分為三種方式。

(1) 以文字查詢(Text Query)，檢索語音文件(Spoken Documents)。

(2) 以語音查詢(Spoken Query)，檢索文字文件(Text Documents)。

(3) 以語音查詢，檢索語音文件。

這三種方式皆各有其不同的應用之處。第一種可以應用在搜尋廣播新聞，收聽某一天的廣播新聞時，如果我們希望可以直接找出某一段新聞，不需要聽過整段節目，此時可以手動鍵入查詢，然後直接播放該新聞。第二種則可以應用在手機上，當我們不想要一個一個搜尋手機中所存放的電話簿時，我們可以用語音說話輸入人名，就可以直接找到該人名之電話。第三種則可以應用在，當我們身處在不適合鍵入資料、只適合輸入語音的環境；例如在開車行進間，希望能夠搜尋一些含語音資訊的多媒體來播放，就需要用到第三種檢索方式。由此

可見，語音檢索的議題可以有許多不同的面向做為探討。而不論是哪一種檢索類型，語音查詢與語音文件都必須透過語音辨識(Speech Recognition)技術，將語音型態資料轉換成以關鍵詞(Keywords)、音素串(Phone Strings)以及字串 (Word Strings)所形成之內文特徵(Context Features)，如此一來，語音型態資料才有辦法被估量計算[Bai et al. 2000]。本論文將在下一小節中，更進一步探討語音文件檢索的整體流程及探討語音文件所面臨的議題。

面對以上如此多樣的資訊檢索目標群，我們仍希望不論是哪一種型態之文件，都能有很好的檢索成效。然而，面對不同的資訊檢索目標時，所使用的資訊檢索方法必然有所不同之處。本論文將會使用語音正確轉寫文件以及，經由 Dragon 語音辨識器、臺師大大陸口音中文大詞彙語音辨識器[Chen et al. 2004, 2005]，各別轉寫之語音文件進行資訊檢索。Dragon 語音辨識器轉寫結果為 TDT 語料所提供，而選用臺師大大陸口音中文大詞彙語音辨識器轉寫則是希望探討，

在較艱難辨識環境（缺乏語料之詞典及語料之語言模型）下辨識之結果（正確率較低）的檢索成效。我們期望能夠應用機器學習方法於語音自動轉寫文件之中，

提升語音自動轉寫文件的檢索能力。

在文檔中使用機器學習方法於語音文件檢索之研究 (頁 19-22)