1. 緒論
1.2 資訊檢索於多種資訊型態之應用
自有人類歷史以來,資訊就有各種不同的型態,隨著文明不斷地演進,資訊型態 亦越見繁複,不同資訊型態的結合在今日亦是經常發生[陳光華 1999]。另一方 面,由於電腦科技的蓬勃發展,網路傳送速度的提升與網路上各種活動的日益頻 繁,可以被檢索的資訊可以有以下列幾種類型存在:
1. 純文字(Pure Text):
過往在檢索的議題上,通常是以純文字檢索為主。初始的研究中著重在將查詢 與文件中的字作比對或詞作比對,因此,許多探討詞重要性的議題隨之產生。
例如在[Luhn 1958]中認為,文件中出現的詞頻率(Word Frequency)是一項非常 重要的指標,可用於決定詞之重要性。而由於純文字文件牽涉到各種語言的特 性,因此除了字比對與詞比對之外,其它各類自然語言處理(Natural Language Processing, NLP)的技術也被應用在純文字文件處理之中。自然語言處理的範疇
4
相當廣,而有被應用在資訊檢索議題上進行處理者,例如,句法分析(Parsing) [Keselj 1997]、詞性標註[Meteer et al. 1991]、自動摘要(Automatic Summarization) [Hardy et al. 2002]等,皆是利用更高階的自然語言處理技術對檢索文件進行分 析,以得到更多除了詞比對之外的資訊,對於資訊檢索之成效亦會有幫助。
2. 圖像(Image):
圖像檢索的研究主要可分為兩個時期。第一個時期:最初的圖像檢索研究盛行 於 1970 年代時[Bashir 2002],圖像檢索架構在純文字檢索的概念之上,先對圖 像做圖義註解(textual annotation)。例如,在 Art and Architecture Thesaurus (AAT) 中提出了縱向 33 階層的類別以及橫向 7 個面向的圖像描述架構,就是為了鉅 細靡遺地描述圖像[Goodrum 2000],提供圖像的對應資訊。而使用者在進行檢 索時,就是對這些已轉換為文字的資訊進行比對。這個時期的檢索方式有很大 的缺點,其缺點在於文件資訊對圖像的解釋未必精確。例如:一幅畫標示為「裝 著酒的杯子」,事實上可能這幅畫是跟「基督徒群聚」有關[Goodrum 2000]。
除此之外,所有的圖像都必須經過標示,這樣的過程勢必耗費大量資源並且相 當耗時。想要解決這樣的問題,於是開始了第二個時期的研究。第二時期的研 究開始於 1990 年代,其著重在圖像內容檢索(Content-based Image Retrieval, CBIR),方法為直接針對圖像本身,產生圖像原有的重要特徵。例如:顏色 (Color)、形狀(Shape)、質地(Texture)、姿態(Motion)、及特別關聯的物件[Goodrum 2000; Bashir 2002]。以圖像內容檢索概念發展成功的搜尋引擎包括了 IBM 團隊 的 QBIC[Flickner et al. 1995]。
3. 視訊(Video):
視訊檢索和圖像檢索類似,但是視訊檢索又更為複雜,而視訊檢索的需求和圖 像檢索亦類似[陳光華 1999]。在視訊檢索中一樣需要了解視訊內容,而以視 訊內容為導向之檢索(Content-based Video Retrieval, CBVR)與下列四個過程有 關:視訊內容分析(Video Content Analysis)、視訊結構語法剖析(Video Structure Parsing)、視訊摘要(Video Summarization)及視訊索引(Video Indexing) [Sebe et al.
2003]。視訊內容分析遇到的最大問題,在於無法輕易地將視覺化(Visual)的特 徵對應到隱藏的語意概念(Semantic Concept)。我們可以很容易的得到顏色、形 狀、結構等等的資訊;但卻很難從這些資訊中輕易得定義出實質的意義,像是 影片中的人群正在喝酒。於是在視訊內容分析上,有時會引用一些其它的資訊 來輔助了解,例如視訊的聲音資訊,視訊的文字資訊等等[Sebe et al. 2003]。視 訊結構語法剖析是將視訊根據不同場景(Scene)進行切割的過程,在[Otsuji et al.
1991]中,即是利用不同框架(Frame)中,所有像素(Pixel)之顏色飽合度(Intensity) 變化量來區別場景是否有所改變。視訊摘要則是在整段視訊擇選出最能夠代表 全段視訊之部份段落,摘要的結果不僅能夠呈現視訊的內容,亦能夠幫助視訊 檢索時對視訊內容的掌握及了解[Sebe et al. 2003]。視訊索引可以幫助視訊檢 索,在對視訊進行分鏡(Shot)動作之後,對主要的鏡頭建立索引。而通常我們 在進行檢索時,會給予關鍵詞(Keywords),因此只要去比對關鍵字與建立好之 索引關係,就能進行檢索。例如在[Petkovic et al. 2002]中曾探討視訊索引在網 球比賽類型視訊中之應用。
4. 語音(Speech):
在語音方面的檢索可以分為三種方式。
(1) 以文字查詢(Text Query),檢索語音文件(Spoken Documents)。
(2) 以語音查詢(Spoken Query),檢索文字文件(Text Documents)。
(3) 以語音查詢,檢索語音文件。
這三種方式皆各有其不同的應用之處。第一種可以應用在搜尋廣播新聞,收聽 某一天的廣播新聞時,如果我們希望可以直接找出某一段新聞,不需要聽過整 段節目,此時可以手動鍵入查詢,然後直接播放該新聞。第二種則可以應用在 手機上,當我們不想要一個一個搜尋手機中所存放的電話簿時,我們可以用語 音說話輸入人名,就可以直接找到該人名之電話。第三種則可以應用在,當我 們身處在不適合鍵入資料、只適合輸入語音的環境;例如在開車行進間,希望 能夠搜尋一些含語音資訊的多媒體來播放,就需要用到第三種檢索方式。由此
6
可見,語音檢索的議題可以有許多不同的面向做為探討。而不論是哪一種檢索 類型,語音查詢與語音文件都必須透過語音辨識(Speech Recognition)技術,將 語音型態資料轉換成以關鍵詞(Keywords)、音素串(Phone Strings)以及字串 (Word Strings)所形成之內文特徵(Context Features),如此一來,語音型態資料 才有辦法被估量計算[Bai et al. 2000]。本論文將在下一小節中,更進一步探討 語音文件檢索的整體流程及探討語音文件所面臨的議題。
面對以上如此多樣的資訊檢索目標群,我們仍希望不論是哪一種型態之文 件,都能有很好的檢索成效。然而,面對不同的資訊檢索目標時,所使用的資訊 檢索方法必然有所不同之處。本論文將會使用語音正確轉寫文件以及,經由 Dragon 語音辨識器、臺師大大陸口音中文大詞彙語音辨識器[Chen et al. 2004, 2005],各別轉寫之語音文件進行資訊檢索。Dragon 語音辨識器轉寫結果為 TDT 語料所提供,而選用臺師大大陸口音中文大詞彙語音辨識器轉寫則是希望探討,
在較艱難辨識環境(缺乏語料之詞典及語料之語言模型)下辨識之結果(正確率 較低)的檢索成效。我們期望能夠應用機器學習方法於語音自動轉寫文件之中,
提升語音自動轉寫文件的檢索能力。