語音文件摘要背景介紹與相關研究 - 表示法學習技術於節錄式語音文件摘要之研究

純文字摘要系統在過去已受到相當程度的討論與研究[4, 5, 6]，其目的是讓使用者可以僅透過瀏覽重要部分的資訊即可充分瞭解整篇文件的意涵。文件摘要系統可以將文件中具有資訊的語句擷取出來並回應於使用者。而依照用途的不同，

文件摘要亦分為不同類型。

 以文件數目分類

以文件做分類的摘要類型可以分為兩種，單文件摘要 (Single-Document

Summarization)與多文件摘要(Multi-Document Summarization)，兩者的主要差異在於產生一篇摘要所需要文件的數量。單文件摘要是對每篇文件產生其對應的一篇摘要，其重點在於剔除不重要內容，保留真正具有代表性的資訊，以達到精簡與重點化的目的。例如本論文中新聞報導的實驗，由於每篇新聞報導的內容都對應到不同的主題，因此對每篇新聞皆產生一篇屬於該主題的文件摘要。而多文件摘要則是整合多篇相似的文件來產生一篇摘要，其原因在於過多的資訊反而讓人目不暇給，因此除了刪減不重要的資訊之外，亦強調濾除重複的資訊。此種方法大多應用於網路摘要系統(Web Summarization)。由於在進行網頁搜尋時，使用者經常會給予一個查詢，進而得到與內容相近的網頁排序清單，然而過多的資訊內容令人眼花撩亂，因此網路摘要系統大多利用多文件摘要將每個網頁的內容整合成

一篇摘要提供使用者閱讀。由於網際網路的蓬勃發展，使得多文件摘要成為近年來熱門的研究方向。

圖 2.1 文件摘要分類之示意圖

 以問句分類

摘要需求的種類可以分為一般性摘要(Generative Summarization)與以查詢為基礎的摘要(Query-Focus Summarization)，兩者主要的差別在於是否考慮使用者要求的資訊。一般性摘要是沒有使用查詢功能的摘要系統，如本論文中的文件摘要即為此類，目的是讓摘要的內容盡量涵蓋越多的文件資訊。而以查詢為基礎的摘要是透過使用者發送的查詢需求並回傳對應的摘要內容，其目標並非涵蓋所有的文件資訊，僅回應使用者與查詢需求相關的資訊。

2.1.2 摘要語言之種類

摘要語言可以分為單一語言(Monolingual)摘要與多種語言(Multilingual)摘要。

多種語言摘要是從多種語言的文件中產生單一語言的摘要結果，其中涉及機器翻譯(Machine Translation)的技術。

2.1.3 摘要生成方式之種類

摘要生成的方式可以分為節錄式摘要(Extractive Summarization)與抽象式摘要(Abstractive Summarization)。節錄式摘要是將一篇文件內容經過斷句處理後，

選擇具有代表性的語句作為摘要，抽象式摘要則是產生未必出現在原始文件中的語句作為摘要。簡單地說，抽象式摘要類似於運用人類的思考能力所創造出來的敘述。近年來抽象式摘要的研究逐漸增加，大多應用於評論摘要 (Review

Summarization)，因此利用抽象式摘要壓縮資料以顯示在智慧型行動裝置上的應用也相繼而生，成為一個值得深究的題目。然而，此方式需要涉及深層的自然語言處理能力，因此絕大多數的研究仍然著重於節錄式摘要，如本論文亦採用節錄式摘要方式進行研究。

2.1.4 語音文件摘要與文字文件摘要之差異

語音文件與文字文件的差異在於語音文件是聲音檔，例如課程錄音、會議錄音、新聞錄音等等。這些錄音需要透過自動語音辨識系統將聲音轉寫成對應的文字，容易產生辨識錯誤(Recognition Error)的問題，進而對摘要系統造成影響，因

此自動語音辨識系統品質的優劣對於摘要結果有著絕對的影響力。此外，語音文件沒有文字文件來得單純，尤其如課程錄音和會議錄音，這些語音文件的內容通常較為自發性(Spontaneous)，常伴有許多的停頓、無意義的語助詞或不完整的段落導致辨識率通常較低。再者，語音文件的斷句亦是一大問題，若將某個重要語句斷成數個零碎語句，則這些語句可能因為資訊的削減而不被摘要系統選取。

如上所述，語音文件摘要比文字摘要更具許多的困難以及挑戰性，例如語句的不流暢以及斷句的處理皆有研究指出會造成摘要效能的影響[7, 8]。在過去，有研究學者提出採用前N個最佳(N-Best)的辨識結果之方法以改善辨識錯誤的問題

[9, 10]。然而，語音亦有其優處，透過韻律特徵的分析，如語者聲帶振動的頻率 (Fundamental Frequency, F0)、音素持續時間(Duration)、音素強度(Energy)以及語調(Tone)的高低等資訊，可以判斷出語者所說的內容是否具重要性[11]。如在課程錄音中，語者音量變高以及語調提升的語句，極有可能是在強調某個重點，因此這種特性有助於判斷此語句是否適合為摘要。過去語音文件摘要借助於聲學特徵的研究[12, 13, 14]，其表現甚至有可能比文件文字摘要的表現更加理想。

2.1.5 摘要語句的精簡與壓縮

透過文件摘要系統來選取重要的語句，盡可能地把文件重點用簡潔的方式呈現出來。然而，對於語句中多餘的字詞(例如副詞與形容詞等)及語音文件中多餘的語助詞、辨識錯誤等無意義的內容，並沒有被考慮與處理，使得被產生出來的摘要內容往往包含雜訊且不夠精簡。因此，有學者進一步地提出化簡與壓縮重要

語句的方法，以產生更為精簡的摘要內容。語句壓縮技術是自動產生保留原始語句核心內容，並且合乎語法、語意連貫的簡短語句。如 Knight 與 Marcu 於 2002 年所提出以機率方式於語句壓縮之方法，用來找出最精簡的語句，並且同時保有文法結構與重要資訊[15]。以及 Kikuchi 等人所提出的兩階段式摘要方法，首先篩選重要語句，節錄出文件中重要的候選語句，接著依摘要比例及壓縮比率

(Compression Ratio)對語句進行縮減與壓縮的處理，最後以文字或是語音的方式呈現摘要內容[16, 17]。

在文檔中表示法學習技術於節錄式語音文件摘要之研究 (頁 15-19)