• 沒有找到結果。

探究語句模型技術應用於摘錄式語音文件摘要

N/A
N/A
Protected

Academic year: 2021

Share "探究語句模型技術應用於摘錄式語音文件摘要"

Copied!
104
0
0

加載中.... (立即查看全文)

全文

(1)國立台灣師範大學資訊工程研究所 碩士論文. 指導教授:陳柏琳博士. 探究語句模型技術應用於摘錄式語音文件摘要 Sentence Modeling Techniques for Extractive Spoken Document Summarization. 研究生:張皓欽撰 中華民國一百零二年二月.

(2) i.

(3) 摘要 摘錄式語音摘要是根據事先定義的摘要比例,從語音文件中選取一些重要的語句 來產生簡潔的摘要以代表原始文件的主旨或主題,在近幾年已成為一項非常熱門 的研究議題。其中,使用語言模型(Language Modeling)架構結合庫爾貝克-萊伯勒 差異量(Kullback-Leibler Divergence)來進行重要語句選取的方法,在一些文字與語 音文件摘要任務上已展現不錯的效能。本論文延伸此一方法而三個主要貢獻。首 先,基於所謂關聯性(Relevance)的概念,我們探索新穎的語句模型技術。透過不 同層次(例如詞或音節)索引單位的使用所建立的語句模型能與文件模型進行比對, 來估算候選摘要語句與語音文件的關係。再者,我們不僅使用了語音文件中所含 有語彙資訊(Lexical Information),也使用了語音文件中所含隱含的主題 資訊 (Topical Information)來建立各種語句模型。最後,為了改善關聯模型(Relevance Modeling) 需 要 初 次 檢 索 的 問 題 , 本 論 文 提 出 了 詞 關 聯 模 型 (Word Relevance Modeling)。語音摘要實驗是在中文廣播新聞上進行;相較於其它非監督式摘要方 法,本論文所提出摘要方法似乎能有一定的效能提升。. 關鍵詞:語音摘要、語句模型、語言模型、庫爾貝克-萊伯勒差異量. iii.

(4) Abstract Extractive speech summarization, aiming to select an indicative set of sentences from a spoken document so as to concisely represent the most important aspects of the document, has emerged as an attractive area of research and experimentation. A recent school of thought is to employ the language modeling (LM) framework along with the Kullback-Leibler (KL) divergence measure for important sentence selection, which has shown preliminary promise for extractive speech summarization. Our work in this paper continues this general line of research in three significant aspects. First, we explore a novel sentence modeling approach built on top of the notion of relevance, where the relationship between a candidate summary sentence and the spoken document to be summarized is discovered through various granularities of semantic context for relevance modeling. Second, not only lexical but also topical cues inherent in the spoken document are exploited for sentence modeling. Third, to counteract the shortcoming of the RM approach, need of resorting to a time-consuming retrieval procedure for relevance modeling, we present a word relevance modeling(WRM) approach. Experiments on broadcast news summarization seem to demonstrate the performance merits of our methods when compared to several existing unsupervised methods.. Index Terms— Speech summarization, sentence modeling, language modeling, Kullback-Leibler divergence. iv.

(5) 致謝 首先,我感謝我的父母親和家人,我能感受到你們的關心,因為有您的支持與鼓 勵,並不斷地給予正面能量,讓我能夠無後顧之憂地追隨著自己的夢想,並且順 利的完成學業。在求學過程中的陪伴與照顧,我都銘記在心,謝謝我的父母親、 哥哥以及姐姐。 感謝我的指導老師陳柏琳博士,在碩士的研究生涯中,您不論是研究上的專 業知識、論文寫作、表達能力、談話技巧以及待人處事的道理都從老師身上學習 到很多,老師就如同我人生中第二個父親一樣,謝謝老師的諄諄教誨,學生皓欽 銘記在心,您的一言一行是我未來的學習榜樣。 感謝口試委員王新民博士、洪志偉博士和曹昱博士,因為有您的建議與指正 ,使學生的論文更臻完善,並從老師討論中,學習到研究可以多方面的思考。 感謝實驗室的學長姐,士翔學長、永典學長、冠宇學長、敏軒學長、家妏學 姐、鈺玫學姐、沛寧學姐、紋儀學姐和欣汝學姐,謝謝你們在研究上給予的指導。 感謝士翔學長、永典學長、鈺玫學姐和沛寧學姐協助我解決語音摘要或語音檢所 的問題,謝謝冠宇學長每周百忙抽空不厭其煩地與我討論研究,也提供許多不同 的研究方向並且幫我解決許多問題,學長就如同在碩士生涯中第二個指導老師。 感謝我的同學邦烜、予真和億文,很開心能夠與你們一起上課,也謝謝你們 對與我研究上給予的幫助,在研究所的日子裡互相鼓勵與共同成長,讓我的研究 生活增添許多動力。也感謝實驗室的學弟妹,孝宗、逸婷、俊諭、麟傑、柏翰和 黃威,因為有你們的加入,讓實驗室更熱鬧,在我忙碌之時,也不吝嗇地幫助我。 最後,謝謝關心過我的人,有你們的支持,我才能勇敢面段下一階段的人生, 謝謝! 皓欽 僅誌. v.

(6) 目錄 圖目錄………………………………………………………………………………Ⅷ 表目錄……………………………………………………………………………...Ⅸ. 1. 緒論…..………………………………………………………………………….1 1.1. 研究背景……………………………………….………………………...……1. 1.2. 文字文件摘要…………………………………….…………………………...2. 1.3. 語音文件摘要……………………………………….……………………...…5. 1.4. 研究內容與貢獻…………………………………….…………………….…..8. 1.5. 論文架構……………………………………………….………………….…..9. 2. 文獻回顧……..………………………………………………………………..10 2.1. 以簡單語彙與結構特徵為基礎之摘要方法…………………….…….……10. 2.2. 監督式機器學習摘要方法…………………………………….…………….12. 2.3. 非監督式機器學習摘要方法………………………………….…………….14. 3. 關聯模型的使用以及延伸…………..…..…………………………………22 3.1. 單連語言模型………………………………….…………………………….22. 3.2. 庫爾貝克-萊伯勒差異……………………………….…………………...….24. 3.3. 關聯模型的使用以及延伸……………………………….………………….26. 3.3.1. 關聯模型………………………………………………………………...27. 3.3.2. 成對的關聯模型………………………………………………………...32. 3.3.3. 詞關聯模型……………………………………………………………...33. 3.4. 不同層次的索引單位…………………………………….………………….37. 3.5. 關聯模型之線索與變形………………………………….………………….38. 4. 實驗語料與實驗環境設定…………………………………………………39 5. 實驗結果、分析與討論……………………………………………………43 vi.

(7) 5.1. 文件以詞為單位的基礎實驗…………………………….……………….42. 5.2. 文件以詞為單位的關聯模型結果………………………….…………….47. 5.3. 文件以詞為單位的詞關聯模型結果……………………….…………….50. 5.4. 文件以音節為單位的基礎實驗…………………….………..………..….53. 5.5. 文件以音節為單位的關聯模型結果…………….……………………….55. 5.6. 文件以音節為單位的詞關聯模型結果…………….………….………....57. 5.7. 文件以詞和音節為單位排序組合的結果………….…………..………...59. 5.8. 文件以詞為單位的監督式摘要模型……….…………..………………...67. 6. 結論與未來展望……………………………………………………………..77 7. 參考文獻………………………………………………………….…………...79. vii.

(8) 圖目錄 圖 3-1、摘錄式摘要使用關聯模型生成語句架構圖…………………….….....28 圖 3-2、利用訓練文件中詞鄰近的資訊,來代表這個詞的詞虛擬文件…......33 圖 5-1、馬可夫隨機漫步…………………….…..…………………….…..........44 圖 5-2、向量空間模型…………………….….....………………….…..............45 圖 5-3、潛藏語意分析…………………….…....………………….…................46. viii.

(9) 表目錄 表 3-1、關聯模型與詞關聯模型的比較表……………………………………..37 表 4-1、使用文件的統計資訊……………………………………………..…....39 表 4-2、監督式摘要所使用的特徵……………………………………………....41 表 5-1、文字文件之線性函數與圖形模型以詞為單位的基礎實驗….............43 表 5-2、語音文件之線性函數與圖形模型以詞為單位的基礎實驗………......44 表 5-3、文字文件之關聯模型以詞為單位且摘要比例為 10%的評估結果…..48 表 5-4、語音文件之關聯模型以詞為單位且摘要比例為 10%的評估結果…..48 表 5-5、文字文件以詞為單位的關聯模型與主題式關聯模型的結果…….....49 表 5-6、語音文件以詞為單位的關聯模型與主題式關聯模型的結果……......49 表 5-7、文字文件以詞為單位的成對關聯模型與主題式成對關聯模型的結 果…………………………………………………………………………...........50 表 5-8、語音文件以詞為單位的成對關聯模型與主題式成對關聯模型的結 果…………………………………………………………………………...........50 表 5-9、文字文件之詞關聯模型以詞為單位且摘要比例為 10%的評估結 果………………………………………………………………………………...51 表 5-10、語音文件之詞關聯模型以詞為單位且摘要比例為 10%的評估結 果………………………………………………………………………………...51 表 5-11、文字文件以詞為單位的詞關聯模型 與主題式詞關聯模型的結 果………………………………………………………………………………...52 表 5-12、語音 文件以詞為單位的詞關聯模型與 主題式詞關聯模型的結 果………………………………………………………………………………...52 表 5-13、文字文件以詞為單位的成對詞關聯模型與主題式成對詞關聯模型的 結果……………………………………………………………………………...53 表 5-14、語音文件以詞為單位的成對詞關聯模型與主題式成對詞關聯模型的 ix.

(10) 結果……………………………………………………………………………...53 表 5-15 、 文 字 文 件 之 線 性 函 數 與 圖 形 模 型 以 音 節 為 單 位 的 基 礎 實 驗…………………………………………………………………………...........54 表 5-16 、 語 音 文 件 之 線 性 函 數 與 圖 形 模 型 以 音 節 為 單 位 的 基 礎 實 驗…………………………………………………………………………...........54 表 5-17 、 文 字 文 件 以 音 節 為 單 位 的 關 聯 模 型 與 主 題 式 關 聯 模 型 的 結 果…………………………………………………………………………...........56 表 5-18 、 語 音 文 件 以 音 節 為 單 位 的 關 聯 模 型 與 主 題 式 關 聯 模 型 的 結 果…………………………….……………………………………………..........56 表 5-19、文字文件以音節為單位的成對關聯模型與主題式成對關聯模型的結 果…………………………………………………………………………...........57 表 5-20、語音文件以音節為單位的成對關聯模型與主題式成對關聯模型的結 果…………………………………………………………………………...........57 表 5-21、文字文件以音節為單位的詞關聯模型與主題式詞關聯模型的結 果………………………………………………………………………………...58 表 5-22、語音文件以音節為單位的詞關聯模型與主題式詞關聯模型的結 果………………………………………………………………………………...58 表 5-23、文字文件以音節為單位的成對詞關聯模型與主題式成對詞關聯模型 結果……………………………………………………………………………...59 表 5-24、語音文件以音節為單位的成對詞關聯模型與主題式成對詞關聯模型 結果……………………………………………………………………………...59 表 5-25、文字文件以詞和音節為單位的關聯模型排序結合的結果………...60 表 5-26、語音文件以詞和音節為單位的關聯模型排序結合的結果……...…60 表 5-27、文字文件以詞和音節為單位的主題式關聯模型排序結合的結果...61 表 5-28、語音文件以詞和音節為單位的主題式關聯模型排序結合的結果...61 表 5-29、文字文件以詞和音節為單位的成對關聯模型排序結合的結果…...62 x.

(11) 表 5-30、語音文件以詞和音節為單位的成對關聯模型排序結合的結果…...62 表 5-31、文字文件以詞和音節為單位的主題式成對關聯模型排序結合的結 果……………………………………………………………………………...…63 表 5-32、語音文件以詞和音節為單位的主題式成對關聯模型排序結合的結 果……………………………………………………………………………...…63 表 5-33、文字文件以詞和音節為單位的詞關聯模型排序結合的結果……...64 表 5-34、語音文件以詞和音節為單位的詞關聯模型排序結合的結果……...64 表 5-35、文字文件以詞和音節為單位的主題式詞關聯模型排序結合的結 果……………………………………………………………………………...…65 表 5-36、語音文件以詞和音節為單位的主題式詞關聯模型排序結合的結 果……………………………………………………………………………...…65 表 5-37、文字文件以詞和音節為單位的成對詞關聯模型排序結合的結果...66 表 5-38、語音文件以詞和音節為單位的成對詞關聯模型排序結合的結果...66 表 5-39、文字文件以詞和音節為單位的主題式成對詞關聯模型排序結合的結 果……………………………………………………………………………...…67 表 5-40、語音文件以詞和音節為單位的主題式成對詞關聯模型排序結合的結 果……………………………………………………………………………...…67 表 5-41、文字文件以詞為單位的監督式摘要與關聯模型排序結合的結 果……………………………………………………………………………...…68 表 5-42、語音文件以詞為單位的監督式摘要與關聯模型排序結合的結 果……………………………………………………………………………...…68 表 5-43、文字文件以詞為單位的監督式摘要與主題式關聯模型排序結合的結 果……………………………………………………………………………...…70 表 5-44、語音文件以詞為單位的監督式摘要與主題式關聯模型排序結合的結 果……………………………………………………………………………...…70 表 5-45、文字文件以詞為單位的監督式摘要與成對關聯模型排序結合的結 xi.

(12) 果……………………………………………………………………………...…71 表 5-46、語音文件以詞為單位的監督式摘要與成對關聯模型排序結合的結 果……………………………………………………………………………...…71 表 5-47、文字文件以詞為單位的監督式摘要與主題式成對關聯模型排序結合 的結果…………………………………………………………………………...72 表 5-48、語音文件以詞為單位的監督式摘要與主題式成對關聯模型排序結合 的結果…………………………………………………………………………...72 表 5-49、文字文件以詞為單位的監督式摘要與詞關聯模型排序結合的結 果……………………………………………………………………………...…73 表 5-50、語音文件以詞為單位的監督式摘要與詞關聯模型排序結合的結 果……………………………………………………………………………...…73 表 5-51、文字文件以詞為單位的監督式摘要與主題式詞關聯模型排序結合的 結果…………………………………………………………………………...…74 表 5-52、語音文件以詞為單位的監督式摘要與主題式詞關聯模型排序結合的 結果……………………………………………………………………………...74 表 5-53、文字文件以詞為單位的監督式摘要與成對詞關聯模型排序結合的結 果……………………………………………………………………………...…75 表 5-54、語音文件以詞為單位的監督式摘要與成對詞關聯模型排序結合的結 果……………………………………………………………………………...…75 表 5-55、文字文件以詞為單位的監督式摘要與主題式成對關聯模型排序結合 的結果………………………………………………………………………...…76 表 5-56、語音文件以詞為單位的監督式摘要與主題式成對關聯模型排序結合 的結果………………………………………………………………………...…76. xii.

(13) 1 緒論 1.1 研究背景 由於現今科技的日新月異和網際網路的普及,大量的文字或多媒體影音資訊被快 速地傳遞並分享於全球各地,資訊超載(Information Overload)問題也因此隨之產生。 如何能讓人們快速地、有效率地瀏覽與日俱增的文字資訊或多媒體影音資訊,已 是一個刻不容緩的研究課題。而在眾多的研究方法中,文件摘要 (Document Summarization)被視為是一項不可或缺的關鍵技術[Lin and Chen 2010]。 通常使用者需要花費時間審視文件內容,而文件摘要旨在於摘錄單一文件 (Single-Document)或多文件(Multi-Document)中內含的重要語意與主題資訊,並輔 助讓使用者有效地瀏覽與理解文件中的主旨,便可以快速獲得其所需的資訊。另 一方面,語音是多媒體內涵中最具資訊的成分之一,基於文件摘要技術來自動地、 有效率地處理具時序性的多媒體影音內容,例如:電視新聞、廣播新聞、語音郵 件、電子郵件、會議及演講錄音等[Lee and Chen 2005],更是顯得非常重要。其 原因在於多媒體影音內容往往長達數分鐘或數小時,使用者不易於瀏覽和查詢, 而是必須耐心地瀏覽或聽完整份多媒體影音內容,才能理解其中所描述的語意與 主題。這對於現在資訊發達的時代,大家總是講求方便、效率或簡單的方式獲取 資訊是極不符合需求的。 雖然對於含有語音訊號的多媒體影音,我們可透過自動語音辨識(Automatic Speech Recognition, ASR)的技術自動地轉換成易於瀏覽的文字內容,再經由文字 文件摘要(Text Document Summarization)技術的處理,達到摘要多媒體影音或者其 他語音文件(Spoken Documents)的目的。但就現階段語音辨識技術的發展而言, 語音文件經語音辨識後自動轉寫成文字的結果,往往會存在辨識錯誤的問題,其 特性除了缺乏章節與標點符號,或語句邊際定義不清楚等結構資訊;也含有許多 口語助詞、遲疑、重覆等內容,使得語音文件摘要(Spoken Document Summarization) 1.

(14) 技術的發展面臨更多的挑戰。因此,近年來語音文件摘要技術的發展在語音及自 然語言處理領域已是一個愈來愈受重視的研究課題[Lee and Chen 2005; McKeown et al. 2005]。 以下將首先介紹文字與語音文件摘要技術相關研究議題;然後,闡述本論文 的研究內容與貢獻;最後,說明本論文的章節安排。. 1.2 文字文件摘要 一般來說,文字文件摘要研究可從許多不同構面進行探討,包括來源、需求、用 途及方式,以下將簡述各個不同構面的相關議題[Mani and Maybury 1999]: (1) 來源:根據文件來源,可以分為單一文件摘要與多文件摘要;而多文件摘要 是收集多篇相似的文件,需要移除文件間彼此重複性(Redundancy)的資訊 [Carbonell and Goldstein 1998] , 與 考 慮 文 件 描 述 事 件 發 生 的 先 後 順 序 (Causality)[Kuo and Chen 2006],並且確認文件之間的因果關係,經由這些資 訊希望能產生有連貫性的文件摘要。 (2) 需求:依據使用者需求不同,摘要內容可以是具有資訊性(Informative)是用 來表達文件描述的主旨內容與核心資訊;具指示性(Indicative)是將文件中的主 題內容做簡單的描述,並將文件分成不同的主題,例如:政治性、學術性、 體育性和娛樂性文件,但是所產生出的摘要不傳達原始文件最詳細的內容; 評 論 性 (Critical) 提 供 文 件 正 面 與 反 面 的 觀 點 (Positive and Negative Sentiments)[Gally et al. 2004]。 (2) 需求:依據使用者需求不同,摘要內容可以是具有資訊性(Informative)是用 來表達文件描述的主旨內容與核心資訊;具指示性(Indicative)是將文件中的主 題內容做簡單的描述,並將文件分成不同的主題,例如:政治性、學術性、 體育性和娛樂性文件,但是所產生出的摘要不傳達原始文件最詳細的內容; 評 論 性 (Critical) 提 供 文 件 正 面 與 反 面 的 觀 點 (Positive and Negative Sentiments)[Gally et al. 2004]。方式:可概分為二大類,摘錄式(Extractive)摘 要與抽象式(Abstract)摘要(或重寫摘要)。前者主要是依特定摘要比例,從最原 始的文件中擷取選取重要的語句來組成摘要;而後者是人們對文件作理解後, 2.

(15) 重新產生摘要要來代表原始文件的內容,但所使用之語彙或慣用語不一定是 全然地來自於原始文件,是一種較為較貼近人們日常撰寫摘要的方式。而抽 象式摘要需要複雜的自然語言處理(Natural Language Processing, NLP)技術, 如資訊擷取(Information Extraction)及對話理解(Discourse Understanding)及自 然語言生成(Natural Language Generation)等領域的技術[Paice 1990; Witbrock and Mittal 2008],因此,近年來研究主要還是以摘錄式摘要為主。 (4) 用途:依摘要用途可分為一般性(Generic)摘要與以查詢為基礎(Query-based) 的摘要,前者是從整篇文件中萃取出語句,且能夠突顯整篇文件全面性的主 題資訊,摘要產生的內容可以涵蓋整篇文件所有重要主題;後者透過使用者 或特定的查詢來產生與查詢較相關的摘要。 文字文件摘要技術發展最早可追朔至 1950 年代末期,有學者提出以使用詞 頻(Frequency)來評量詞的重要性與計算文件中每個語句的顯著性(Significance Factor)[Luhn, 1958],再將語句依其顯著分數進行排序(由高至低),最後根據特定 摘要比例進行摘錄式摘要的產生。此研究不僅自此開啟了自動文件摘要研究的大 門,同時亦奠定了許多日後研究可以依循的準則,例如:每個語彙可以進行詞幹 分析(Stemming)將其還原成詞根(Root Form)、移除停用詞(Stop Word)的影響,及 計算實詞(Content Word)的重要性等。隨後,另有學者在審視 200 篇科技文件後, 發現有 85%的重要語句會出現在文件中的第一段、以及 7%的重要語句會出現在 最後一段[Baxendale 1958]。因此,提出語句在文件中的位置(Position)資訊是在進 行文件摘要的重要語句選取時的一項關鍵線索,常常被拿來定義使用。再者,有 學者除了使用詞頻與位置資訊外,並提出可以額外地使用線索慣用語(Cue Phrases) 與語彙出現在文件不同部份(Skeleton)(如標題、前言、結論等位置)的頻率特徵, 再結合統計式方法,對上述這些種特徵作線性組合以計算語句重要性。經過上述 三個先探研究(Pilot Studies)後,文件摘要便逐漸成為自然語言處理的一項重要的 研究課題。以下,本文將過去研究所陸續發展出的文件摘要方法概略地區分為二 大類[Mani and Maybury 1999]: (1) 以簡單語彙與結構特徵為基礎之摘要方法. 3.

(16) 此類方法通常是利用自然語言分析(Natural Language Analysis)技術對文件結 構進行剖析以對話為基礎的方法,決定不同語段的凝聚(Cohesion)關係是根 據文法結構(Grammar Structure)與語言機制(Linguistic Devices),例如:首語 重複(Anaphora)、省略(Ellipsis)、結合(Conjunction),或同義詞(Synonymy)、 上義詞(Hypernym)等語彙關係(Lexical Relation),以進行自動摘要。此類方 法較著名的相關研究包括使用語彙鏈(Lexical Chain)[Barzilay and Elhadad 1997]、宏觀語段結構(Discourse Macro Structure)[Strzalkowski et al. 1998]、 修辭結構(Rhetorical Structure) [Marcu 2000; Teufel and Moens 2002; Zhang et al. 2010]等。 (2) 以機器學習為基礎之摘要方法 此類的研究可追溯至於 1990 年代,因機器學習(Machine Learning)技術逐漸 被介紹至自然語言處理而興起。通常機器學習為基礎的方法又可以分為兩個 面向:非監督式(Unsupervised)摘要模型與監督式(Supervised)摘要模型的使 用。前者產生單一種摘要特徵供語句排序使用,例如:語句與文件相關性 [Gong and Liu, 2001]、語句所形成的語言模型生成文件之機率等[Chen et al. 2009]、語句間關係性[Mihalcea and Tarau 2004; Erkan and Radev 2004]、語句 中語彙在機率式潛藏主題空間(Probabilistic Latent Topic Space)的重要性[Lee et al. 2006]、或語句與文件在機率式潛藏主題空間的模型距離[Wang et al. 2009; Chang and Chien 2009; Lin and Chen 2009]等,這些作法基本上在建立 摘要模型時並不需參照或使用任何人工事先標記過的語料庫。另一方面,後 者則通常需要有人工事先標記過的語料庫供模型訓練使用,亦即會使用到一 組訓練文件集以及其中每篇訓練文件的每一語句是否屬於摘要語句 (Summary Sentence)的資訊來做為模型訓練之基礎。此類方法較著名的關相 研究包括簡單貝氏分類器(Naïve-Bayes Classifier)[Kupiec 1995] 、高斯混合 模型(Gaussian Mixture Model, GMM)[Mihalcea et al. 2005]、隱藏式馬可夫模 型(Hidden Markov Model,HMM)[Conroy and Leary 2001]、支援向量機 (Support Vector Machine, SVM)[Joachims 2002]、條件隨機場域(Conditional 4.

(17) Random Fields, CRF)[Gally 2006; Shen et al. 2007]等。一般來說,監督式模型 可同時結合多種摘要特徵來表示每一語句(其中的每一種特徵可以是上述以 語段為基礎摘要方法或是非監督式摘要模型針對此語句所輸出的分數或機 率值),這些特徵合起來所形成的特徵向量可來用來做為監督式摘要模型判 斷此語句是否屬於摘要語句的依據[Lin et al. 2009]。. 1.3 語音文件摘要 網際網路中除了有文字資訊外,也包含了影音資訊包括影像或聲音等,透過語音, 我們可以很容易瞭解多媒體內涵的主旨與概念,諸如文字轉寫、語者、情感、說 話時場景等資訊。自動摘要系統在過去幾十年,主要的研究仍重著於文字為主之 文件摘要,因此,研究的範圍在最近十年來已將觸角延伸至語音摘要,常使用的 研 究 題 材 包 括 了 廣 播 新 聞 (Broadcast News)[Chen et al. 2009; Maskey and Hirschberg 2005; Christensen et al. 2008]、語音郵件(Voice Mails)[Koumpis and Renals 2000; Zechner and Waibel 2000]、會議錄音(Meeting Recordings)[Mihalcea et al. 2005; Gally 2006; Liu and Xie 2008]、演講紀錄(Lecture Recordings)[Zhang et al. 2007]等。雖然語音訊號的多媒體資訊可透過語音辨識的技術轉寫成易於瀏覽的文 字內容,但因自動語音辨識(Automatic Speech Recognition, ASR)‎系統總是存在著 辨識字錯誤率的問題,使經由語音辨識錯誤過後自動轉寫翻譯的語音文件常常包 含了許多語助詞、遲疑、重複和停頓等內容,和缺乏像章節、標點符號、字體大 小、句子邊界等結構資訊,以致於造成語句不通順與沒有文法性的現象,而早期 語音摘要的做法通常使用傳統文字摘要的估測技術,例如:詞彙資訊(Lexical Information)、主題資訊(Topic Information)、位置資訊(Position Information)和結構 資訊(Structural Information)等文字中擁有的資訊,這個舉動所得到的自動化產生 的摘要往往會帶有語音辨識錯誤的問題,以致於傳統文字文件摘要方法並無法正 確地摘要出語音文件中重要文句的問題[McKeown et al. 2005]。語音文件擁有許多 文字文件所沒有的資訊,明顯地,語音是多媒體內涵中最具資訊的成分之一,因 此 , 語 音 摘 要 的 相 關 研 究 通 常 從 多 媒 體 中 萃 取 豐 富 的 韻 律 資 訊 (Prosodic Information)來判斷語句的重要性,例如:音調(Intonation)、音高(Pitch)、音強(Power)、 5.

(18) 語者發聲持續時間(Duration)、語者說話速率、語者、情感,和說話時場景等資訊, ,都是從事語音文件摘要時可以善加利用的額外語句特徵來源。因此,如何能善 用這些語音訊號本身所獨具的特性來提昇語音文件摘要的成效,已成為當前語音 文件摘要研究的新興課題之一[McKeown et al. 2005; Penn and Zhu 2008]。另一方 面,就自動語音文件摘要而言,摘錄式摘要可以保留原始語者在當時說話的語調 及情感等資訊,若藉由直接播放摘要語句所對應的語音訊號不但可以呈現這些資 訊,亦可免去語音辨識錯誤所造成的影響[Furui et al. 2004]。因此,近年來有關語 音文件摘要的研究,大部分是以摘錄式摘要為主,並且可以歸納分為四個主要流 程,下列將介紹每個階段的主要研究方向: (1) 資料前處理(Pre-processing) 在資料前處理階段,主要研究方向又可細分數個研究內容,如語音偵測、語 者辨識、語音辨識或是移除口語對話所產生的負面影響等。然而相較其他語 音研究,最主要的不同點在於如何選定摘錄式摘要的摘錄單位,通常是語句 或者更大的單位像是段落或章節等。但如同前面所述,語音文件通常沒有正 確的結構資訊。因此,如何定義出語音文件中摘要單位的邊界,便是從事語 音文件摘要一大挑戰。因為邊界定義的好壞,可能會直接影響到摘要結果的 閱讀品質或語音播放流暢度。目前常見的作法有使用語音訊號停頓(Pause) 資訊來做為摘要單位切割的參考依據;在藉由訂定閥值(Threshold)後,可在 當語音停頓時間超過該閥值時標示為一個可能摘要單位的邊界。此外,亦有 學者利用語言模型(Language Model)與韻律模型(Prosodic Model)等所計算出 的 特 徵 值 , 結 合 分 類 器 像 是 隱 藏 式 馬 可 夫 模 型 (HMM) 、 最 大 熵 值 法 (Maximum Entropy, ME)或條件隨機場域(CRF)等進行邊界偵測[Liu et al. 2006];近年來更有研究學者使用調片語(Intonational Phrase)資訊來進行摘要 單位切割[Hirschberg 2002]。 (2) 特徵分析與擷取(Features Analysis and Extraction) 因為監督式摘要模型往往需使用一組事先已定義好的特徵來描述每一語句 6.

(19) 或摘要單位。例如,每一語句可以使用 L 個維度的特徵向量來表示。在過 去幾年,文獻上已經有許多的不同性質的特徵被成功地發展並應用於語音 文件摘要,這其中最為被廣泛地使用的特徵大致上可歸納成下列四類[Lin et al. 2009; Gally 2006; Zhang et al. 2007; Penn and Zhu 2008]: (i) 語彙特徵(Lexical Features):類專有名詞(Named Entities)個數、停用 詞個數、實詞個數、語言模型分數、詞頻、反文件頻(Inverse Document Frequency, IDF)、詞性標記(Part-of-speech, POS)等。 (ii) 聲學特徵(Acoustic Features):包括了像音強(Power)、音高(Pitch)、 共振峰(Formant),或者語彙及語句發聲的持續時間(Duration)、說話 速率(Speaking Rate)、語音辨識結果的信心度分數(Confidence Score) 等。 (iii) 相關度特徵(Relevance Features):通常是來自於不同的非監督式模 型所產生之摘要特徵,如語句與文件在向量空間的相近程度 (Similarity)、語句間所形成的向心性(Centrality)[Mihalcea and Tarau 2004; Erkan and Radev 2004]、語句所建立的語言模型生成文件之機 率[Chen et al. 2009; Lin et al. 2009]等。 (iv) 結構特徵(Structural Features):語句長度(Length)、語句位置(Position)、 語者角色(Speaker Role)、轉換點(Turn)、段落類型(Segmentation Type) 等。 (3) 摘要模型(Summarization Model) 在語音文件摘要模型的研究上,除了有研究直接採用與傳統自動文字文件 摘要相同的方法以外,亦有許多研究嘗試建立新的摘要模型,期望能更適 用於語音文件摘要。例如:利用線性組合來彙整不同的特徵分數,以求算 每一語句的重要性,其中的特徵分數包括詞的語言學分數(Linguistic Score)、 重要性分數(Significance Score)及語音辨識結果的信心度分數(Confidence Score)、及語意相依度分數(Semantic Dependency Score)等[Furui et al. 2004; Wu et al. 2007];或是直接以語音訊號的頻譜特徵向量來做為觀測向量 7.

(20) (Observation Vectors)而沒有使用任何語彙特徵,以避免受到辨識錯誤的影響 [Maskey and Hirschberg 2006];亦有研究使用語音辨識所產生的 N-最佳序列 (N-Best List)或是詞圖(Word Lattice)等多重轉寫結果來降低辨識錯誤的影響 [Lin and Chen 2009];或是使用翻譯模型(Translation Model)移除語音文件中 口語不流暢性(Disfluency)問題[Maskey et al. 2006]。此外,值得一提的是, 語音文件的摘要語句常含有多餘或較不重要的語彙(如綴詞、語助詞等)、以 及語音文件辨識錯誤所產生的不正確語彙,使得基於語音辨識所產生的文 字轉寫而獲得的摘要內容往往不夠精簡或者包含雜訊。因此,也有學者進 一步提出摘要語句簡化與壓縮的方法[Furui et al. 2004; Wu et al. 2007; Knight and Marcu 2000; Galley and McKeown 2007; Liu and Liu 2009],以產 生更具品質的摘要內容。 (4) 資料後處理(Post-processing) 語音文件的摘要內容可以是語音辨識產生的文字轉寫或原始語音訊號來呈 現。但如同本文前面所敘述的,語音辨識可能會產生錯誤的轉寫文字,若 直接使用轉寫文字做為摘要的呈現方式,不僅語者的語調與情感等資訊會 遺失,同時也會因語音辨識錯誤的影響而傳遞錯誤的語意或主題資訊。於 是,另外一種作法便是直接由原始語音檔案中根據自動摘要結果切割出相 對應的語音訊號內容,串接而成為輸出的摘要,其優點是保留了原始語音 檔案中的語者、語調、情感等資訊,並且不會包含有辨識錯誤資訊,但缺 點是有時語音段落的串接部分會有不流暢的情形發生[Furui et al. 2004; Wu et al. 2007]。. 1.4 研究內容與貢獻 本論文研究摘錄式語音文件摘要(Extractive Spoken Document Summarization),嘗 試根據事先所定義好的摘要比例從一篇語音文件中選取重要的語句組合成摘要 以代表原始文件。因此,我們將摘錄式語音文件摘要視為一種語句排序(Sentence Ranking)的問題,使用語言模型(Language Modeling)架構結合庫爾貝克-萊伯勒差 8.

(21) 異量(Kullback-Leibler Divergence)來進行重要語句選取。語言模型架構結合庫爾貝 克-萊伯勒差異量過去在資訊檢索領域已被廣為探討與使用;本論文延伸此一方法 於摘錄式語音文件摘要研究,主要貢獻有三。首先,基於所謂關聯性(Relevance) 的概念,我們探索新穎的語句模型(Sentence Model)估測技術。透過不同層次(例 如詞或音節)索引單位的使用而所建立的語句模型能與文件模型(Document Model) 進行比對,來估算候選摘要語句與語音文件的相關性,以此做為候選摘要語句的 依據。再者,我們不僅使用了語音文件中所含有語彙資訊(Lexical Information), 也使用了語音文件中所含隱含的主題(Topical Information)資訊來建立各種語句模 型。最後,為了改善關聯模型(Relevance Modeling)需要初次檢索的問題,本論文 提出了詞關聯模型(Word Relevance Modeling)。語音文件摘要實驗是在中文廣播新 聞上進行;相較於其它非監督式摘要方法,本論文所提出摘要方法似乎能有一定 的效能提升。而本論文音節索引單位的使用,以成對音節(Syllable Pair)當作是辭 典中的一個基本單位。成對音節的使用所建立的語句模型與文件模型進行比對, 來估算候選摘要語句與語音文件的關係,進一步來說,音節索引單位的使用希望 能改善以詞為單位的摘要結果,進而減緩因為語音辨識錯誤所造成的問題。. 1.5 論文架構 本論文的內容安排如下: 第二章:回顧當前主要的文件摘要方法與相關研究。 第三章:說明如何使用語言模型架構結合庫爾貝克-萊伯勒差異量進行語音文件, 以及本論文所提出的一些改進方法。 第四章:實驗語料與實驗環境設定。 第五章:實驗結果、分析與討論。 第六章:本論文之結論與未來研究方向。 第七章:參考文獻。 9.

(22) 2. 文獻回顧 本論文在第一章將近十幾年來的摘錄式文件摘要方法概略地區分為(1)以簡單語 彙與結構特徵為基礎之摘要方法,和(2)以機器學習為基礎之摘要方法二大類;其 中以機器學習為基礎之摘要方法依據摘要模型的訓練方式又可進一步為監督式 與非監督式兩類。本章將就近幾年所發展出的摘錄式文件摘要方法作簡要文獻回 顧。. 2.1 以簡單語彙與結構特徵為基礎之摘要方法 最早期摘錄式摘要(Extractive Summarization)的方法是由 Luhn 在 1958 年建議採用 詞頻(Term Frequency, TF)來顯示在各個語彙所出現的語句之重要性[Luhn 1958]。 但是定詞、代名詞和助動詞等詞性的詞,實際上都不能描述文件真正的內容,我 們稱之為虛詞(Function Word)。作者建議利用虛詞集來忽略沒有代表性詞的影響, 但仍會有些不具備描述文件內容能力的詞,因不存在虛詞集而影響了對語句重要 性的判斷,我們稱之為稱為普遍詞(Common Word)。為了解決上述的缺點,Luhn 額外使用反語句頻率(Inverse Sentence Frequency, ISF),詞頻-反語句頻(TF-ISF)特 徵是考慮語彙在文件中不同語句出現的分布情況,並降低普遍詞對語句的重要性。 此外,語彙進行詞幹分析(Stemming)將其還原成原型詞根(Root Form)也是一個很 重要的步驟。 在 1958 年,Baxendale 強調語句在文件中的位置資訊(Positional Information) 可以做為文件找重要語句選取的依據[Baxendale 1958]。作者觀察發現在文件中有 85%具主題性的語句常常落在第一句,和 7%的重要內容都會在文件最後一個段落, 這個資訊是進行文件摘要時重要語句選取的關鍵線索之一。 在 1969 年,Edmundson 除了使用詞頻和語句在文件中的位置特徵之外,在 估測摘錄摘要時,作者也考慮結構性的特徵(Structural Features)[Edmundson 1969], 通常線索詞特徵(Cue Word Features)能表達出詞的重要性,適當地使用詞在文件中 10.

(23) 的影響性,讓詞與語句之間形成一種有關聯的訊息,也觀察語句是否為文件精華 骨幹的特徵(Skeleton Features),此特徵是語句是否成為摘要的因素之一,例如: 介紹、標題、主旨和結論等都是文件中結構性的特徵。將標題關鍵詞(Title Keyword) 賦予高的權重值,而被摘錄成摘要的語句能夠傳達給讀者文件的內容,因語句都 有它最偏好的位置,在研究中詞頻特徵的結果較為不顯著,反而是使用位置、線 索詞和精華骨幹特徵在實驗中會有最佳的結果。 在 1970 年,Earl 假設文件摘錄有代表性的語句都跟句法結構有關係,文件中 的詞使用部分語音特徵(Parts of Speech Features, POS)[Earl 1970],此特徵能分辨有 價值性的語句,目的是從語句中提供詞是屬於哪種詞性,讓每個語句都以部分語 音特徵的方式呈現。作者也嘗試與 Luhn 提出的統計式準則(Statistical Criteria)做 結合,文件摘錄語句或索引片語(Index Phrase)時,實驗結果會有不錯的效能。 在 1990 年,Paice 提出的文件段落特徵(Paragraph Features),作者認為此特徵 與相關位置特徵有點關係[Paice 1990],每篇文件都是由許多標記片語所組成,雖 然他們獨自使用此特徵的效果不佳,但是在其他任務上似乎是有用的資訊。 在 1995 年,Kupiec 介紹兩個特徵[Kupiec 1995],大寫字母特徵(Uppercase Word Features)代表重要的代名詞,被摘錄文件都會事先限制哪些大寫主題詞不會 出現在語句的開頭,但是它擁有大寫字母的特徵。例如:Kg, Cm 等。縮寫、語句 切除長度特徵(Acronyms, Sentence Length Cut-Off Features)是很短的語句較不傾 向當作摘要,因為摘要通常都會考慮到長的語句。 在 2003 年,Maskey 提出結構資訊(Structural Features)[Maskey and Hirschberg 2003],結構資訊包含了語句位置(Sentence Position)、語句長度(Sentence Length) 和語者對語音文件的貢獻程度(Confidence Measure),這些資訊作為語句的特徵 值。 在 2004 年 , 對 摘 錄 式 語 音 文 件 摘 要 , Inoue 使 用 聲 韻 特 徵 (Prosodic Features)[Inoue et al. 2004]做為重要語句選取的依據,其中聲學資訊是透過語音辨 識所產生,而韻律資訊包含了發聲者聲帶振動的頻率(Fundamental Frequency, F0)、 11.

(24) 音素持續時間(Duration)和音素強度(Energy)等。 在 2007 年,Zhang 提出了修辭特徵(Rhetorical Features)[Zhang et al. 2007; Zhang et al. 2010],修辭特徵是利用自然語言技術對文件結構進行剖析,修辭單元 是以文件段落為代表,但是語音摘要因語音辨識的關係通常缺乏容易辨別的結構, 如:標題、語句、段落邊界透過標點符號和字體形式來解析潛藏語意的訊息,上 述的資訊不僅可以透過語音訊號獲得,如:聽覺、韻律和音素特徵,也可以幫助 讀者閱讀。 在 2008 年,Ko 使用了文脈特徵(Contextual Features)並且結合統計式的方法 來選取顯著的語句當作摘要[Ko and Seo 2008],在統計方法中採用標題特徵(Title Features)、位置特徵、詞頻特徵以及整合相似度(Aggregation Similarity)的方法。 作者透過文脈特徵搜尋最能代表文件二連詞之虛擬語句,將二連詞虛擬語句再分 離成單一的語句最後成為摘要,作者認為此概念在單一和多文件摘要都能夠提升 效能。 在 2011 年,Lin 使用語言模型來建立摘要架構,在語音文件與語句中探索關 聯特徵(Relevance Features)和主題特徵(Topical Features)[Lin et al. 2011],實驗中顯 示這些資訊具有實用性的,因為關聯和主題特徵對語音摘要是有幫助的。 以下本論文依機器學習為基礎之摘要方法二大類,再細分監督式或非監督式 機器學習摘要方法摘要方法。. 2.2 監督式機器學習摘要方法 監督式(或半監督式)學習摘要方法通常需要有人工事先標記過的語料庫供模型訓 練使用,亦即會使用到一組訓練文件集以及其中每篇訓練文件的每一語句是否屬 於摘要語句(Summary Sentence)的資訊來做為模型訓練之基礎。常見的方法扼要說 明如下:在 1995 年,Kupiec 提出了貝氏分類法(Bayesian Classifier, BC)[Kupiec 1995],假設文件中的語句彼此之間是獨立的,語句使用下列特徵來描述,例如是 12.

(25) 縮寫詞個數、語句長度特徵和大寫字母等特徵。貝氏分類法將文件中語句分類成 摘要與非摘要兩類,可依據語句屬於摘要類的機率高低來進行重要語句選取。 在 2001 年,Conroy 提出了隱藏式馬可夫模型(Hidden Markov Model, HMM)[Conroy and Leary 2001],模型中有摘要狀態與非摘要狀態,並且假設語句 之間是存在有相依性。依據語句是摘要狀態的事後機率高低來進行重要語句選 取。 在 2001 年,Kolcz 提出了支持向量機(Support Vector Machine, SVM)[Kolcz et al. 2001],支持向量機屬於一種分類問題,可以將訓練語料分類成有正面和負面 的樣本,作者希望找出一個最佳的函式來確保正負兩面的最大邊際。 在 2001 年,Ferrier 提出了最大熵法則(Maximum Entropy, ME)[Ferrier 2001], 定義熵是衡量信息的內容或不確定性的結果。在特徵選擇的限制下,當模型分布 是均勻的,摘要結果會得到熵值越大。 在 2006 年,Gally 提出了條件隨機場域(Conditional Random Field, CRF)[Gally 2006],作者觀察詞序列和標記詞序列是否成對出現在摘要集合中來訓練模型的。 在 2009 年,Fattah 提出了高斯混合模型(Gaussian Mixture Model, GMM)[Fattah and Ren 2009],作者給標記的詞序列一個條件機率,並觀察此序列詞的高斯分布 後,藉由期望值最大化演算法的使用來估測模型參數。 在 2010 年,Lin 提出了調適排序(AdaRank)[Lin et al. 2010],因訓練語料不平 衡的問題,有時會影響摘要方法的效能,或增進分類正確率但訓練的摘要方法並 不見得擁有較好的摘要結果。作者探討不同訓練準則的摘要方法,此方法可以減 輕上述問題所造成的負面影響並且提高摘要的效能。 在 2010 年,Xie 使用了協同訓練(Co-Training)屬於是一種半監督式學習方法 分類法[Xie et al. 2010],此方法是使用大量地未標記的文件語料,和少量有用的 韻律特徵(Prosodic)和聽覺特徵(Acoustic)的標記資料,作者希望運用協同訓練 (Co-Training)來影響未標記的資料。 在 2010 年,Celikyilmaz 使用了鑑別式模型(Discriminative Model)[Celikyilmaz 13.

(26) and Hakkani-Tur 2010],被摘要文件在分群後,語句獲得是摘要、不是摘要的主題 分布,作者採用摘要的主題機率當作是可能輸出的變異量建立一個鑑別式模型。 在 2012 年,Lo 提出了最大關聯估測法(Maximum Relevance Estimation, MRE) 和排序最小損失估測法(Minimum Ranking Loss Estimation, MRLE)[Lo et al. 2012], 在語句排序時能達到最小的貝氏期望風險,會有上述兩種不同的損失函數定義, 兩種方法是以最小化語音摘要損失函數為模型的訓練目標。 在 2012 年,Sipos 在監督式摘要使用機器學習提供的反覆貪婪演算法來訓練 次模函數(Submodular Function)[Sipos et al. 2012],實驗顯示以語句成對的次模函 數和以詞覆蓋的次模函數都是有效的。. 2.3 非監督式機器學習摘要方法 非監督式學習摘要僅使用被摘要文件中的特徵去選擇重要語句,比較不會受限於 訓練語句的問題,在摘要文件上依照統計式測量的方式可概略地區分為三種不同 型態的方法。 (1) 線性代數模型是把文件與語句各別視為一個向量,利用餘弦(Cosine)的相似度 來計算文件與語句之間的關係。 在 1998 年,Carbonell 提出簡單又有效率之最大邊際關聯(Maximal Marginal Relevance, MMR)[Carbonell and Goldstein 1998],將文件切成段落(Passage),希望 段落與段落之間的關係越大越好,並和已被選擇的段落關係越小越好,兩種資訊 做 線 性 結 合 會 取 得 最 佳 化 的 段 落 , 這 種 方 法 是 一 種 最 大 化 關 聯 (Maximize Relevance)最小化重複(Minimize Redundancy)的策略。在適當的摘要比率,將重要 的段落選擇成為摘要,而摘要的選擇方式是經由一次又一次重複計算的過程求得 所形成的,且保持摘要語句之間的關聯性,直到摘要總合長度滿足摘要比例的長 度限制,到目前為止最大邊際關聯的方法已經被廣泛的使用在摘要研究上。 14.

(27) 在 2001 年,Gong 提出向量空間模型(Vector Space Model, VSM)和潛藏語意分 析(Latent Semantic Analysis, LSA)[Gong and Liu, 2001],向量空間模型文件和語句 各別視為一組向量,每維的權重值是使用只使用到語彙的資訊(Literal Information), 而 潛 藏 語 意 分 析 是 在 文 件 和 語 句 中 的 詞 都 擁 有 豐 富 的 潛 藏 語 意 資 訊 (Topic Information)。 在 2009 年,Lee 提出了非負矩陣分解(Non-Negative Matrix Factorization, NMF)[Lee et al. 2009],上述介紹的潛藏語意分析語句得到的分數結果會有負值, 因此,作者提出非負矩陣分解的架構,在選擇語句時更有意義,語句所得到的值 都是大於等於零的。 (2)把文件與語句各別視為一個機率模型來估計語句與文件的關係 文件和語句使用統計式的形式來代表,這種方式將詞在文件或語句分別獲得不同 機率,在 2000 年,Boguraev 基於單連模型的生成機率,語句的分數使用了統計 式語彙連結(Lexical Cohesion)的方式估計[Boguraev and Neff, 2000],此方法強調 相同的語彙並偵查文件主題的變化性。因此,語彙連結重視於詞與詞之間的關係, 且也能偵測文件是否有語音辨識錯誤的問題。語音辨識的結果往往會造成在前後 文之間沒有語意性的狀況,此方法也不適用於不同音同義詞和主題性的片段。 在 2006 年,Kong 使用了機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)在摘要任務上[Kong and Lee, 2006],摘錄關鍵詞是經由語意降維 的方式求得詞在被摘要文件中的重要性,作者也用了詞亂度(Term Entropy)選出重 要的詞,亂度越低的詞有比較重要的潛藏主題。 在 2008 年,Gillick 提出了整數線性規劃(Integer Linear Programming, ILP)模 型[Gillick et al. 2008, 2009],在提供很多決策和限制摘要長度的條件下,使用動態 規劃法演算法(Dynamic Programming)尋找最佳解。作者使用 N 連詞資訊能夠代表 某種概念,並移除一些雜訊後,摘要選取的詞比較有意義。 在 2009 年,Xie 希望詞本身所包含的概念越少越好,而詞在語句中也能夠包 15.

(28) 含較多的語意概念[Xie et al. 2009],所以在挑選詞時不僅只考慮到詞概念的權重, 也需要考慮到這個詞在語句的權重,在這樣的調適下會比傳統的整數線性規劃效 能佳。 在 2009 年,Lin 透過機率式潛藏語意分析來估計摘要[Lin et al. 2009],作者 利用文件中存在的詞來估測單連在潛藏主題分布特徵,詞在潛藏主題上的機率. Pwi | Tk  與這個語句在潛藏主題之特殊權重 PTk | S m ,所產生的主題式模型還需 要平滑化語句模型和背景模型,實驗的摘要結果會比最大邊際關聯、整數線性規 劃佳。 在 2010 年,Lin 提出最小貝氏風險(Minimum Bayes Risk Aware)模型[Lin et al. 2010],基本上,作者使用反覆貪婪演算法來選取與文件最相似的語句 Si ,此語句 獲得的分數是最大的,換句話說,等價於這個語句 Si 以外剩餘還沒選的語句 S j 總 和分數是最小的,透過最小風險函式是希望已經選的語句都能跟未選的語句彼此 之間越不像越好。 在 2011 年,Lin 使用的詞主題模型(Word Topic Model, WTM)[Lin et al. 2011], 對每個詞 M j 建立的一篇詞虛擬文件,作者認為詞與詞之間相鄰的資訊是有意義 的,因此,詞虛擬文件是將這些資訊蒐集而成的文件,在建立詞主題模型過程中, 將詞虛擬文件 M j 做分群的動作 後。每個詞 wi 會得到 在潛藏 主題上的機率. Pwi | Tk  ,以及詞虛擬文件 M j 中每個潛藏主題的權重機率 PTk | M j  。. (3)圖形模型使用餘弦相似度法來觀察語句彼此之間的關係,文件以圖形為基礎 (Graph Based)來排序語句方法,並不斷地透過遞迴地尋找最佳的語句來代表文件 的涵義,而文件中的語句是代表圖形中的節點,而節點與節點形成的節線是語句 和語句之間的相似程度(Inter-Sentence Similarity, ISS)關係。 早期 Google 在搜尋有龐大的資料時,無法讓使用者第一時間找到重點,在 16.

(29) 1998 年 Brin 提出頁排序演算法(PageRank)無向的圖形演算法[Brin and Page, 1998], Google 設計有效的索引,並經由這個演算法技術讓人們得到滿意的結果,能快速 地讓讀者檢索到想要知道的資訊,而且此技術成功地使用在網際網路上。 在 2004 年,Erkan 基於圖形排序語句之方法[Erkan and Radev, 2004],語彙特 徵 排 序 (LexRank) 是 以 分 支 度 為 基礎 (Degree-based) 的 圖 形 演 算 法 , 轉 換 矩 陣 (Transition Matrix)是語句彼此之間的餘弦估測法(Cosine Measure)相似度,此數值 來代表節線的分數,並進一步採用二元權重預設一個門檻值,此餘弦估測分數大 於門檻值時等於一,反之等於零。 在 2004 年,Mihalcea 提出文件排序(TextRank)的圖形演算法[Mihalcea et al., 2004],一開始在圖形上給予節點不同的初始值,這裡的語句與語句的關係可以分 為無向或有向的結線,前者結線的相似度是以內、外分支度(In, Out-Degree)的個 數為主;而後者會給節線一個特殊的權重值,都是經由重複計算圖形演算法,直 到達到收斂的門檻值,摘錄的方式可以分為關鍵詞摘錄和語句摘錄。 在 2008 年,Wan 建立了馬可夫隨機漫步(Markov Random Walk, MRW)模型 [Wan and Yang, 2008],由於節線是有方向性的,因此,在圖形模型中會考慮語句 彼此之間的關係,此語句會針對與有節線相連的語句,將相似度權重做一次正規 化,不像無向的節線相對的相似度都是一樣的。在計算重要語句時,除了使用其 他語句的分數外,還考慮到語句彼此之間的相似度當作權重來調整,並使用遞迴 地線性組合的方法計算來求得重要語句的分數。作者也把語句作分群的動作,在 計算節線與節線的權重時,還多考慮語句和潛藏主題彼此之間的重要性。 在 2008 年,不像上述是考慮語句與語句之間的關係,作者進一步研究,Wan 尋找被摘要文件最關聯的 N 篇文件,在這 N 篇文件中考慮詞與詞之間的關係,進 而突顯出詞的重要性,摘錄摘要時以語句中出現的關鍵詞為出發點,利用詞的覆 蓋程度,把詞的權重加起來代表語句[Wan and Xiao, 2008]。 在 2009 年,Garg 提出了分群排序(ClusterRank)[Garg et al. 2009],把語句當 作節點,首先判斷文件中語句和語句彼此之間的相似程度,基於詞的重複性,將 17.

(30) 相似度高的語句分在同一群。這時節點是以群為單位,節線是群和群之間的相似 程度關係,接下來運用到 PageRank 之分數來估計每一群的分數,並使用反語句 頻表示為詞在每群的權重,而排序語句的分數是可慮群與語句的相似度。 在 2009 年,Lin 提出最大化次模函數[Lin et al. 2009],此圖形的節線是無方 向性,且相似度是由語句彼此之間的關係所得,在摘要長度的限制下,作者利用 最大化次模函數配合反覆貪婪演算法(Iterated Greedy Algorithm)來選取語句,最後 摘要所獲得的語句都能保證可以近似最佳解。 在 2011 年,Chen 已經在馬可夫隨機漫步上提供了主題性的資訊[Chen et al. 2011],跟傳統的馬可夫隨機漫步有點不一樣,不同的地方是作者利用機率式潛藏 語意分析降維的方式,將語句彼此之間的相似度加入了主題資訊,和語句中每個 潛藏主題的權重,作者利用以上兩種訊息來強調語句在文件中的重要性。 在 2012 年 Harwath 將語彙特徵排序給予主題上的資訊[Harwath and Hazen, 2012],每個語句都使用一個資訊框(Frame),這一個資訊框是以第一個詞為主, 然後再每次轉移(Shift)一、二、三等不同距離詞的視窗(Window),則資訊框可表 示為 F  w1 , w2 ,w3 , w1 , w3 ,w5 , w1 , w4 ,w7 ,但是作者刪除了幾乎一半的沒有意義 的資訊框,在潛藏主題上將資訊框的詞給予一個機率分布,且與詞在文件上的分 布做餘弦相似度,利用其分數當作重要的摘錄關鍵字,並選出較關聯的十個詞來 代表文件。 到目前為止,文字摘要發展已經有五十年之久了,確實文字摘要技術已經相 當的成熟,也被廣泛地處理語音摘要,但是經由語音辨識過後產生的語音資訊面 臨了文字摘要未遭遇的挑戰[Liu and Hakkani-Tur, 2011],接下來我們將描述語音 摘要遇到的問題。 (1) 自動語音辨識錯誤(Automatic Speech Recognition Error) 自動語音辨識系統會使語音摘要降低效能,因為使用者會有重音、重複的語音和 18.

(31) 噪音的狀況下,辨識器會產生不正確或遺失正確的內容,不會影響到語言模型處 理的過程,而是會對摘要結果有負面的影響性,因為辨識器會產生辭典外詞(Out of Vocabulary, OOV)的問題。摘要技術上僅使用語彙特徵時,語句總是依賴詞的正 確性,以詞頻為觀點是考慮詞在語句中的頻率,而詞的正確性和頻率會在不正確 的語音辨識下會改變文件中重要的內容,所以在語音摘要中詞錯誤率(Word Error Rate, WER)變成一個很嚴重的情況下,文件會造成不正確的語句和降低摘要的效 能。 (2) 語者轉動(Speaker Turn) 語音文件是經由語音辨識後所翻譯的文件,在語音摘要中,發聲者的語調可以帶 來重要的資訊,如果語調邊際(Turn Boundary)和語者都沒顯示時,系統在讀取或 自動翻譯的過程中是非常困難的。自動語者分類(Speaker Diarization)是將聽覺輸 入處理分成多個同種類的片段,藉由語音辨識系統的使用,自動轉錄過後可以增 進讀性。自動語者分類可分為語者片段(Speaker Segmentation)和語者聚集(Speaker Clustering)有兩個種目標,前者、在聽覺流可以找出語者不同的特點;後者、將 語者特徵結合聚集在一起。 (3) 語句邊界(Sentence Boundary) 語音辨識是基於聲學片段(Acoustic Segment)來產生輸出,輸出時文件會存在著不 正確的語句,估計摘要時並不適合拿不重要的語句來做語言處理模型(Language Processing Model);相反地,摘要總是期待拿適當的語言片段。然而,語音摘要 都缺乏適當的語句邊界,例如:語句的長度經常當作摘要的線索,由於不正確的 語句片段結果會產生錯誤訊息,此資訊會影響語句的長度和摘要結果。 自動語音辨識(Automatic Speech Recognition, ASR)的輸出片段當作是摘要的 輸入單元,對摘要系統而言會降低精確度(Precision)和損害召回率(Recall)。精確 度是參考摘要與系統選擇摘要的詞匹配度,詞匹配度是占系統語句的正確比例。 19.

(32) 召回率是參考摘要與系統選擇摘要的詞匹配度,詞匹配度是占人們選擇到的語句 比例。 (4) 不流暢與沒有文法的語調(Disfluency and Ungrammatical Utterances) 語音摘要普遍都是不流暢的語調,像停頓(Pause)、演講標記(Discourse Marker)、 重 複 (Repetition) 、 補 救 (Repair) 、 修 正 (Correction) 和 不 正 確 的 語 句 (Incomplete Sentence),自動語音辨識器輸出錯誤,此問題使被轉寫文件造成語句不順暢的問 題,也改變正確語句的詞頻,例如:重複字,語句長度資訊和句法分析(Syntactic Analysis)的困難度。在語言處理的過程中必須尋找出一個方法可以解決語句不流 暢性,並將他們刪除掉,或是提供一些乾淨的語調給語言處理模型使用。 (5) 型態與結構資訊(Style and Structural Information)在文字和語音的不同 在語音摘要上會有很多型態的結構資訊,例如:在廣告開始的時候,會有音樂和 螢幕的改變,所以將聽覺和視覺當作是一種片段的線索。 在特徵方面上,文字摘要使用的特徵不能推廣到語音摘要。例如:位置的特 徵在文字摘要中是很重要的資訊,文件的第一行往往提供好的資訊去當作摘要; 但不是每一篇語音摘要都適用。主題性的特徵在文字文件中,其內容可以呈現出 某種意涵來代表整篇文件;但語音辨識的影響,讓語音文件中可能包含一些錯誤 的資訊,有偏離文字文件的現象,使得語音文件描述內容有所落差。 語音資料可能包含很多位語者,藉由語者的改變可以提供談話結構的資訊, 而每位語者也有不同的發音型態,例如:冗詞(Verbosity)、詞的使用(Word Usage) 和韻律特徵(Prosodic Characteristics)。在同一時間有多位語者,在對話語音談話中 有語者重複的現象,如何改變一位語者發聲的重疊範圍是很重要的。此情況是降 低語音辨識精確度的因素之一,包括字錯誤率,如何改變一位語者發聲的重疊範 當摘要呈現給使用者變成一個嚴重的問題,例如:當同一時間摘錄多個語者時, 去偵測哪一位語者擁有的重要資訊是很困難的。 20.

(33) 語音摘要提供了翻譯轉寫時會遺失掉的資訊,例如:聲覺特徵(Acoustic Features)、聲韻特徵(Prosodic Features)等,語者會強調語彙和語句的頻率、音素 時間和音素強度等,因此,我們可以很容易瞭解多媒體內涵的主旨與概念。. 21.

(34) 3. 基於語言模型之摘要方法與改進 本論文在第二章將摘錄式文件摘要方法作簡單的回顧後,本章針對非監督式摘要 方法中的語言模型進一步研究,其優點是比較不受限於訓練語料的問題,過去幾 年,語言模型在資訊檢索任務中已被廣泛地應用,因此,藉由語音模型的使用來 進行重要語句選取的方法 主要可分為兩種,第一、 語句來生成文 件的機 率 (Document Likelihood Measure),第二、庫爾貝克-萊伯勒差異量(Kullback-Leibler Divergence Measure, KL),而被摘要文件中的語句中的詞越少,辨識錯誤越多,所 以語句長度有限與內容簡短等資料量不足的問題,使得在估計語句模型時,讓語 句可能無法確切地表示詞在語句中真正的機率分佈,將造成語句的機率分佈估測 不佳的結果。我們希望能找到和語句相似的機率分佈,作為語句模型的調適參考, 因此,本論文基於庫爾貝克-萊伯勒差異量選取重要語句的方法希望可以增加有影 響性的關聯線索(Relevance Cue)來改善語句模型,以提升在語句中的機率分佈的 準確性。. 3.1 單連語言模型 我們可以把語音摘要任務假設成資訊檢索的問題,一般來說,資訊檢索的查詢希 望尋找到較關聯的語音文件來回應給查詢;相較於語音摘要的方法,被摘要文件 可以當作是查詢(資訊需求 Information Need),文件中的語句視為候選資訊單元 (Candidate Information Unit),因此,與文件較為關聯的語句有很大的機會成為摘 要來代表原始文件主旨或主題,下面將介紹語句模型如何以機率估測的方式呈 現。 當語句 S 給予文件 D 時,藉由語句 S 排序的事後機率 PS | D  可以突顯語句 S 在文件 D 中重要性。但是 PS | D  這樣的計算過程會造成語句的長度越長所得. 到的機率越小,因此,我們使用貝氏定理(Bayes Theorem)將 PS | D  公式展開, 則語句 S 排序列表的公式如下(式 3-1)[Chen et al. 2009]: 22.

參考文獻

相關文件

Understanding the China–US trade war: causes, economic impact, and the worst-case scenario... Remarks by President Trump and Vice Premier Liu He of the People’s Republic of China

Source: Kleinman, Liu and Redding (2020) International friends and enemies: Modelling the evolution of trade relationships since 1970... 外國直接投資 (FDI) from HK

and Liu, S.J., “Quantifying Benefits of Knowledge Management System: A Case Study of an Engineering Consulting Firm,” Proceedings of International Symposium on Automation and

Partisan Orientation and Selective Exposure during Taiwan’s 2008 Presidential

Huan Liu and Dan Orban, “Cloud MapReduce: a MapReduce Implementation on top of a Cloud Operating System,” IEEE/ACM International Symposium on Cluster, Cloud and

Wen Ouyang, Yu-Ting Liu, Yu-Wei Lin[18]在 2009 年發表了論文-”Entropy-based Distributed Fault-tolerant Event Boundary Detection Algorithm in Wireless Sensor

Figure 1 Plot of missingness patterns of the original data against five copies of data with simulated missing at random mechanism on the imputed dataset.... to each other, nor do

Laboratory of Solid State Microstructures, Nanjing University Laboratory of Solid State Microstructures, Nanjing University International Center for Materials Physics, Institute