• 沒有找到結果。

1.1. 研究背景與動機

隨著大數據時代的來臨,巨量且多元的資訊透過網際網路快速地在全球各地傳播,

資料內容的呈現方式已不侷限於傳統的紙本形式,包含語音及影像的多媒體資訊 逐漸取代靜態的文字資訊,如何有效率地多樣化形式的多媒體資訊,已成為一個 刻不容緩的研究課題。此外,在社會逐步行動化的情況下,人手一機已是常態,

且伴隨著科技不斷地創新,行動設備不再只能通話和傳遞文本訊息,多媒體訊息 如語音及影像等亦能完好地傳遞,更甚於我們能透過聲音及手勢等指令操作設備。

在眾多的研究方法中,自動摘要(Automatic summarization)被視為是一項關鍵的 技術,其在自然語言處理(Natural language processing, NLP)領域中一直都是熱 門的研究議題,因其具有能擷取文件重要資訊的特性,在許多應用上更是不可或 缺的一項技術,如問答系統(Question answering)、資訊檢索(Information retrieval)

等。另一方面,語音是多媒體文件中最具語意的主要成份之一,如何透過語音(文 件)摘要技術有效率地處理時序資料,更是顯得非常重要。其關鍵在於影音文件 往往長達數分鐘或數小時,使用者不易於瀏覽與查詢,而必須耗費許多時間閱讀 或聆聽整份文件,才能理解其內容,不符合人們想要快速地獲取資訊之目的。

對於含有語音訊號的多媒體資訊,我們可先經由自動語音辨識(Automatic speech recognition, ASR)技術將文件轉成易於瀏覽的文字內容,再透過文字文件摘要的 技術作處理,以達到摘要語音文件之目的。但因現階段的語音辨識技術仍存在辨 識錯誤的問題,也缺乏章節與標點符號,使得語句邊界定義模糊而失去文件的結 構資訊;此外,語音文件通常含有一些口語助詞、遲疑、重複等內容,進而使得 語音摘要技術的發展更為艱鉅。

1.2. 研究內容與成果

任務主要是分為兩階段,自動語音辨識(Automatic speech recognition, ASR)和自 動文件摘要(Automatic document summarization)。當我們得到一語音文件,自動 語音辨識系統會先對語音訊號進行特徵抽取,進而透過預先訓練完成之聲學模型

(Acoustic model)和語言模型(Language model)進行語音辨識得到其轉寫文件

(Transcription)。本論文中所使用的語音辨識系統,是採用國立臺灣師範大學資 訊工程學系研究所語音暨機器智能實驗室所發展之大詞彙語音辨識器(Large vocabulary continuous speech recognition system, LVCSR)[Chen et al., 2004; Chen et al., 2005] 進行自動語音辨識。

的資訊,因此在組成摘要時,文法上不會有太多錯誤及不易閱讀的情況發生。目 前的節錄式摘要方法大多是以資料驅動(Data-driven)方法為主。其中,又以深 度學習(Deep learning)方法發展出的序列對序列(Sequence-to-sequence)架構 [Bahdanau et al., 2015; Sutskever et al., 2014]在摘要任務上獲得較多學者的青睞。

節錄式摘要一般被視為一種序列標記(Sequence labeling)的問題,對文章中每個 語句作標記,標示出其是否為摘要後,將被標註為摘要的候選句依固定的摘要比 例組合成最後的摘要結果[Cheng and Lapata, 2016; Nallapati et al., 2017]。

然而現今的語音文件摘要系統仍有所不足,因其兩階段的特性,在語音辨識 的過程中,可能會因人類口語上的習慣而導致辨識上的困難,進而影響到摘要結 果的成效。以下列出幾項可能影響語音摘要結果的問題:

• 語句邊界定義模糊:在純文字文件中,我們可以很簡單地透過標點符號 和換行等等資訊判斷每個語句的邊界;然而在語音文件中,無法知道是 否有標點符號的存在,因而很難界定語句的邊界。在語音辨識任務,較 常見的方式是將語音中的「停頓」視為其邊界來斷句。過去亦有許多方 法被應用於判定語句邊界上,如隱式馬可夫模型(Hidden markov model, HMM)和條件隨機域(Conditional random field, CRF)[Liu et al., 2006],

但直到現今定義邊界仍是一個待解的問題。

詞彙辨識錯誤:由於語音文件摘要大多是先透過自動語音辨識將文件轉 寫成文字文本後,再經由文件摘要技術得到其摘要。因此自動轉寫文件 對於語音文件摘要任務是相當重要的,然而語音辨識系統有可能會發生 詞 彙 辨 識 錯 誤 , 常 見 的 有 插 入 錯 誤 (Insertion errors )、 代 換 錯 誤

(Substitution errors)和刪除錯誤(Deletion errors)。這些辨識錯誤都可 能使得文件中的結構和表面特徵(Surface features)如命名實體(Named entities)及詞性標記(POS taggings)等受到影響,甚至有可能偏離原本 的文件語意,影響摘要的成效。

口語助詞、遲疑或重複:人類在說話時,常常會因當時的情緒及習慣等 要素影響到其說話方式及內容,因此語音文件中可能會出現口語助詞、

停頓或重複的詞句,而這些多餘的資訊都可能影響到語音辨識系統的轉 寫。前人亦提出一些解決方案能夠將無關資訊過濾,如背景語言模型或 TF-IDF(Term frequency-inverse document frequency)等方法。然而如何 有效率地解決此困難,仍需更深入地探討。

除了上述這三項較為常見以外,仍有許多問題會影響到語音辨識的結果。此外,

文件規範化(Text normalization)和標註偏移(Label bias)等問題亦存在於語音

(文字)文件中[Liu and Hakkani-Tür, 2011]。

雖然語音辨識的錯誤對於語音文件摘要任務上會有一定的影響,其主要的影 響在於自動轉寫文件中的內文會與人工轉寫結果有差異,進而導致文件摘要系統 無法完全準確地理解文件含義,因此導致摘要成效不佳;此外,摘要的呈現亦是 一項重要的課題,如何呈現出易於閱讀的摘要,是文件摘要系統中必須學會的重 點。而一個好的摘要表達應該著重於以下四個要素:

資訊性(

Informativity

:摘要結果所包含原文件中的資訊程度,摘要應

盡可能涵蓋所有重要資訊。

文法性(

Grammaticality

:摘要中的語句應符合語言的文法,所得之摘

要才易於閱讀;若不符合文法,則會被視為關鍵詞擷取(Keyword Extraction)。此要素於重寫式摘要任務上較受關注。

• 連貫性(

Coherency

):此要素所指的是摘要中上下文間的連貫程度,若

前後句不存在連貫性,則會類似於畫重點的方式條列出重點,而非根據 文件主旨所生成之摘要。此要素於節錄式摘要任務上常被提及。

非重複性(

Non-Redundancy

:為了能簡化描述,應避免出現過多重複 的詞句或相似的資訊,若重複的資訊太多會影響使用者閱讀。

因此本論文主要會針對上述之資訊性及連貫性兩項要素討論,並嘗試以不同方法 避免受到語音辨識錯誤的影響。首先於摘要資訊性部分,本論文發展並改進一個 階層式類神經網路架構,其受益於摺積式類神經網路(Convolutional neural networks, CNNs)之語 言模 型應用 以及遞 迴 式類神經 網路( Recurrent neural networks, RNNs)於自然語言處理領域的優秀表現,使得我們能夠階段式(先語句 後全文)地閱讀文件並快速地理解語意;另外我們亦嘗試應用注意力機制

(Attention mechanism)更進一步提升模型對於文章的理解度,進而提升摘要資訊 性。其次對於摘要連貫性,由於節錄式摘要往往是挑選較符合摘要語句的結果,

因此其通常沒有根據語意進行排序,因此本論文亦嘗試將摘要語句的排序及摘要 評估指標應用於強化學習(Reinforcement learning, RL)輔助模型訓練。最後為了 避免語音辨識錯誤,我們在模型預測摘要的過程中參考語句的聲學特徵(Acoustic features)及次詞資訊(Subword information),其中前者包含原語音文件中的語音 特性,可改善兩階段語音文件摘要系統上,進行摘要時無法參考之原語音特性;

而後者則是為了改善前述之詞彙辨識錯誤,因辨識錯誤可能發生在詞彙中的部分 區塊,而導致斷詞時無法辨別正確的詞彙,若使用次詞資訊則可以使用周邊資訊 推測錯誤的部分其正確的語意。

1.3. 論文架構

本論文之章節安排如下所述:

第二章 回顧過去於文件摘要上具代表性的相關研究。包含文件摘要的歷史沿革、

應用類神經網路的各種摘要方法及文件摘要的評估方式。

第三章 闡述本論文所提出的方法架構。介紹本論文提出的階層式類神經網路架 構,同時亦會介紹針對不同面向(摘要資訊性、連貫性和避免語音辨識錯 誤)的假設及改良方法。

第四章 說明本論文的實驗設定與結果。包括實驗語料及實驗結果,並探討各種方 法的差異及與過去的研究之效能比較。

第五章 本論文之總結及未來發展方向。

相關文件