121
第6章 結論與未來展望
語言模型在許多自然語言處理的應用中扮演重要的角色,例如資訊檢索、機器翻 譯、語音辨識等。對於語音辨識來說,語言模型能夠輔助解決聲學上的混淆並且 使得辨識結果能夠符合語言樣式。N連詞模型是最被廣泛使用的模型,然而,N 連詞模型只能捕捉到短距離的詞彙資訊。除了詞彙資訊,自然語言中有許多資訊 可使用,如文法資訊、語意資訊等。本論文主要著重於不同語言資訊相關統計式 模型的建立。論文中介紹了過去學者所提出的模型,並概略地分成三類:詞相關 語言模型、詞類別相關語言模型及文件主題相關語言模型。除此之外,我們亦提 出了:
(1) 詞主題混合模型(Word Topical Mixture Model)
詞主題混合模型以詞為單位,使用機率架構建立詞之間的關係,類似於以文件(歷 史 詞 序 列) 為 模 型 單 位 的 機 率 式 潛 藏 語 意 分 析 (Probabilistic Latent Semantic Analysis, PLSA)模型。此外,詞主題混合模型將歷史詞序列視為一個由一些歷史 詞模型組成的複合式詞模型,捕捉歷史詞與預測詞這種長距離詞的關聯性,這類 似於觸發對語言模型(Trigger-based Language Model),然而觸發對語言模型沒有 明確的詞與詞主題分布。由實驗結果可以發現,詞主題混合模型的效果能夠比機 率式潛藏語意分析與觸發對語言模型來得好[Chiu and Chen 2007]。
(2) 位置相關語言模型(Position-Dependent Language Model)
首先呈現詞在文件或語句的位置資訊(Position Information),發現若對一群相同性 質的文件進行段落的切割,不同文件段落的詞分布會有其一致性。我們認為這是 一種文件樣式資訊。同樣地,在語句結構上也有類似的位置資訊。符合語言的文 法的情況下,某些功能詞可能出現在語句中的開頭或結尾等不同位置。我們嘗試 將位置資訊加到現有的模型,如 N 連詞模型、潛藏語意分析模型等等。由實驗結果發
122 現,位置資訊能夠提升語音辨識正確率。
除了語音辨識外,我們也將語言模型技術用於語音文件摘要。我們將摘錄式 語音文件摘要視為一個語句排名(Sentence-ranking)問題,可用一個以事後機率為 基礎的機率生成架構(Probabilistic Generative Framework)來解決。透過貝氏定理 轉換後,我們可分別建立語句生成模型與語句事前機率模型。語句生成模型,如 隱藏式馬可夫模型(Hidden Markov Model, HMM)或詞主題混合模型於過去已經 被提出使用[Chen et al. 2006b; Chen and Chen 2007]。本論文主要提出以整合語句 特徵的整句最大熵值(Whole Sentence Maximum Entropy, WSME)模型為語句事前 機率模型[Chen et al. 2007]。於語音文件摘要實驗中發現,透過整句最大熵值模 型整合額外的語言或語音資訊,的確能夠改善摘要正確率。
未來可以嘗試將本論文所提出的語言模型應用於非監督式語言模型調適 (Unsupervised Language Model Adaptation),或是針對模型及其特性作進一步的研 究,例如:
(1) 詞主題混合模型(Word Topical Mixture Model)
論文中的詞主題混合模型的模型單位僅考慮單連詞,未來可嘗試使用較強健的詞 彙資訊,例如將模型延伸從單連詞延伸至二連詞以上。由於辨識過程中的歷史詞 序列會有錯誤的詞資訊,我們初步採用指數遞減方式決定詞模型結合權重,然而 可能有更佳的決定方式,例如信心度分數或是鑑別式訓練等。此外,詞主題混合 模型採用最大化相似度(Maximum Likelihood, ML)訓練模型,可能會有過度訓練 的問題,我們可嘗試加入詞的事前機率分布,再採用貝氏學習方式,例如最大化 事後機率(Maximum a Posteriori, MAP)或是最大化邊際相似度訓練模型。
(2) 位置相關語言模型(Position-Dependent Language Model)
除了位置性潛藏語意分析(Positional PLSA)模型,亦可嘗試其他方式結合文件位 置資訊與文件主題資訊。例如混合主題式語言模型是將文件進行分群,位置性N 連詞模型則是將文件分割成不同段落,我們可以同時採用兩種不同的分割方式,
123
得到同時具有文件主題與文件樣式的語料,再透過最大相似度估測,或是最大熵 值法訓練語言模型。此外,對於語音辨識而言,完整文件的位置資訊更明確,所 以 我 們 可 以 嘗 試 對 N 最 佳 詞 序 列 (N-Best) 擷 取 位 置 特 徵 , 並 使 用 Boosting 、 Perceptron演算法等鑑別式訓練(Discriminative Training)[Gao et al. 2005],得到最 佳的特徵參數,再進行N最佳詞序列重計分(N-Best Rescoring)。此外,如何於語 音辨識過程中,正確地使用詞在語句位置的資訊,仍需要進一步研究。
(3) 機率生成架構(Probabilistic Generative Framework)
我們採用了整句最大熵值模型建立機率生成架構中的語句事前機率模型。而對於 語句而言,還有許多語句特徵可以使用,例如詞性標記(Part-of-Speech, POS)、剖 析樹(Parse Tree)等語言上的特徵,或是時間長度(Duration)、停頓(Break)等語音 上的特徵。
語言模型的研究仍有許多方向,例如如何正確且快速地透過搜尋引擎(Search Engine)得到檢索結果並應用於語言模型調適,或是偵測或加入新詞的詞典調適 (Lexicon Adaptation)以改善辨識結果等亦是熱門的研究主題之一。