• 沒有找到結果。

在本論文中,我們提出了主題混合模型法來調適背景語言模型

N/A
N/A
Protected

Academic year: 2021

Share " 在本論文中,我們提出了主題混合模型法來調適背景語言模型"

Copied!
2
0
0

加載中.... (立即查看全文)

全文

(1)

85

第6章 結論與未來展望

在過去的三十年間,語言模型在自然語言相關的應用上一直扮演著重要的角色,

它被用來擷取自然語言中各式各樣的資訊,進而以量化的方式來決定一個詞序列 是否被接受,例如幫助解決語音辨識中聲學混淆的問題。然而,隨著自然語言的 演進,以早先搜集到的訓練語料所訓練的語言模型,漸漸地與要辨識的領域在詞 彙或語意上發生的不一致性(mismatch),而造成不佳的辨識效果,於是便需要 語言模型調適的技術。

語言模型調適的目的,是要從與辨識任務同時期或同領域的調適語料中擷取 相關的資訊,如前後文資訊、語意資訊和主題資訊等,將這些資訊加入原有的語 言模型中,使之對測試語料有更好的預測能力,進而達到較佳的辨識效果。

在本論文中,我們提出了主題混合模型法來調適背景語言模型。此方法原是 應用在資訊檢索中,其中,每一個文件被表示成一個混合模型,模型中定義了 K 個主題,各由一主題一連語言模型所表示,另外每一個文件對這 K 個主題都有 不同的權重,利用這兩個機率可以來計算查詢詞序列與此文件的檢索機率。今將 詞 w 視為只擁有一個詞的查詢,而其歷史詞序列 h 視為一個文件,便可以計算 它們之間的相關性,但因歷史詞序列會隨著辨識過程而改變,故需要動態地來計 算各主題在歷史詞序列上的權重。將此主題混合模型與背景語言模型結合便可達 到動態的語言模型調適。在實驗中,顯示了主題混合模型調適的效果,甚至比潛 藏語意分析來的有效,且在與其他方法結合的情況下,也達到相輔相成的辨識效 果。

另外,本論文對最大熵值法作了深入的探討。最大熵值法是一個以限制為基 礎來合併各種資訊來源的方法,在此方法下,每一個資訊來源會引起一群限制,

這些限制的交集代表了滿足所有限制的機率分佈的集合,這當中擁有最大熵值的 機率分佈便是此方法的解。本論文利用最大熵值法將一連、二連與三連語言模型

(2)

86

合併,利用 IIS 演算法來求得最佳的模型參數。實驗顯示,利用此方法所訓練出 來的模型,比用傳統最大相似度估測法所訓練的三連語言模型,在辨識字錯誤率 與語言模型複雜度上都有較好的表現。

在往後的研究中,將嘗試以最大熵值法來合併 N 連語言模型、主題分類模 型等更多樣的資訊,以期能有較佳的辨識效果。此外,語言模型調適的另外一個 議題是如何挑選適當的調適語料,就如同本論文 Set 2 所使用的調適語料,因為 與測試語料並非同時期的語料,所以在語意或主題資訊方面就沒有辦法有顯著的 效果。但是,如果透過調適語料的篩選技術,將真正與測試語料相關的語料留下 來,不相關的去除,再利用篩選下來的資料擷取資訊,如此一來,對語言模型調 適也會有相當的幫助。

參考文獻

相關文件

例如徐修憲學盟早就答應我寫一篇有關墨勒斯島上風

西班牙籍威爾斯裔藝術家 Rafael Evans 作品經常以在地歷史、神話、傳說中動物相 關的事蹟出發,探討殖民、性別議題。在本次展覽提案階段 Evans

Young 所提出的準則,不僅可以使用在報酬率為常態分配時,亦可以適用於

2004a]。延伸其應用,視文件為一機率生成模型(Probabilistic Generative Model)

Predicting blood pressure change during induction of anesthesia with propofol: using logistic regression and artificial neural network

其中,當 i = j 時, δ ij = 1 ;當 i ≠ j 時, δ ij = 0 。 NEP 模型為一嵌入 13 個子模型的一般化模型,這 13 個子模型分別是 GFGAI(globally

其中,freqtermi,j,Q表示詞彙 termi,j 出現在查詢 文件 Q 中的頻率,freqtermi,j,Dt表示詞彙 termi,j 出現在文件 Dt 的頻率,N

比賽選曲是一件高難度的工作,原本我們挑「修女也瘋狂」的主題曲 I will follow