第四章 POS BASED LANGUAGE MODEL 建立
4.3 詞長資訊
由上述的實驗中,發現到如果只用POS 的 information 來做分類的依據,其 characters 的辨識的結果,不盡理想,因此加入詞長的 information,來拓展 POS class 的個數,舉例如下:
Ex:
總辦事處(Nc) 秘書組(Nc) 主任(Na) 戴政(Nb) 先生(Na) 請辭(VA) 獲准(VF)
↓
(Nc)_4 (Nc)_3 (Na)_2 (Nb)_2 (Na)_2 (VA)_2 (VF)_2
在抽取POS information 時,也統計該詞的字數並加到 POS 之後,如上所示。從 平衡語料庫中抽取出POS 和詞長的資訊,可以用來訓練新的 POS bigram。因為 增加了詞長的資訊,所以POS 的個數增加,從原本 46 種 POS 拓展成 149 種。
所以必須重新計算式(4.2)中的 ,尤其是 的出現次數將
重新做計算。建立方式如同圖4-1 和圖 4-2 建立 POS-based LM 的方法 ( | )i i
P w c Count pos c )( i
實驗結果
表4-7 character 辨識率 Outside test:Total 4948 characters
Deletion Substitution Insertion Accuracy POS 0.46% 28.09% 0.51% 70.94%
表4-8 syllable 辨識率
Outside test:Total 4948 syllables
Deletion Substitution Insertion Accuracy POS 0.28% 8.04% 0.32% 91.35%
後的效果由上兩張character 和 syllable 的比較圖,可以看出,character 的辨識率 約提昇了0.3%,syllable 的辨識率約提昇了 0.12%。對於 character 的辨識率,只 能有少許的改進,這是因為加了詞長的資訊,只是分群更為細密,詞長的資訊,
並沒有帶任何的語言學上的訊息,所以辨識率只提昇一點是可以預期的
4.4 POS and Word Mixture LM
從上一章節中我們發現到即時加入了詞長的資訊,character 的辨識率只能 提昇少許。在這章節中,我們將訓練出一個 words 和 POS 混合的語言模型。有 了word 的資訊,預估會有較大的幫助。
4.4.1 Database 建立
在建立 Database 之前,我們先統計詞典中的每個詞在平衡語料庫中出現的
次數並給予排名。接著重複上述抽取 POS 資訊的動作,一但碰到出現次數超過
一千次以上的詞,則保留word 的資訊,如下所示:
Ex1:
總辦事處(Nc) 秘書組(Nc) 主任(Na) 戴政(Nb) 先生(Na) 請辭(VA) 獲准(VF)
↓
(Nc)_4 (Nc)_3 (Na)_2 (Nb)_2 先生 (VA)_2 (VF)_2
(先生)這個二字詞,因為在平衡語料庫中出現次數超過一千次以上,所 以在產生database 的時候,原本是要儲存(Na)這個 POS,改為儲存(先生)這二 字詞。另外,我們也加入詞長資訊,但是將詞長超過三以上的POS class 合併,
使POS class 的個數減少,其原因是多字詞的詞性很相近。我們不需要特別的去 照顧多字詞。由上一節加入詞長資訊的辨識結果中可以看到,辨識率只有改善少 許,因此減少POS class 的個數,並不會對辨識結果造成多大的影響。
4.4.2 訓練 POS And Word Mixture LM Outside test:Total 4948 characters
Deletion Substitution Insertion Accuracy POS 0.36% 25.52% 0.49% 73.63%
表4-10 syllable 辨識率 Outside test:Total 4948 syllables
Deletion Substitution Insertion Accuracy POS 0.26% 7.76% 0.38% 91.59%
POS POS length mixture POS word length
accuracy(%)
圖4-6 character 辨識率比較圖
syllable辨識率
91.23
91.35
91.59
91 91.1 91.2 91.3 91.4 91.5 91.6 91.7
POS POS length mixture POS word length
accuracy(%)
圖4-7 syllable 辨識率比較圖
由圖4-6,character 的辨識率在使用 mixture POS 和 word 的語言模型,比 只使用 POS 資訊的語言模型,提昇了 3 個百分比左右,由此可見,混和 pos 和 word 所建立出來的語言模型,可以大幅的提昇辨識率。
從圖4-7 中,發現到 syllable 的辨識率增加的幅度就沒有像 character 這麼多,
但是當我們每次增加一個information,syllable 的辨識率都能夠有些微的提昇。
第五章 Linear Interpolation Word-based And POS-based LM
POS-based LM 概括於從未看過的 word sequence 能夠表現的較 robustness,
而word-based LM 如果要有較好的 performance,需要大量的訓練語料,如果我 們能有一個語言模型,能夠結合這兩種語言模型的優點,那對辨識會有很大的幫 助。而最常用的結合各種語言模型的方法是linear interpolation【9】
5.1 Linear Interpolation
將word-based 和 POS-based 兩種 language model 做 linear interpolation,數學 式如下:
( | 1):word-based language model prediction probability
w i i
P w w−
( | 1):POS-based language model prediction probability
pos i i
5.2 產生 linear interpolation LM
word-based language model 是使用光華雜誌和 NTCIR 兩個 database 分別以六 萬詞、五萬四千詞及五萬兩千詞詞典訓練而成,POS-based language model 則是 之前利用第四章所訓練出來的語言模型。所使用的軟體為SRI Language Modeling Toolkit【4】,來將兩個語言模型做 linear interpolation,流程圖如下:
Word based LM POS based LM
Linear
interpolation Linear interpolation
LM
POS bigram model
我們先用perplexity 來測試結合兩個不同型態的 model 是否能夠使 perplexity 下降。測試的語料仍是五百萬詞平衡語料庫。
60k 626.643 616.693 611.352 607.801 605.344 603.75 602.891 602.657 602.796 603.433 604.552 54k 619.372 609.299 603.879 600.285 597.763 596.112 595.197 594.925 595.022 595.57 596.559 52k 599.556 589.991 584.87 581.497 579.186 577.685 576.925 576.738 576.918 577.598 578.669
(1.0,0) (0.98,0.
圖5-2 Test-set word perplexity as a function of the interpolation coefficient λ λw, c
表5-1 perplexity 比較表
LM Perplexity Word-based(60k) 626.643
Linear-inter 602.657
(λ λw, c)=(0.86,0.14) 表5-2 perplexity 比較表
LM Perplexity Word-based(54k) 619.372
Linear-inter 594.925
(λ λw, c)=(0.86,0.14) 表5-3 perplexity 比較表
LM Perplexity Word-based(52k) 599.556
Linear-inter 576.738
(λ λw, c)=(0.86,0.14)
做word-based 和 POS-based 兩個語言模型的 linear interpolation,發現到每個 word-based 的語言模型,perplexity 平均約下降 20 左右,這是因為 POS-based LM 的功用是用來微調word-based LM 的參數,所以在做測試的時候,能夠稍微的調 降perplexity 數值。
實驗結果
加入辨識器中,(λ λw, c)參數的設定為(0.86,0.14),下表為 characters 和 syllables 的辨識結果。
表5-4 character 辨識率 Outside test:Total 4948 characters
Deletion Substitution Insertion Accuracy 60k 0.34% 17.86% 0.38% 81.41%
54k 0.34% 18.14% 0.38% 81.12%
52k 0.34% 18.59% 0.38% 80.68%
表5-5 syllable 辨識率 Outside test:Total 4948 syllable
Deletion Substitution Insertion Accuracy 60k 0.28% 6.55% 0.32% 92.85%
60k 54k 52k
詞典大小
accuracy(%)
word-based LM linear interpolation LM
圖5-3 character 辨識率比較圖
由圖表發現到,加入linear interpolation LM 的辨認器,在 characters 的辨認 率,能夠表現的比使用 word-based LM 還要好,因此雖然 POS-based LM 的 characters 的辨識率只有 70%左右,但是如果用來輔助 word-based LM,則能夠對 辨識率的提昇有所貢獻。
syllable辨識率
60k 54k 52k
詞典大小
accuracy(%)
word-based LM linear interpolationLM
圖5-4 syllable 辨識率比較圖
由上比較圖,syllable 的辨識率,使用 linear interpolation LM,皆能夠提高 syllable 的辨識率,只是提昇的幅度並不夠多。
但將訓練語料做重新斷詞之後,character 辨識率約可上升將近 1%,若是重新斷
詞並且加上 word-based LM 和 POS-based LM 做 linear interpolation,則可使 characters 辨識率提昇約 1.5%。
第六章 結論與展望
6.1 結論
在本論文中,我們使用單一語者的 treebank 語料庫來進行語音辨識的相關
研究,從基本系統的建立,詞典的刪減,OOV 的探討和處理,POS based LM 的 建立以及改進及使用linear interpolation 結合 word-based 和 POS-based LM 兩個語 言模型的優點,有一個循序漸進的說明,在此我們將幾個重點分列如下:
(1) Treebank 為單一語者的語料庫,因此即使在辨識系統中採取無文法規則 (free grammar),其 syllable 的辨識率都能有很好的表現,但 character 的辨 識率就無法保證,因此加入語言模型則可使辨識器更完善。所以語言模型 是辨識基本要求。
(2) 由於我們的辨識器主要不是要辨識人名、地名、路名和不常見的一字詞,
因此要做刪減的動作。當我們刪減了詞典的內容,可以預見的是OOV rate
會上升,因此我們將詞做拆解的動作,來解決OOV 的問題。
(3) 建立了 POS-based LM,並加入詞長的資訊來做辨識率的改進,但是改善 的幅度不大,因此我們採用混和POS 和 word 的語言模型,能夠大幅度的 提昇辨識率。
(4) 最後我們使用 linear interpolation 來結合 word-based 和 POS-based 這兩種 不同類型的語言模型,來改善辨識率。
6.2 展望
國內外的許多基本系統,均已經採用前後文相關模型(Context Dependent Model)列為基本條件,但是實驗中加入語言模型,使得運算量變得相當龐大,
辨識工作相當費時,因此就沒有嘗試前後文的相關實驗,若在未來的研究中,我
們希望可以把部份加入辨識系統。
POS-based 的語言模型雖然辨識成果不如預期,但是如果和 word-based LM
做結合,能夠稍微改善辨識結果,如果我們能夠在訓練語言模型時同時考慮POS
和word,相信這能夠有大幅度的提昇。
參考文獻
【1】B.H.Juang and S.Furui,“Automatic recognition and understanding of spoken language—A first step towards natural human-machine communication,”in Proc IEEE,88,8,pp.1142-1165,2000
【2】L.R.Rabiner and B.H.Juang,“Fundamental of speech Recognition,”New Jersey,Prentice-Hall,Inc.,1993
【3】S.Young, G..Evermann, T.Hain, D.Kershaw, G,Moore, J,Odell,D.Ollan, D.Povey, V.Valtchev, P.Wooland,“The HTK Book(for HTK version 3.4)”
【4】. Andreas Stolcke, “SRILM - An Extensible Language Modeling Toolkit”, in Proc.Intl. Conf. Spoken Language Processing, Denver, Colorado, September 2002
【5】Slava M. Katz,“Estimation of Probabilities from Sparse Data for the Language Model Component of a Speech Recognizer,”IEEE Transactions on
Acoustic,Speech and Signal Processing,Vol.ASSP-35,NO.3,MARCH 1987
【6】張隆勳,“國語廣播新聞語音基本系統之建立”,國立交通大學電信工程學 系碩士論文,民國九十四年七月
【7】P.Geutner,“Using Morphology Towards Better Large-Vocabulary Speech Recognition Systems”in: Proc .Int. Conf. on Acoustics, Speech, and Signal Processing, Detroit, pp. 445-448 ,1995
【8】Xuedong Huang, Alex Acero, Hsiao-Wuen Hon, “Spoken Language Processing”
【9】F.Jelinek,R.L.Mercer.“Interpolated Estimation of Markov Source Parameters from Sparse Data”.In Pattern Recognition in Practice, pp 381-397.North Holland,1980