緒論 - 中文大詞彙語音辨認之語言模型改進

1.1 研究動機

近年來，語音辨識之相關研究大多自語音訊號層面著手，透過研究聲音之特性，

藉此提昇辨識率。然而，語音和語言密不可分，若語音辨識能回歸於基本之語言，針對語言進行研究，對於辨識效果之提升將會有所助益。

在傳統大詞彙語音辨認中，語言模型所用之辨認辭典，大多是將語料中的詞依據詞頻排序，進而取其排序前六萬者納入辭典，然而，語料中並非每個詞均會被辨認辭典所收錄，進行語音辨認時，倘若出現辨認辭典未收錄之詞時，該詞將無法被辨認，

造成辨認上的錯誤，而此些不在辨認辭典中的詞稱為「Out-of-Vocabulary」，簡稱 OOV words，所佔比例稱「OOV rate」。

OOV rate 大小將會影響辨識效能，數値越大代表著越多詞將無法被辨識，而此現象大多出現於拼音複雜或詞變化多的語言，如：德語、土耳其語、阿拉伯語、芬蘭語…

等皆有此現象，其中，阿拉伯語之語音辨識研究為突破 ASR 系統無法完全收錄詞彙對於辨識效能之限制，運用 morphological analysis 建構語音辨認系統(R. Sarikaya et al, 2007)，試圖藉此解決拼音複雜的阿拉伯語辨認辭典詞彙收錄不足的問題。

自此反觀中文語音，中文語詞變化多元，特別是數量複合詞、專有名詞(本研究針對人名)、不常出現之詞綴構詞…等，此些類別之詞可任意組合且變化無限，故中文語音辨識亦存在著辨認辭典無法完整收錄詞彙而阻滯辨識效能成長的困境。基此，為突破辭典詞彙收錄有限之限制，本研究試圖提出一個階層式 word-subword based ASR 系統，針對混合詞及半詞(subword)之統計式語言模型進行探討，整體系統架構包含三個

1.2 研究方向

傳統基本語音辨識系統主要包含五大層面，包括：語音特徵參數的求取、聲學模型(Acoustic Model, AM)的訓練、語言模型(Language Model, LM) 的訓練、辭典選取以及辨識比對，如下圖 1-1 所示：

圖 1 -1：傳統式辨識流程

如先前所述，為改善傳統辨認辭典無法完整收錄詞彙的問題，本研究提出階層式 word-subword¹ based ASR 系統架構，以此作為研究之思考脈絡與架構，如下圖 1-2 所示：

圖 1-2：階層式 word-subword based ASR 系統架構

1 subword(半詞)：意指長詞拆解成數個半詞單位。

由上圖可知，階層式 ASR 架構由左至右可分為三大模組。首先，第一級模組為 word/subword based 辨認模組，本研究將針對如何建立 word/subword 混合式語言模型 (第一級語言模型)進行探討，而如何於此模組中選取所需的 word 和 subword 作為辨認辭典，乃為本研究重要課題之一。

其次，第二級模組為 lattice extension 構詞模組，研究者將第一級模組之辨認辭典未收納的詞彙進ㄧ步拆解為數個 subword 半詞串，而第二級模組於 word lattice 上將運用此些 subword 短詞串進行構詞。然而，本研究所立基之實驗室目前除數量複合詞外，

其餘尚未建立構詞模型，無法立即精確地偵測出需要構詞的 subword 半詞串，基於此限制，本研究運用查表法進行構詞，對於如何建立完整構詞模型，本研究尚無深入探討。

最後，第三級模組為 lattice rescoring 模組，該模組針對第二級模組構詞產生之 extended word lattice 的路徑重新給予語言模型分數，藉此產生第二級語言模型，基此，

本研究將探討分數分配之相關議題，針對辨認方法及實驗結果進行說明，並進一步分析與比較階層式和傳統式語音辨認結果之優劣。

1.3 章節概要

基於本研究所欲探討之相關議題，本文之章節架構與內容於下概述：

第一章緒論：介紹研究動機、研究方向及章節概要。

在文檔中中文大詞彙語音辨認之語言模型改進 (頁 10-13)