建立語言模型

第五章加入語言模型至基本語音辨識系統

本節將介紹我們是如何訓練語言模型，其流程如圖 5.1，

圖 5.1 LM 訓練流程圖

5.1.1 訓練語料及詞典(lexicon)

建立語言模型必須要準備的兩樣資料－訓練語料及詞典，下面將介紹其用途，及本論文中所使用之訓練語料、詞典為何。

5.1.1.1 訓練語料

建立語言模型必須要有大量的文字資料庫，才可分析其語言規則，對於不同種類的訓練語料所分析出的語言規則也必定不同，本論文中所採用的訓練語料有兩種－

(1)包含光華雜誌( Sinorama )、NTCIR 和中研院的平衡語料庫，下面將稱之為通用語料庫。

(2)MCDC 語料庫之訓練語料的部份。

光華雜誌內容為一般雜誌文章，總共蒐集了 1976 年至 2000 年的資料。而 NTCIR( NACSIS Test Collections for IR )是一個建立檢索系統的標竿測試集，內容包含數種不同的科學領域。

平衡語料庫是由中研院所錄製的，內容包含多種主題，目的在於研究語言分析，這三種語料庫的內容皆是文字性質，我們可藉此訓練出具有文字性質語言規則的語言模型。

MCDC 語料庫是一個內容為對話性質的語料，利用此語料庫將可建立出具對話性質語言規則的 LM，不過由於本論文基本架構中所用於測試的語料即為 MCDC 語料庫中的一部分，

因此只可將論文中用於訓練聲學模型的語料來建立，否則將產生不公平的現象。

5.1.1.2 詞典

上一節介紹了訓練語言模型所需的兩種語料庫，有了語料庫我們即可做其語言上的分析，在漢語中文( Mandarin )下，以詞為單元來做分析是較符合語言規則的，所以必須將語料庫由原本以音節為單位轉換成以詞為單位，這時便需要詞典來做轉換，下面將對於本論文所使用之詞典其來源做介紹。

詞典的來源，是由交大電信所語音實驗室的詞典和台灣師大資工所做聯集及後處理動作而得到新的詞典，此即為本論文中所使用之詞典，對於詞典中詞長分佈統計於表 5.1

表 5.1 詞典中之詞長分佈光華雜誌 9,870,430 16,406,485

NTCIR 124,442,861 206,847,107 平衡語料庫 4,796,163 7,972,113 合計 139,109,455 231,225,705

表 5.3 MCDC 語料庫之詞數表下面將介紹，求取 n-gram 機率的方法，假設有一個詞串（Word sequence）或句子（Sentence），

其內容以詞（Word）為單位為「」，則此詞串對應的機率為：

由於要求得所有詞的條件機率是不可能的，所以我們可以使用 n-gram 的機率去趨近。

要將語言模型加入辨識系統中，我們還需將之轉換為 Word-net，因為 Word-net 才是清楚的描述詞跟詞的轉移關係，由於 HTK 中轉換上的問題，我們只使用到 Bigram 和 Unigram 的

Only Unigram and Bigram were used

圖 5.2 LM 轉 Word-Net 之流程圖

有了 Word-net，相當於文法規則，之後便可將此文法加入基本的辨識系統中，而加入了

在文檔中自發性中文語音基本辨認系統之建立 (頁 47-50)