4.4.2、群聚概念模型 (Cluster-based Concept Language Model, CCLM)

在群聚概念模型之中，我們首先將同領域文件以 K-means 分群法分為若干個概念 群聚，以表示在描述內心想法時僅以此組概念群聚為基礎產生語言。而將原本必須藉由概念關鍵詞描述未知概念之問題轉化為計算與概念群聚之概念相似度之問題。而在本論文中，我們利用機率式潛藏主題分析與餘弦相似性兩種計算方式估計測試語句與概念群聚相似度。

(1) 以初次辨識結果與分群語料之餘弦相似性為概念分佈建構群聚概念模型 (1.1) 概念個數於群聚觀點模型之影響

概念模型與機率式潛藏語意分析相似，概念個數的增加有利於模型的描述。但分群個數越多將導致群內資訊不足，無法有效描繪出概念之特性，因此群聚個數為一可調變之參數。

(1.2) 以多連詞資訊建構群聚關聯模型

由於概念類別以群聚方式表達，我們很容易地可以將群聚概念模型延伸以多連詞資訊表達，如圖二十一所示。觀察此圖我們首先可以發現，應用雙連詞資訊於群聚概念模型的確有顯著性的進步，然而更進一步的拓展至三連詞資訊時卻無法有更加顯著的進步效果。探究其原因應為，當分群群數增加時，個別群內之訓練資料減少，導致資料稀疏的問題加劇，這同時也解釋了隨著群數增加其效能也隨之降低之原因(曲線右端上揚) 。

概念個數 8 16 32 64 128

字錯誤率 19.58

19.54

19.59 19.67 19.70 表十五、探討群聚概念語言模型中群聚個數於發展集之字錯誤率比較表

另外一方面，在語言複雜度之實驗之中大致與字錯誤率實驗有相同之趨勢。 (Unigram)

雙連詞資訊 (Bigram)

三連詞資訊 (Trigram) 8 554.00

434.12 426.91

Cluster

Unigram Bigram Trigram

(1.3) 探討歷史詞重要性於群聚概念模型

由於概念模型之描述是藉由觀察預測詞與整個歷史詞序列的共同關係而得，然而根據本論文 3.1.1 中所講述，詞與詞之間的重要性與其相隔距離成反比。因此實驗主要目的為探究過長之歷史詞序列是否會對預測造成不良影響。在本實驗中，

我們限制了群聚概念模型之中所觀察的歷史詞序列長度，認為超過此規定距離之外者對語言模型建立毫無幫助，並且將限制距離設為 1, 2, 3, 4, 5, 10 以及無限制 (



)，並觀察其曲線。

觀察圖二十二後可發現，模型最佳效果仍產生在觀察整段歷史詞序列與預測詞之間關聯為佳，但值得注意的是在曲線右段增進之效能趨緩，因此我們可以發現在歷史詞序列之中離預測詞越近的詞亦為對語言模型建立之重要依據，此實驗結果也同時呼應前段鄰近資訊之假設。

群聚個數單連詞資訊雙連詞資訊三連詞資訊

8 571.29

446.39 437.73

16 570.85 447.89 441.77

32 563.59 447.64 442.83

562.43

456.60 459.95

128 567.82 465.27 463.11

表十七、群聚概念模型之語言複雜度於測試集實驗結果

群聚個數單連詞資訊雙連詞資訊三連詞資訊

8 19.24

19.18 19.03

19.26

19.11 19.11

32 19.33 19.24 19.21

64 19.26 19.13 19.09

128 19.37 19.31 19.27

表十八、群聚概念模型之字錯誤率於測試集之實驗結果

(2) 利用機率式潛藏語意分析建構群聚概念模型

history length

Unigram Bigram Trigram

模型之重要因素。

其次，我們嘗試利用初次辨識結果取代正確轉寫文字進行概念權重估測，實驗結果發現儘管初次辨識結果會有辨識錯誤的情況發生，但就權重估測之影響而言並不顯著，這也是在群聚概念模型之中皆使用初次辨識結果進行概念權重估測之原因。

在文檔中運用鄰近與概念資訊於語言模型調適之研究 (頁 57-62)

4.4.2、 群聚概念模型 (Cluster-based Concept Language Model, CCLM)