分類法

第四章韻律模型之探討

4.2 分類法

4.2.1 公式推導

利用貝氏法則(Baye’s rule)，P(f^jk|T^jk,B^jk)可寫成：

, ,

jk jk jk jk

jk jk jk

jk jk

P T B f P f P f T B

P T B

⎛ ⎞ ⎛ ⎞

⎜ ⎟ ⎜ ⎟

⎜ ⎟

⎛ ⎞ ⎝ ⎠ ⎝ ⎠

⎜ ⎟

⎜ ⎟ ⎛ ⎞

⎝ ⎠ ⎜ ⎟

⎝ ⎠

= (4.1)

分子的第一項機率P(T_jk,B_jk |f_jk)是一個局部事後機率(local a posterior probability)，可被分解成兩個部份：

, ,

jk jk jk jk jk jk jk jk

P T^⎛⎜⎜ B f ^⎞⎟⎟ P B^⎛⎜⎜ f ^{⎞ ⎛}⎟ ⎜⎟ ⎜P T f B ^⎞⎟⎟

⎝ ⎠= ⎝ ⎠ ⎝ ⎠ ^(4.2)

於是我們分別訓練兩顆決策樹（或是兩個支撐向量機），來估測兩種類別機率P(B^jk|f^jk)和 P(T^jk|f^jk,B^jk)。給定某目標音節的韻律參數，

P(B^jk|f^jk)計算一個音節位於詞邊界的可能性（B^jk =0 表示不是詞邊界，B^jk =1 表示是詞邊界），代表了詞層的韻律訊息；而 P(T^jk|f^jk,B^jk) 則計算在詞邊界條件下，此音節屬於某個聲調的機率（T=1 到 5 五種類別）。參照第三章所提架構，此機率提供了音節層的韻律訊息，其中聲調為主要影響韻律因素。此音節層的韻律訊息實際上依賴於詞層的韻律訊息，顯示了韻律架構的階層式影響。

而(4.1)式中分母的 P(T_jk,B_jk)是事前機率(prior probability)，

可從訓練語料中來估測，只需要計算每個(t,b)類別在訓練語料中出現的比例即可。至於P(f^jk)，雖然韻律參數可直接由音節邊界抽取而出，但在辨識系統的第二階段時，因為在詞圖中不同詞有不同的邊界時間，並且不同路徑的(j,k)值也不同，P(f^jk)實際上是需要估測的。

不過本論文目前為了簡化問題，假設此機率為常數。

4.2.2 決策樹：隨機森林(Random Forests)演算法

我們的決策樹部份利用了隨機森林（Random Forest）[34]演算法做更進一步的分類效果。有別於一般的決策樹（因為這裡以分類為目的，亦稱分類數），隨機森林長了很多顆分類樹。當今天有一筆待分類的特徵向量，這個向量走入森林裡的每一顆分類樹並走到某葉節

點。每顆樹會給一個分類結果，等於是做一個類別的投票。於是森林會選出票數最高的類別當做分類結果，類別的票數佔總票數的比例便是此類別的類別機率。

假設現在共有 N 筆訓練資料，每筆資料有 M 個參數，每顆樹皆以下列步驟訓練產生：

1. 對資料作 N 次可置換抽樣(sampling with replacement)。抽樣結果的資料即為建立樹的訓練資料。

2. 設定一個數字 m<<M，使得在樹中每一個節點，從 M 個參數中隨機選出 m 個參數，然後基於這 m 個參數做出最好的分割。（m 在森林中的所有數為定值）。

3. 毎顆樹長到最大的可能，而不做修剪(pruning) 文獻指出森林的分類錯誤率取決於兩件事[34]：

z 森林中任兩顆樹之間的相關性(correlation)。相關性增加，

錯誤率也增加。

z 毎顆樹的強度(strength)。較低錯誤率的數便是較強的樹。個別樹的強度增加，錯誤率則降低。

而減低 m 會同時減低相關度和強度，反之則同時增加兩者。所以 m 值會有一個最佳範圍（通常不小），是隨機森林中唯一需要調整的參數。

4.2.3 討論

用隨機森林改善的決策樹法，或是支撐向量機算出的局部事後機率代入(4.1)式，並配合用訓練語料估測的事前機率而求得的

P(f^jk|T^jk,B^jk)有許多優點：

（一）兩者的分類正確率在目前各種分類演算法中都十分優異，依不同的資料特性各有勝負。無論如何，它們優越的分類正確率代表其有很高的類別鑑別力，產生的類別機率代入(4.1)式中，可產生較有鑑

別力之P(f^jk|T^jk,B^jk)

隨機森林演算法還有另外三個利於我們實驗的好處：

（二）隨機森林在處理大量資料很有效率，合於我們有大量訓練語料的要求。它也能夠處理大量參數的資料，利於我們產生各種可能的韻律參數組合。

（三）隨機森林能夠評估參數的重要性，助於我們分析各種韻律參數與韻律結構之相關性。（在第六章將有參數的重要性分析。）

（四）隨機森林採許有效率的方法估計遺漏資料(missing data)，並在大量比例參數遺漏的狀況下仍能維持正確率。第三章提到在韻律參數抽取的過程中會有遺漏資料的問題，就被解決了。

在文檔中使用韻律模型的 (頁 49-52)

第四章 韻律模型之探討

4.2 分類法

4.2.1 公式推導

4.2.2 決策樹：隨機森林(Random Forests)演算法

4.2.3 討論

第四章韻律模型之探討