• 沒有找到結果。

分類法

在文檔中 使用韻律模型的 (頁 49-52)

第四章 韻律模型之探討

4.2 分類法

4.2.1 公式推導

利用貝氏法則(Baye’s rule),P(fjk|Tjk,Bjk)可寫成:

, ,

,

jk jk jk jk

jk jk jk

jk jk

P T B f P f P f T B

P T B

⎞ ⎛

⎟ ⎜

= (4.1)

分子的第一項機率P(Tjk,Bjk |fjk)是一個局部事後機率(local a posterior probability),可被分解成兩個部份:

, ,

jk jk jk jk jk jk jk jk

P T B f P B f ⎞ ⎛⎟ ⎜⎟ ⎜P T f B

= ⎠ ⎝ (4.2)

於是我們分別訓練兩顆決策樹(或是兩個支撐向量機),來估測兩種 類別機率P(Bjk|fjk)和 P(Tjk|fjk,Bjk)。給定某目標音節的韻律參數,

P(Bjk|fjk)計算一個音節位於詞邊界的可能性(Bjk =0 表示不是詞邊 界,Bjk =1 表示是詞邊界),代表了詞層的韻律訊息;而 P(Tjk|fjk,Bjk) 則計算在詞邊界條件下,此音節屬於某個聲調的機率(T=1 到 5 五種 類別)。參照第三章所提架構,此機率提供了音節層的韻律訊息,其 中聲調為主要影響韻律因素。此音節層的韻律訊息實際上依賴於詞層 的韻律訊息,顯示了韻律架構的階層式影響。

而(4.1)式中分母的 P(Tjk,Bjk)是事前機率(prior probability),

可從訓練語料中來估測,只需要計算每個(t,b)類別在訓練語料中出 現的比例即可。至於P(fjk),雖然韻律參數可直接由音節邊界抽取而 出,但在辨識系統的第二階段時,因為在詞圖中不同詞有不同的邊界 時間,並且不同路徑的(j,k)值也不同,P(fjk)實際上是需要估測的。

不過本論文目前為了簡化問題,假設此機率為常數。

4.2.2 決策樹:隨機森林(Random Forests)演算法

我們的決策樹部份利用了隨機森林(Random Forest)[34]演算 法做更進一步的分類效果。有別於一般的決策樹(因為這裡以分類為 目的,亦稱分類數),隨機森林長了很多顆分類樹。當今天有一筆待 分類的特徵向量,這個向量走入森林裡的每一顆分類樹並走到某葉節

點。每顆樹會給一個分類結果,等於是做一個類別的投票。於是森林 會選出票數最高的類別當做分類結果,類別的票數佔總票數的比例便 是此類別的類別機率。

假設現在共有 N 筆訓練資料,每筆資料有 M 個參數,每顆樹皆以 下列步驟訓練產生:

1. 對資料作 N 次可置換抽樣(sampling with replacement)。抽樣 結果的資料即為建立樹的訓練資料。

2. 設定一個數字 m<<M,使得在樹中每一個節點,從 M 個參數中隨 機選出 m 個參數,然後基於這 m 個參數做出最好的分割。(m 在 森林中的所有數為定值)。

3. 毎顆樹長到最大的可能,而不做修剪(pruning) 文獻指出森林的分類錯誤率取決於兩件事[34]:

z 森林中任兩顆樹之間的相關性(correlation)。相關性增加,

錯誤率也增加。

z 毎顆樹的強度(strength)。較低錯誤率的數便是較強的樹。個 別樹的強度增加,錯誤率則降低。

而減低 m 會同時減低相關度和強度,反之則同時增加兩者。所以 m 值 會有一個最佳範圍(通常不小),是隨機森林中唯一需要調整的參數。

4.2.3 討論

用隨機森林改善的決策樹法,或是支撐向量機算出的局部事後機 率代入(4.1)式,並配合用訓練語料估測的事前機率而求得的

P(fjk|Tjk,Bjk)有許多優點:

(一)兩者的分類正確率在目前各種分類演算法中都十分優異,依不 同的資料特性各有勝負。無論如何,它們優越的分類正確率代表其有 很高的類別鑑別力,產生的類別機率代入(4.1)式中,可產生較有鑑

別力之P(fjk|Tjk,Bjk)

隨機森林演算法還有另外三個利於我們實驗的好處:

(二)隨機森林在處理大量資料很有效率,合於我們有大量訓練語料 的要求。它也能夠處理大量參數的資料,利於我們產生各種可能的韻 律參數組合。

(三)隨機森林能夠評估參數的重要性,助於我們分析各種韻律參數 與韻律結構之相關性。(在第六章將有參數的重要性分析。)

(四)隨機森林採許有效率的方法估計遺漏資料(missing data),並 在大量比例參數遺漏的狀況下仍能維持正確率。第三章提到在韻律參 數抽取的過程中會有遺漏資料的問題,就被解決了。

在文檔中 使用韻律模型的 (頁 49-52)

相關文件