第六章 調變頻譜非負矩陣分解法之研究
6.3 基於圖正則化非負矩陣分解法運用於調變頻譜
在本節,我們希望利用訓練集中語句間的關係來加入基於圖正則化非負矩陣分解 法。利用固有的內在幾何結構且考慮局部不變性的概念,讓鄰近的訓練語句可能 有類似的表示以增進精確率。前一節描述的非平滑非負矩陣分解法是利用更改傳 統非負矩陣分解法的模型。本節此基於圖正則化非負矩陣分解法不更改傳統模型,
而是利用在減損函式中增加了ㄧ個額外的正則項,將訓練語句間的關係納入減損 函式中。其實驗流程如圖 6-10。求取權重矩陣 E 時,我們使用 0-1 權重的方式,
首先我們會算出訓練語句(8440 句)彼此間的關聯度,關聯度的算法是利用訓練語 Set A Set B Set C Avg.
𝜃 = 0.1 81.35 83.79 81.66 82.39 𝜃 = 0.2 82.57 84.62 82.64 83.40 𝜃 = 0.3 82.34 84.58 82.46 83.26 𝜃 = 0.4 83.08 85.30 83.31 84.01 𝜃 = 0.5 82.72 84.91 83.36 83.72 𝜃 = 0.6 83.13 85.14 83.39 83.99 𝜃 = 0.7 82.46 84.78 82.75 83.45 𝜃 = 0.8 83.26 85.21 83.77 84.14 𝜃 = 0.9 83.67 85.58 83.58 84.42 𝜃 = 1 83.84 85.88 83.70 84.63
70
圖 6-10 基於圖正則化非負矩陣分解法之流程圖
表 6-6 音素序列之對照表
句彼此間的音素錯誤率(Phone Error Rate, PER),所以我們會先求得每一個訓練語 句的轉譯文句(Transcription)之音素序列(Phone Sequence) 。如表 6-6 是 Aurora-2
71
中所有的轉譯文字 0~9、OH 之對應的音素序列,假設某一訓練語句的轉譯文字 是 1 6 8 0,它的音素序列就會如圖 6-11。
圖 6-11 音素序列之例子
我們音素錯誤率的算法是使用編輯距離(Edit Distance)的算法,計算正確訓練語句 的音素序列與其他訓練語句的音素序列彼此間的音素的取代個數、音素插入個數、
音素刪除個數,如下式:
音素錯誤率(%) =音素取代數+ 音素插入數 − 音素刪除數
正確訓練語句音素總數 × 100% (式 6-5) 最後求得之權重矩陣E是個維度大小為 8400*8400 的矩陣,其中每個元素都紀錄
著訓練語句彼此間的音素錯誤率,對角線為自己本身,所以差異是 0。值得一提 的是使用編輯距離算關聯度時,E𝑗𝑙與E𝑙𝑗的值可能不會一樣。因為除以正確訓練
語句音素總數時,兩個訓練語句間的音素序列長度可能會是不同的,所以權重矩 陣E是不對稱的。但我們認為兩個訓練語句間彼此的關聯度應該是一樣的,所以 我們採用折衷的方式,將E𝑗𝑙與E𝑙𝑗的值皆改為彼此相加取平均,使權重矩陣E變成 一個對稱矩陣(Symmetric Matrix),接著我們設了一個門檻值(Threshold)α:
{E𝑗𝑙 ≤ α , E𝑗𝑙 = 1
E𝑗𝑙 > α , E𝑗𝑙 = 0 (式 6-6) 大於門檻值時,代表說這兩個訓練語句彼此間的音素錯誤率較大(訓練語句差異
72
73
如此做法,感覺可以將各個訓練語句彼此間的權重做比較精細的描述,而不是只 有 0 或 1 的權重值。例如:音素錯誤率 0%的轉換後會變成 1;音素錯誤率 40%
的轉換後會變成 0.714;音素錯誤率 100%的轉換後會變成 0.5;音素錯誤率 160%
的轉換後會變成 0.385。讓越低的音素錯誤率能夠有越高的權重值,而對角線的 值,也就是本身語句跟本身語句的關聯程度,其音素錯誤率為 0%。所以最後我 們改變了權重矩陣E的權重轉換設定,此方式簡稱 GNMF-a,數據如表 6-8。
表 6-8 GNMF-a 之權重矩陣全域給值的 Aurora-2 精確率 Set A Set B Set C Avg.
NMF 67.09 70.98 68.22 68.87 GNMF-a 70.63 74.27 70.78 72.12 改成全域給值之權重矩陣E比設定一個門檻來篩選值之權重矩陣E的效果會來的
好一些,比傳統非負矩陣分解法高了 3.25%的精確率。可能是因為設定一個門檻 值將一些不符合門檻規則的權重設為 0,而造成其可能會有權重資訊,但卻被強 制將兩訓練語句的權重歸 0,而損失了一些相關聯度的資訊。
上述使用了利用音素錯誤率求取權重矩陣E的方式,在此方式中每一個維度 是使用相同的權重矩陣E。而我們嘗試利用每一維的語句間的調變頻譜強度,利
用歐式距離的方式,來算出語句間的關聯度,且也使用式 6-7 的轉換式,求出不 同維度的權重矩陣 E,此方式簡稱 GNMF-eu。實驗結果如表 6-9,不同維度對應 著不同的權重矩陣去運算,但在效能上似乎沒有利用音素錯誤率的效果還好。
74
75
76