結論與展望

第二章以抽取瞬時頻率方式求取基頻

目前可見求取基頻的技術都已經相當成熟，所以我們的研究目標在於高雜訊下亦能求取準確的基頻軌跡，瞬時頻率的觀念是在 1986 年 F.J. Charpentier[1]曾經提出過相關的研究，到最近 1996 年才由 Takao Kobayashi 與 Dhany Arifianto[2][3][4][5]繼續以瞬時頻率為基礎作研究，主要是因為訊號的瞬時頻率對於雜訊影響並不敏感的原理，在高雜訊下以求取訊號的瞬時頻率的方式來估測基頻，並證實利用瞬時頻率的方式可在高雜訊下求取出準確的基頻軌跡。

2.1 瞬時頻率

我們知道一個訊號通常包含著很多頻率成份，當我們想分析一個包含許多不同頻率成份的訊號時，我們必須想辦法將這些成份分開成單一頻率的弦波，通常我們會利用典型的 phase vocoder 的架構，如下圖：

圖 2.1： Phase vocoder 架構圖

如圖利用外差的方式，將原始訊號乘上頻率為 f 的 sin 與 cos 訊號(or complex exponential)，頻譜部份原本在頻率 f 的成份會被移到頻率 0 Hz 的地方，經過低通濾波器之後，可以得到只有頻率為 f 的訊號成份，這個動作有如一 Filter

Bank(FB)般，讓我們可以只對訊號中的某一個頻率成份單獨進行分析。 convolution，如果是一個 lowpass function，那麼這動作與上述的 phase vocoder 的架構大致一樣，唯一不一樣的地方，就是 phase vocoder 將頻率為

( ) w −t ( )

w −t

f 的成份移到 0 Hz，而 STFT 並沒有，如果利用反超外差的方式(inverse heterodyne)，

即可讓FB輸出訊號的頻率調回到原本的頻率 f ，所以可以推導出FB輸出與

圖 2.2 An example of instantaneous frequency of voiced signal

接著觀察 unvoiced 音框所求得的瞬時頻率，如圖 2.3，上圖為此音框的頻譜，

從頻譜上來看，unvoiced 音框能量並沒有 voiced 音框大，而且並沒有很明顯的 harmonic 的成分存在，所以其瞬時頻率並不會出現如同 voiced 音框的階梯曲線 (藍色點)，反而像是一條不規則的線。

f 圖 2.3 An example of instantaneous frequency of unvoiced signal

從 voiced signal 與 unvoiced signal 兩個例子來看， voiced signal 的 IF(instantaneous frequency)與頻率軸呈現很明顯的階梯狀，而且階梯的平台出現在基頻與基頻的整數倍數上，而 unvoiced signal 的 IF 並沒有這種特性，反而呈現雜亂的分布，基於這兩者的差異，我們可以利用這個特徵，不僅僅能分辨出 voiced 或是 unvoiced，而且可以進而求到此音框的基頻頻率值。

2.2 瞬時頻譜

我們已經利用前一節的方法求得每個音框的瞬時頻率，瞬時頻譜 (instantaneous frequency amplitude spectrum)即是將x t( )經 STFT 後所得到的頻譜中的頻率軸( f axis)，利用瞬時頻率λ( , )f t 與 f 之間的轉換，將頻譜的頻率軸轉換成 IF 軸(λ( , )f t axis)，以一個 voiced signal 的實際例子來看，下圖 2.4 即是利用瞬時頻率轉換過後的瞬時頻譜圖，在轉換過後我們可以發現一個特性，所有能量都往基頻與基頻的整數倍數集中，如紅色線所圈選的地方，反之， unvoiced signal 則沒有這種特性，如圖 2.5 所示，能量在 IF 軸中的分布並沒有集中在基頻與基頻的整數倍數上，且平均能量均不如 voiced signal 高。

( , ) f t λ

圖 2.4 An example of IFAS with voiced signal

( , ) f t λ

圖 2.5 An example of IFAS with unvoiced signal

2.3 利用瞬時頻譜產生基頻值候選者

由上節所述得知，如果聲音含有週期的特性，則瞬時頻率與頻率軸有階梯狀的轉換曲線，所以若將此音框的 amplitude spectrum 利用此轉換曲線轉換頻率軸後，可發現能量會往基頻與基頻的整數倍數上集中，可以由圖 2.4 例子明顯看出，

於是我們可以利用這個特性，找出此音框的基頻候選者。

2.3.1 轉換函式

接著用一個簡單的例子來解釋如何對瞬時頻譜進行我們所想要的轉換，假設

F

( Hz )

f

( Hz )

圖 2.9 voiced signal 瞬時頻率，基頻為 190Hz

所以利用此瞬時頻率所得到的瞬時頻譜會呈現出，能量集中在基頻與基頻的整數倍數上如圖 2.4 一般，而每一根能量又各自擁有一條曲線，最後疊加後的結果利用數學式可以寫出如下，

( ) ( , ),

k i i

η F

′ =

∑

Λ ^λ ^F

(2.7)

其中，λ₀ =λ(0, ), t λ₁_k =λ(1 , )k

η′ 為最後的基頻判斷曲線，利用上式積分，以同樣 voiced signal，基頻為 190Hz 的例子畫出 '( )η F ，F =60 ~ 400Hz，最後如圖 2.10 所示

圖 2.10 voiced signal 基頻判斷曲線，基頻為 190Hz

可以從圖 2.10 很明顯看出，曲線區域最大值出現在 0, 1, 2,...

F F n

= n = ( 且最高值出現在基頻 190Hz 的地方，接著我們看一個 unvoiced signal 的例子，如圖 2.11 所示，從曲線來看，我們無法明確在區域最大值上看出此音框的基頻值落在那個頻率上。

0 190

F = Hz)，而

F

( Hz )

F

( Hz )

圖 2.11 unvoiced signal 基頻判斷曲線， ( )η′ F

雖然說我們可以利用尋找曲線 '( )η F 的區域最大值，來推得音框的基頻值，

但是可以發現 voiced 與 unvoiced signal 兩曲線的區域最大值並沒有很大的差異，

所以為了加強區別 voiced signal 與 unvoiced signal，我們利用兩者頻譜的差異性，

觀察兩者頻譜如下圖 2.12

f

圖 2.12 voiced signal 頻譜圖(上圖)與 unvoiced signal 頻譜圖(下圖)

依觀察可發現兩者之間頻譜的 magnitude 值差異甚大，voiced signal 通常能量集中在 harmonic 上，而 unvoiced signal 能量則是均勻分布，而且在 voiced signal 的能量可以突顯出基頻與基頻的整數倍所在位置，所以我們可以利用

圖 2.13 α⁻^β^{/ F}函式，α =10, 8β =

後我們可以在每個音框求得到一條 ( )η F 曲線，尋找這條曲線的最大值，便可以得到此音框的 pitch value (即為最大值所對應到的F)。

F

( Hz )

F

( Hz )

圖 2.14 基頻判斷曲線 ( )η F (上圖未加權重，下圖則有，基頻為 190Hz)

F

( Hz )

F

( Hz )

圖 2.15 Unvoiced signal 之基頻判斷曲線 ( )η F

從圖 2.14 與圖 2.15 可以發現 voiced signal 與 unvoiced signal 所得到的曲線中的區域最大值有了明顯的差異，於是我們將每一個 frame 所求得的最大 ( )η F 對於 voiced 音框與 unvoiced 音框的作分佈情形觀察，結果如下圖 2.16：

Frames

η

圖 2.16 η分佈圖

從圖 2.16 發現 voiced 音框(藍線)與 unvoiced 音框(紅線)之間在臨界值附近並沒有很明顯的分界，造成 voiced 與 unvoiced 之間的判定錯誤甚高，其原因是因為判斷曲線利用了頻譜的能量大小來加強曲線上的每一點，所以如果今天有一個訊號，其能量大但是並沒有週期特性，所產生出來的曲線區域最大值與 voiced signal 所得到的差異不大，反之，有週期特性但能量小的音框通常得到的值很容易比 unvoiced 小，為了更有效分辨 voiced 音框與 unvoiced 音框，我們可以將頻譜作能量正規化，於是，雖然能量大但是因為沒有週期，所以頻譜上的能量分佈非常平均，經過正規化後，unvoiced 音框的判斷曲線 ( )η F 會被整體壓低，而 voiced frame 的判斷曲線會因為正規化而整體提升，最後我們再作一次經過能量正規化的 ( )η F 值分佈，結果如下圖 2.17：

Frames

η

圖 2.17 經正規化後η分佈圖

很明顯的，經過能量正規化後，voiced 音框(藍線)與 unvoiced 音框(紅線)可以從 ( )η F 中更容易分辨出來，使得 voiced 與 unvoiced 之間的錯誤大大的降低，

這個結果對於往後作 V/U 判斷是個很可靠的特徵參數。

2.3.3 從基頻判斷曲線中產生基頻值候選者

瞬時頻譜經過轉換函式的轉換後，接著利用正規化後的頻譜加強了基頻與基頻的整數倍數部分，最後我們可以得到一條大小值落於 0~1 之間的基頻判斷曲線

( )F

η ，接著可以利用尋找判斷曲線的區域最大值可以產生出基頻值候選者，依照 ( )η F_i 值的大小分別可以找到基頻值候選者F_i，i=1 ~ 5，如下圖 2.18 所示，由於 ( )η F 的大小來自於音框能量與 harmonic 能量的比例，所以其值越大，表示

圖 2.18 基頻候選者F_i產生方式

此音框為 voiced 的可靠性越高。

接著我們為了瞭解對於所選出來的基頻候選者的正確性與否，於是我們對手標後的基頻參考值進行比對，同時，我們拿目前常見的 Auto-correlation 傳統方式所求得的基頻候選者同時比對，比對的範圍只有當參考基頻為 voiced 的地方，

其餘地方則不進行比對，而比對方式為，若此音框其中一個基頻候選者與手標參考基頻值差異小於參考基頻的±5%內，則視此 frame 視為“正確”，並且紀錄最接近參考基頻值是落於哪一個基頻候選者，比對結果如表 2.1 所示：

F

η

F

(Hz)

表 2.1 各方法基頻候選者與參考基頻值比較(total voiced frame=13355)

瞬時頻率方法自相關函式方法

F 1 12,666 F 1 10,941 F 2 179 F 2 1,204

F 3 43 F 3 560

F 4 13 F 4 151

F 5 16 F 5 52

Total 12,917 Total 12,908 (F₁=基頻候選者第一順位，依此類推…)

我們可以從上表發現，自相關函式法雖然在總數上與瞬時頻率方法差不多，

但其正確基頻值並非集中在候選者第一名，這表示加上追蹤與平滑後，很容易出現 double-pitch 與 half-pitch 的情形，由上面實驗結果，我們可以確信瞬時頻率的方法所求得基頻候選者有非常好的可靠度與準確度。

第三章中文聲調辨認與基頻軌跡建立

由本文前一章節所敘述的方式，以一個音框為時間單位產生五個基頻候選者，接著在這候選者中，利用前後音框候選者之間的關係與前後音框基頻值變化…等等，選擇一條最佳路徑建立基頻軌跡估測，雖然利用瞬時頻譜為基礎的方法抽取出的基頻軌跡具有相當可靠的程度，但是仍舊會發生半頻基頻(Half pitch) 或是倍頻基頻(Double pitch)的錯誤，於是本節希望能利用以統計為基礎的中文韻律模型與聲調模型[8]，因為具有 tone shape 與 tone、prosody transition 的統計特性，所以能有效輔助基頻軌跡的建立，使得上述兩種錯誤的發生率減少，並同時完成中文聲調辨認。

對於一般中文語音而言，每一個中文字都是由一個音節所構成，而每一個音節結構部分，又可以分成 411 基本音節與聲調兩大部分，本文接下來就是要對聲調部分的辨認技術結合基頻軌跡建立加以研究與探討。

在基頻軌跡估測方面，利用每個音框所抽取出來的候選者與其對應之 ( )η F 值，接著以每一個音節為單位，利用 Viterbi tracking 方式產生出前五名最佳路徑，

並將這五名路徑視為基頻軌跡候選者。在聲調辨認方面，利用統計的聲調與韻律模型，對於每一段音節的基頻軌跡候選者比對，配合聲調轉移機率、韻律轉移機率，搜尋最大可能性的基頻軌跡，同時決定此基頻軌跡候選者所屬的聲調與韻律組合。

3.1 國語聲調的特性

種不同的聲調，一般我們分為一聲、兩聲、三聲、四聲與五聲。這裡指的聲調，

就是指我們在發音的時候，隨者時間的變化下，頻率會有不同的高低起伏變化而產生出不同聲調。如果從基頻軌跡來觀察，我們可以發現在一般的單字音，我們所發出的聲調，其基週軌跡之標準形式如圖 3.1 所示，各自具有其獨特的基頻軌跡分佈。在這圖中並沒有標示出第五聲(一般稱為輕聲)的基頻軌跡，這是因為通

在文檔中使用聲調模型輔助之基頻偵測器與國語連續語音聲調辨認 (頁 12-73)

第二章 以抽取瞬時頻率方式求取基頻

2.1 瞬時頻率

2.2 瞬時頻譜

( , ) f t λ

( , ) f t λ

2.3 利用瞬時頻譜產生基頻值候選者

F

f

∑

F

F

f

f

F

F

F

F

η

η

F

F

F

F

F

η

F

第三章 中文聲調辨認與基頻軌跡建立

3.1 國語聲調的特性

第二章以抽取瞬時頻率方式求取基頻

第三章中文聲調辨認與基頻軌跡建立