• 沒有找到結果。

第一章 緒論

1.2 論文架構

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

1.2. 論文架構

本論文架構如下所述:在第二章我們將會概觀地探討近年來利用語者辨識技 術所進行的研究相關議題。在第三章首先介紹開源語者辨識工具,並針對語音風 格,提出本研究的基本構想,接下來簡單展示基於此構想所做的前期研究,以及 在得到初步的成果後,設計研究架構,並且設定預期的目標。在第四章詳細描述 資料蒐集與其過程,並闡述其研究結果的分析與應用。在第五章對所開發的系統 做一個簡單的結論,並且提出未來可能延續發展之方向。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第二章

背景知識與相關研究

在本章節中,將對語者辨識(如圖 2.1)領域進行相關研究之探討。其中主 要分為聲音特徵、語者模型和機器學習三方面,隨著研究方法不斷演進,讓我們 可以一窺現今在聲音領域的進展概況。

圖 2.1、語者識別示意圖

2.1. 聲音特徵

聲音特徵參數方面,主要分為聲學特徵(Acoustic features)與韻律特徵

(Prosodic features):聲學特徵主要是模擬人耳對聲音頻率的感知而提出,如梅 爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients, MFCC)、線性預測倒 頻譜係數(linear prediction cepstral coefficients,LPCC)和感知線性預測(Perceptual Linear Prediction, PLP)等參數;韻律特徵主要是基於發聲器官如聲道和鼻腔的生 理結構而提取的參數,如音高(Pitch)、能量(Energy)和共振峰(Formant)等。

在 NIST 2006 比賽結果顯示,聲學參數相對於韻律參數與混合參數都有較好實驗 結果[3]。目前在聲音辨識領域中,大多數研究中[4]主要還是取 MFCC 作為聲音 特徵值,用以判別聲音種類。在此本研究亦用之以作為聲音風格辨識。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.1.1. 梅爾倒頻譜係數 (Mel-Frequency Cepstral Coefficients, MFCC)

圖 2.2、MFCC 的擷取流程圖

梅爾倒頻譜係數是基於人耳就類似一個濾波器,對於不同的頻率會有不同的 感知程度。在可聽到的頻段內,對於低頻的變化較為敏感,而對於高頻相對較弱 一些,加強感受較為強烈的低頻頻段,降低關注較少的高頻頻段,將線性的聲音 頻譜映射到基於聽覺感知的梅爾非線性頻譜(如圖 2.3)中,再轉換到倒頻譜上。比 起正常的對數倒頻譜中的線性間隔的頻帶更接近人類的聽覺系統。因此廣泛地被 使用在關於人類聲音的方面研究上,其擷取流程如圖 2.2。梅爾量度(Mel Scale),

其公式如 2.1:

𝑴𝑴(𝒇𝒇) = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝒍𝒍𝒍𝒍𝒍𝒍

𝟏𝟏𝟏𝟏

(𝟏𝟏 +

𝟕𝟕𝟏𝟏𝟏𝟏𝒇𝒇

) ……… (2.1)

圖 2.3、梅爾倒頻譜

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2. 語者模型

2.2.1. 高斯混合模型 (Gaussian Mixture Model, GMM)

高斯混合模型是單一高斯機率密度函數的延伸,其對任意形狀的機率密度分 佈能夠平滑地模擬,近年來經常被使用於語音與語者辨識上。高斯分布(Gaussian Distribution)又稱常態分布(Normal Distribution)是一種極為常見的連續機率分 布(如圖 2.4)。

圖 2.4、高斯分布。μ為平均值(Mean),σ為標準差(Standard Deviation) 自從 1995 年,DA Reynolds[5]首次成功地利用多個高斯模型的平均值來描 述聲音特徵參數的分布位置;共變異矩陣用來描述分型形狀的變化,並運用到與 本文無關(Text independent)的語者辨識中得到不錯的成果。至此之後有關語者辨 識的發展演進大多以 GMM 作為基礎進行改善和發展。理論上 GMM 可以近似 任意機率分佈,但若要充分訓練一個 GMM 需要大量的語者訓練資料,訓練數據 太少則可能發生過度訓練(Over-Fitting),其訓練流程如圖 2.5。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.5、GMM 模型訓練流程

2.2.2. 通用背景模型 (Universal Background Model, UBM)

在實際應用中從使用者經驗考量,可採集的語音資料極其有限,大量的語音 訓練資料往往無法獲得,所得到的訓練語音可能僅有幾分鐘甚至更短,在有限的 資料下很難訓練出一個穩定的模型來表示語者特徵。因此,2000 年 DA Reynolds 團隊又提出了一種改進方案[6]來解決此一問題,利用其他大量非目標人員的聲 音當作背景數據,混合起來訓練出一個充分的 GMM 模型,此模型可代表一般非 特定語者的聲音特性。使用者根據各自少量的訓練資料,藉由最大事後機率

(Maximum A Posteriori, MAP),將 GMM-UBM 調適成個別語者的特定模型,

也避免過度訓練的發生,其訓練流程如圖 2.6。

圖 2.6、UBM 模型訓練流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.2.3. 聯合因素分析 (Joint Factor Analysis, JFA)

然而在眾多的訓練資料中,每個人因錄音環境與設備都不盡相同,所造成的 話筒、通道以及說話狀態差異,使得訓練時經錄音取的語音特性與測試資料有很 大的不一致性,此不一致性會大大地降低 UBM 辨識結果。於是在 2007 年 Kenny 提出將因素分析(Factor Analysis,FA)導入語者辨識領域[7],如此只要使用數 量較少的基礎向量組合即可表示原來高維度的 GMM 超向量。此種技術也廣泛的 使用在圖像與聲音壓縮技術中,因真實數據往往參雜許多的多餘訊息。聯合因素 分析假設在 GMM-UBM 系統中的 GMM 超向量,大致上可以分為跟語者本身有 關的向量特徵和跟通道以及其他變化有關的向量特徵的線性疊加(如圖 2.7)。也 就是將語者 GMM 超向量所在的空間劃分為語音相關空間,通道空間,還有一個 其餘動態空間。這樣,如果我們能抽取出跟說話人本身相關的特徵而去掉和通道 相關的特徵,就能克服通道差異影響進行辨識。最後結果證明這個方法是有效的,

採用聯合因素分析後,系統的準確率明顯提高,其處理流程如圖 2.8。

圖 2.7、JFA 將 GMM 分為語者相關與通道相關空間

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.8、JFA 處理流程圖

2.2.4. i-Vector

將語者與通道相關因素完全分離在實際應用中很難達成,故 Dehak 以 JFA 為基礎,在 2011 年提出[8]用一個子空間同時描述語者訊息和通道訊息。即模擬 語者差異性又模擬通道差異性的空間稱為總體變異空間(Total Variability Matrix), 藉由訓練出的總體變異空間(如圖 2.9),將原本的超級向量映射到更低維的空 間,每段語音在這個空間上的映射坐標稱作 i-Vector。

圖 2.9、總體變異矩陣

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

i-Vector 可以看做是一種特徵;亦可看做是簡單的模型,通常 i-Vector 向量 維度也不會太高,一般在 100~1000 左右。因其能更佳地表現出語者及通道資訊 並具有良好的空間方向性,因此使用 i-Vector 能輕易的使用 SVM 做區分。時至 今日研究語者辨識問題中,i-Vector 是表現最好的特徵參數之一;亦是大多數語 者辨識所使用的表現最佳的建模框架,其後續的研究通常是基於 i-Vector 對分類 和評分方法的改善,其訓練流程如圖 2.10。

JFA 公式可以改寫做:

𝑀𝑀 = 𝑚𝑚 + 𝑇𝑇

𝑤𝑤

……… (2.6) M = [⋮]

𝐶𝐶𝐶𝐶𝑥𝑥1

m = [⋮]

𝐶𝐶𝐶𝐶𝑥𝑥1

T = � 𝑇𝑇

1

𝑇𝑇 ⋮

𝐶𝐶

𝐶𝐶𝐶𝐶𝑥𝑥𝐶𝐶

w = [⋮]

𝐶𝐶𝑥𝑥1

w ~ 𝑁𝑁(0, 𝐼𝐼)

其中:

𝒎𝒎

:語者與通道無關的分量,即 UBM

𝑻𝑻

:總體變異空間(Total Variability Matrix)

𝒘𝒘

:即為 i-Vector

圖 2.10、i-Vector 訓練流程

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.3. 機器學習

機器學習是人工智慧的處理方法,主要是利用機率論與統計學等多門計算科 學,實現讓電腦可以自動從資料中學習並找出其相互間的關係或規則,然後利用 它來做判別或預測的演算法。近年來由於電腦硬體設備的進步加上多工與分散式 演算法逐漸完善,使得機器學習逐漸成為現世代中的顯學。目前機器學習已廣泛 應用於資料探勘、電腦視覺、自然語言處理、語音和手寫辨識等各式各樣領域。

常見的機器學習演算法有:支援向量機(SVM)與深度學習等(其範圍如圖 2.11)。

圖 2.11、人工智慧、機器學習、深度學習範圍

2.3.1. 深度學習 (Deep Learning)

深度學習是基於類神經網路,讓電腦模擬人類大腦運作方式,進而讓電腦可 以擁有和人類一樣的學習能力。人的的大腦是由神經元所構成,在類神經網路中 每個神經元都有其權重,這些神經元的輸入是一組數值,輸出是一個數值。在設 定好神經元後,我們只需要決定個神經元間的連結方式,機器可以根據訓練資料 找出每個神經元的參數。其中神經元與神經元之間,每排稱為一層(Layer),每 層神經元的輸出為下一層各神經元的輸入,中間層則稱之為隱藏層(Hidden

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

Layer),最後一層稱為輸出層(Output Layer)。所謂深度學習,意味著有很多 的隱藏層(如圖 2.12)。

圖 2.12、深度學習模型示意圖

深度學習由於層數的提高,因此需要大量的訓練資料以滿足各個神經元之間 連結參數的計算。經過大量資料訓練後,機器最終能找到一個最佳函數,得出最 佳結果。以目前知名的 Google DeepMind AlphaGo 為例[9],其資料庫中約含 3000 萬步棋著,利用這些資料使用深度學習自己與自己對弈以強化學習能力,並預測 下個棋子所該落子的位置。在一盤圍棋比賽中平均約有 150 步棋;每步棋平均約 有 200 種下法,其複雜度可想而知,但藉由深度學習的 AlphaGo,其最終以 4:1 擊敗了世界棋王,並在網路上引發了人們對人工智慧的廣泛討論。

如上所述,深度學習需要大量學習資料且需要精準的訓練資料標示,雖然深 度學習在聲音領域方面是非常有前景的方法,但本研究主要是探討聲音風格分析,

聲音風格本就不易標示,我們所挑選的風格亦是大眾較常見且有共識聲音,因此 本研究暫不考慮使用深度學習模型。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

2.3.2. 支援向量機 (Support Vector Machine, SVM)

SVM 是於 1995 年由 Cortes 和 Vapnik 所提出[10]基於結構風險最小化的 機器學習方法,使用最大間隔分類(Maximum Margin Classifiers)來設計決策最 佳分類超平面的演算法。一般常用來進行模式識別(Pattern Recognition)、分類

(Classifier)或迴歸分析(Regression Analysis)。SVM 在小樣本、非線性及高 維度模式辨識中有許多特有的優勢,因此常被使用在機器學習問題中。此外計算 速度快,空間成本低,在業界也有廣泛的應用。

SVM 可經由訓練(Training)一群已經標記好的資料獲得一組模型(如圖 2.13),之後若有尚未標記的資料,SVM 可以用先前訓練好的模型去預測(Predict)

這筆資料屬於哪個類別。因訓練的資料須事先標記,故 SVM 屬於是監督式學習

(Supervised Learning)的方法。

圖 2.13、線性 SVM 分類示意圖

除了進行線性分類之外,SVM 還可以將輸入的向量利用所謂的核函數

(Kernel Function)映射到高維度空間來做非線性分類(如圖 2.14)。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 2.14、非線性 SVM 分類示意圖

本研究主要欲探討事先定義好的聲音風格,是經過前處理降低背景音,再透

本研究主要欲探討事先定義好的聲音風格,是經過前處理降低背景音,再透

相關文件