• 沒有找到結果。

基於i-Vector 特徵之聲音風格分析 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "基於i-Vector 特徵之聲音風格分析 - 政大學術集成"

Copied!
66
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. ‧ 國. 學. 基於 i-Vector 特徵之聲音風格分析. ‧. Analysis of Voice Styles Using i-Vector Features. n. er. io. sit. y. Nat. al. Ch. e. i. i n U. v. gch 研 究 n生:高文聰 指導教授:廖文宏. 中華民國一百零七年七月 July 2018. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(2) 基於 i-Vector 特徵之聲音風格分析 Analysis of Voice Styles Using i-Vector Features. 研 究 生:高文聰. Student:Wen-Tsung Kao. 指導教授:廖文宏. Advisor:Wen-Hung Liao. 立. 國立政治大學 治 政 資訊科學系 碩士論文. 大. ‧ 國. 學 ‧. A Thesis submitted to Department of Computer Science National Chengchi University in partial fulfillment of the Requirements a l for the degree of i v n Ch U eMaster ngchi in Computer Science. n. er. io. sit. y. Nat. 中華民國一百零七年七月 July 2018. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(3) 基於 i-Vector 特徵之聲音風格分析與應用. 摘要. 聲音的風格有若干常見的形容詞,但難以被精確定義。本論文試圖從 語者辨識(Speaker Recognition)的觀點出發,針對不同的聲音風格進 行分析,使用的方法為目前在語音辨識中常用的特徵值向量 i-Vector,. 政 治 大 並搭配支援向量機(SVM)做分類。為了測試 i-Vector 對於聲音風格 立. ‧ 國. 學. 描述的可用性,在過程中我們事先做了許多的驗證,包含基本語者辨. ‧. 識、最短輸入聲音長度測試、白噪音對於語者驗證的影響、說話內容. sit. y. Nat. 關聯性測試、聲音取樣率測試與配音員使用不同聲調對於風格的測試。. er. io. 確認特徵之相關性後,我們挑選日常生活中常見的八種聲音風格類型. n. a. v. l C 進行分類,分析結果是否具一致性,證實利用語者辨識系統也可以有 ni. hengchi U. 效的辨識聲音的風格類型。. 關鍵字:聲音風格;機器學習;模式分類;i-Vector;ALIZE。. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(4) Analysis of Voice Styles Using i-Vector Features. Abstract. Many adjectives have been used to describe voice characteristics, yet it is challenging to define sound styles precisely using quantitative measure. In. 政 治 大 based on techniques designed for speaker recognition. Specifically, we 立. this thesis, we attempt to tackle the sound style classification problem. employ i-Vector, a widely adopted feature in speaker identification. ‧ 國. 學. together with support vector machine (SVM) for style classification. In. ‧. order to verify the reliability of i-vector, we conducted a series of. sit. y. Nat. experiments, including basic speaker recognition function, minimum voice. io. er. duration¸ noise sensitivity, context dependency, sensitivity to different sampling rates and style classification of samples from voice actors. The. al. n. v i n results indicate that i-VectorCcan be utlilized to classify sound styles h eindeed ngchi U that are commonly perceived in daily life.. Keywords: sound style; machine learning; pattern recognition; i-Vector; ALIZE.. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(5) 目錄 第一章. 緒論 ......................................................................................................... 1. 1.1. 研究動機 ................................................................................................. 1. 1.2. 論文架構 ................................................................................................. 4. 第二章. 背景知識與相關研究 ............................................................................. 5. 2.1. 聲音特徵 ................................................................................................. 5. 2.1.1. 梅爾倒頻譜係數 ........................................................................................................... 6. 2.2.2. 政 治 大 高斯混合模型 ............................................................................................................... 7 立 通用背景模型 ............................................................................................................... 9. 2.2.3. 聯合因素分析 ............................................................................................................... 9. 2.2.4. i-Vector ........................................................................................................................ 11. 2.2.1. 學. ‧. 2.3. 語者模型 ................................................................................................. 7. ‧ 國. 2.2. 機器學習 ............................................................................................... 13 深度學習 ..................................................................................................................... 13. 2.3.2. 支援向量機 ................................................................................................................. 15. sit. y. Nat. 2.3.1. 第三章. v i n Ch 研究方法 ............................................................................................... 18 engchi U n. al. 3.1. er. 小結 ....................................................................................................... 16. io. 2.4. 工具探討 ............................................................................................... 18. 3.1.1. ALIZE Toolkit ............................................................................................................. 18. 3.1.2. LIBSVM ...................................................................................................................... 19. 3.2. 前期研究 ............................................................................................... 20. 3.2.1. 資料前處理 ................................................................................................................. 21. 3.2.2. i-Vector 功能基本驗證 ............................................................................................... 21. 3.2.3. 最短資料長度測試 ..................................................................................................... 24. 3.2.4. 白噪音對於語者辨識的影響能 ................................................................................. 26. 3.2.5. 不連續語音內容測試 ................................................................................................. 30. 3.2.6. 聲音取樣率測試 ......................................................................................................... 31. 3.2.7. 配音員使用不同聲調對於聲音風格的影響.............................................................. 33. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(6) 3.3. 研究架構 ............................................................................................... 35. 3.3.1. 風格定義 ..................................................................................................................... 35. 3.3.2. 資料來源 ..................................................................................................................... 40. 3.4. 目標設定 ............................................................................................... 40. 第四章. 研究過程與結果分析 ........................................................................... 41. 4.1. 收集訓練資料 ....................................................................................... 41. 4.2. 訓練資料前處理 ................................................................................... 42. 4.2.1. i-Vector 正規化 ........................................................................................................... 42. 4.2.2. SVM 訓練及測試結果 ................................................................................................ 43. 4.2.3. 預測錯誤樣本分析 ..................................................................................................... 48. 4.3.2. 電話錄音預測風格結果分析 ..................................................................................... 51. ‧ 國. 4.3. 學. 4.3.1. 治 政 大 聲音風格分析之應用 ........................................................................... 50 立 使用電話錄音之聲音風格辨識 ................................................................................. 50 結論與未來研究方向 ........................................................................... 52. 5.1. 結論 ....................................................................................................... 52. 5.2. 未來研究方向 ....................................................................................... 52. ‧. 第五章. er. io. sit. y. Nat. al. n. 參考文獻 ..................................................................................................................... 54. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(7) 圖目錄 圖 1.1:聲音波形頻譜圖:上圖為嬰兒哭聲,下圖為下雨聲.................................. 2 圖 1.2:聲音波形頻譜圖:上圖為蟲鳴聲,下圖為鳥叫聲...................................... 2 圖 2.1:語者識別示意圖.............................................................................................. 5 圖 2.2:MFCC 的擷取流程圖 ..................................................................................... 6 圖 2.3:梅爾倒頻譜...................................................................................................... 6. 政 治 大. 圖 2.4:高斯分布.......................................................................................................... 7. 立. 圖 2.5:GMM 模型訓練流程....................................................................................... 8. ‧ 國. 學. 圖 2.6:UBM 模型訓練流程 ....................................................................................... 8. ‧. 圖 2.7:JFA 將 GMM 分為語者相關與通道相關空間 .............................................. 9. y. Nat. al. er. io. sit. 圖 2.8:JFA 處理流程圖 ............................................................................................ 11. v. n. 圖 2.9:總體變異矩陣................................................................................................ 11. Ch. engchi. i n U. 圖 2.10:i-Vector 訓練流程 ....................................................................................... 12 圖 2.11:人工智慧、機器學習、深度學習範圍...................................................... 13 圖 2.12:深度學習模型示意圖.................................................................................. 14 圖 2.13:線性 SVM 分類示意圖 ............................................................................... 15 圖 2.14:非線性 SVM 分類示意圖 ........................................................................... 16 圖 3.1:ALIZE 架構 ................................................................................................... 18 圖 3.2:ALIZE 處理流程 ........................................................................................... 19. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(8) 圖 3.3:SoX 轉檔範例 ............................................................................................... 21 圖 3.4:ALIZE Toolkit 執行流程 .............................................................................. 22 圖 3.5:ALIZE Toolkit 驗證流程 .............................................................................. 23 圖 3.6:最短測試資料流程........................................................................................ 24 圖 3.7:最短訓練資料流程........................................................................................ 25 圖 3.8:使用 SoX 加入白噪音 .................................................................................. 26 圖 3.9:使用 Audacity 進行降噪 ............................................................................... 27. 政 治 大 圖 3.10:白噪音對於語者辨識影響測試流程.......................................................... 27 立. ‧ 國. 學. 圖 3.11:白噪音測試頻譜圖...................................................................................... 28. ‧. 圖 3.12:獨立成份分析與雞尾酒效應示意圖.......................................................... 29. sit. y. Nat. 圖 3.13:不連續內容語音測試流程.......................................................................... 30. n. al. er. io. 圖 3.14:使用 FFMpeg 自動分割聲音樣本 .............................................................. 31. Ch. i n U. v. 圖 3.15:聲音取樣率降低至 8,000Hz 測試流程 ...................................................... 32. engchi. 圖 3.16:配音員使用不同聲調對聲音風格影響測試流程...................................... 34 圖 3.17:研究架構...................................................................................................... 35 圖 3.18:冷靜(女)之聲音頻譜圖.......................................................................... 36 圖 3.19:娃娃音(女)之聲音頻譜圖...................................................................... 36 圖 3.20:陽光(女)之聲音頻譜圖.......................................................................... 37 圖 3.21:穩重(女)之聲音頻譜圖.......................................................................... 37. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(9) 圖 3.22:低沉(男)之聲音頻譜圖.......................................................................... 38 圖 3.23:激昂(男)之聲音頻譜圖.......................................................................... 38 圖 3.24:陽光(男)之聲音頻譜圖.......................................................................... 39 圖 3.25:穩健(男)之聲音頻譜圖.......................................................................... 39 圖 4.1:未正規化 i-Vector 男女樣本分佈圖 ............................................................ 42 圖 4.2:正規化後 i-Vector 男女樣本分佈圖 ............................................................ 43 圖 4.3:聲音風格驗證流程........................................................................................ 44. 政 治 大 圖 4.4:聲音風格測試流程........................................................................................ 45 立. ‧ 國. 學. 圖 4.5:女生組頻譜圖,上至下依序為凱樂、黃韻玲、蔡珮蓁............................ 46. ‧. 圖 4.6:男生組頻譜圖,上至下依序為呂超倫、胡榮、顧寶文............................ 47. n. al. er. io. sit. y. Nat. 圖 4.7:機器合成音頻譜圖,上至下依序為 GOOGLE、百度 .............................. 47. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(10) 表目錄 表 3.1:ALIZE Toolkit 測試結果 .............................................................................. 23 表 3.2:最短測試資料測試結果件............................................................................ 24 表 3.3:最短訓練資料測試結果................................................................................ 25 表 3.4:白噪音對語者辨識測試結果........................................................................ 29 表 3.5:不連續內容語音測試結果............................................................................ 30. 政 治 大. 表 3.6:聲音取樣率測試結果.................................................................................... 32. 立. 表 3.7:配音員使用不同聲調對於聲音風格的影響測試結果................................ 34. ‧ 國. 學. 表 4.1:聲音風格與代表人物簡介............................................................................ 41. ‧. 表 4.2:聲音風格驗證結果........................................................................................ 44. y. Nat. al. er. io. sit. 表 4.3:聲音風格測試人物簡介................................................................................ 45. v. n. 表 4.4:聲音風格測試結果........................................................................................ 48. Ch. engchi. i n U. 表 4.5:聲音風格預測錯誤之資料 1......................................................................... 48 表 4.6:聲音風格預測錯誤之資料 2......................................................................... 49 表 4.7:聲音風格預測錯誤之資料 3......................................................................... 49 表 4.8:使用電話錄音之聲音風格辨識測試結果.................................................... 50. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(11) 第一章 緒論 1.1. 研究動機 聲音是空氣中透過震動所產生的壓力波,也是人與人之間溝通最直接的媒介 之一。人聲經過組合可以產生語言、曲調、歌聲等不同的形式表現,透過這些形 式可使聽眾感受到發聲者所想表達的內容、情緒。激昂的音調能進而達到激勵、. 政 治 大 一致的音調容易會讓人感到昏昏欲睡;忽高忽低的音調則會讓人感到心情煩雜進 立 鼓動的效果,使人情緒高漲;柔和的音調能讓人感到如沐春風、心情愉悅;頻率. ‧ 國. 學. 而影響聽眾情緒與注意力。在神經語言規劃[1]中,將視覺(Visual)、聽覺 (Auditory)、感覺(Kinesthetic)跟內心對話(Auditory digital)稱之為「表象. ‧. 系統」,研究結果顯示屬於聽覺型的人約佔全美 20%的人口,可見聲音對人類的. sit. y. Nat. 影響有多巨大。. n. al. er. io. 然而排除文化因素,人類是否能對聲音風格做準確的描述呢?在科學上,我. i n U. v. 們常把聲音訊號轉換成時間與頻率的數位波形頻譜顯示(如圖 1.1、1.2 所示),. Ch. engchi. 藉由不同的頻率振幅產生的波形來紀錄;在日常生活中,我們大多利用一些形容 詞,例如:低沉、嘹亮、洪亮、鏗鏘、幽咽、輕柔、悠揚、高亢、圓潤、甜美等 來做間接說明,若找不到適合的形容詞甚至我們會採用『像某某人的聲音』的方 式代入,如:知名廣播主持人李季準先生的聲音低沉而有磁性,正是代表之一。 要如何去量化低沉而有磁性呢?正因聲音給人的感覺是如此的虛無飄渺,同樣一 段聲音不同人聽到可能有不同的感受而產生不同的形容方式?對於聲音風格界 限似乎沒有一套放諸四海的準則。然而到目前為止,亦未有一種適合的方法來為 聲音風格做客觀的敘述。因風格是一種不好透過文字描述,但卻很容易透過感覺 器官感受到的。特定的聲音風格所能夠帶給人們的感動與衝擊亦比一般人說話的 1. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(12) 聲音更具代表性。為此希望能透過本研究對聲音風格的分析,來幫助使用者對聲 音風格能做出更客觀的參考。. 立. 政 治 大. ‧ 國. 學 ‧. 圖 1.1、聲音波形頻譜圖:上圖為嬰兒哭聲,下圖為下雨聲. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 1.2、聲音波形頻譜圖:上圖為蟲鳴聲,下圖為鳥叫聲. 2. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(13) 綜合以上,現階段到底有哪些聲音處理與分析技術,可以讓我們更加深入探 討聲音風格?自 1996 年以來,美國國家標準暨技術研究院(National Institute of Standards and Technology, NIST ) 開 始 語 者 辨 識 評 估 (Speaker Recognition Evaluation, SRE)[2] 計畫,其目標是為了推動語者辨識技術的進步並試圖找到 最佳的演算法。從那時起,全世界有超過 70 個研究團隊參與這個計畫,直至今 日仍陸續有研究團隊加入,發展至今語者辨識準確率已有相當好的成果。其中, 由 Dehak 等人提出的 i-Vector 最初即用於語者辨識問題,而今在語音處理的領域 已成為眾所周知並廣泛使用的一項特徵。為了測試 i-Vector 對於聲音風格的相關. 治 政 大 中常見的八種聲音風格,透過機器學習、建立模型的方法,去預測使用者的聲音 立 性,過程中本研究事先做了一些驗證。在確認其相關性後,本研究挑選日常生活. 風格,並評估結果是否符合大眾直覺之判斷。. ‧ 國. 學. 歸納上述對於本研究之動機以及相關技術介紹,希望藉由語者辨識取得之特. ‧. 徵,透過機器學習的分類與預測,進行在使用者輸入聲音的狀況下自動判斷聲. sit. n. al. er. 我們提出經由公開平台所取得的聲音資料,經由一些前處理,得以判別. io. 1.. 聲音風格屬於哪種類型。 2.. y. Nat. 音風格之研究,以下列舉本論文的主要貢獻:. Ch. engchi. i n U. v. 我們分析並證實,由語者辨識技術所選出的聲音特徵,對於聲音風格的 辨識具有效性。分析資料顯示,有些人可以利用後天練習改變其聲音風 格。. 3.. 我們也提出,由大眾評估所取得的聲音風格表現,可以透過機器學習、 建立模型的方法,預測輸入使用者之風格。. 4.. 應用上述機器學習的結果,實做出一套原型應用程式,用以預測聲音風 格之類型,其評估結果符合大眾直覺之判斷。. 3. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(14) 1.2. 論文架構 本論文架構如下所述:在第二章我們將會概觀地探討近年來利用語者辨識技 術所進行的研究相關議題。在第三章首先介紹開源語者辨識工具,並針對語音風 格,提出本研究的基本構想,接下來簡單展示基於此構想所做的前期研究,以及 在得到初步的成果後,設計研究架構,並且設定預期的目標。在第四章詳細描述 資料蒐集與其過程,並闡述其研究結果的分析與應用。在第五章對所開發的系統 做一個簡單的結論,並且提出未來可能延續發展之方向。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 4. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(15) 第二章 背景知識與相關研究 在本章節中,將對語者辨識(如圖 2.1)領域進行相關研究之探討。其中主 要分為聲音特徵、語者模型和機器學習三方面,隨著研究方法不斷演進,讓我們 可以一窺現今在聲音領域的進展概況。. 立. 政 治 大. ‧. ‧ 國. 學. n. al. y er. io. 2.1. 聲音特徵. sit. Nat. 圖 2.1、語者識別示意圖. Ch. engchi. i n U. v. 聲音特徵參數方面,主要分為聲學特徵(Acoustic features)與韻律特徵 (Prosodic features):聲學特徵主要是模擬人耳對聲音頻率的感知而提出,如梅 爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients, MFCC)、線性預測倒 頻譜係數(linear prediction cepstral coefficients,LPCC)和感知線性預測(Perceptual Linear Prediction, PLP)等參數;韻律特徵主要是基於發聲器官如聲道和鼻腔的生 理結構而提取的參數,如音高(Pitch)、能量(Energy)和共振峰(Formant)等。 在 NIST 2006 比賽結果顯示,聲學參數相對於韻律參數與混合參數都有較好實驗 結果[3]。目前在聲音辨識領域中,大多數研究中[4]主要還是取 MFCC 作為聲音 特徵值,用以判別聲音種類。在此本研究亦用之以作為聲音風格辨識。 5. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(16) 2.1.1. 梅爾倒頻譜係數 (Mel-Frequency Cepstral Coefficients, MFCC). 圖 2.2、MFCC 的擷取流程圖 梅爾倒頻譜係數是基於人耳就類似一個濾波器,對於不同的頻率會有不同的. 政 治 大. 感知程度。在可聽到的頻段內,對於低頻的變化較為敏感,而對於高頻相對較弱. 立. 一些,加強感受較為強烈的低頻頻段,降低關注較少的高頻頻段,將線性的聲音. ‧ 國. 學. 頻譜映射到基於聽覺感知的梅爾非線性頻譜(如圖 2.3)中,再轉換到倒頻譜上。比 起正常的對數倒頻譜中的線性間隔的頻帶更接近人類的聽覺系統。因此廣泛地被. ‧. 使用在關於人類聲音的方面研究上,其擷取流程如圖 2.2。梅爾量度(Mel Scale),. n. 𝑴𝑴(𝒇𝒇) a = 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝒍𝒍𝒍𝒍𝒍𝒍𝟏𝟏𝟏𝟏(𝟏𝟏 +. 𝒇𝒇. er. io. sit. y. Nat. 其公式如 2.1:. ) ………………… (2.1). 𝟕𝟕𝟕𝟕𝟕𝟕 i v l C hengchi Un. 圖 2.3、梅爾倒頻譜 6. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(17) 2.2. 語者模型 2.2.1. 高斯混合模型 (Gaussian Mixture Model, GMM) 高斯混合模型是單一高斯機率密度函數的延伸,其對任意形狀的機率密度分 佈能夠平滑地模擬,近年來經常被使用於語音與語者辨識上。高斯分布(Gaussian Distribution)又稱常態分布(Normal Distribution)是一種極為常見的連續機率分 布(如圖 2.4)。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. i n U. v. 圖 2.4、高斯分布。μ為平均值(Mean),σ為標準差(Standard Deviation). engchi. 自從 1995 年,DA Reynolds[5]首次成功地利用多個高斯模型的平均值來描 述聲音特徵參數的分布位置;共變異矩陣用來描述分型形狀的變化,並運用到與 本文無關(Text independent)的語者辨識中得到不錯的成果。至此之後有關語者辨 識的發展演進大多以 GMM 作為基礎進行改善和發展。理論上 GMM 可以近似 任意機率分佈,但若要充分訓練一個 GMM 需要大量的語者訓練資料,訓練數據 太少則可能發生過度訓練(Over-Fitting),其訓練流程如圖 2.5。. 7. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(18) 圖 2.5、GMM 模型訓練流程. 政 治 大 在實際應用中從使用者經驗考量,可採集的語音資料極其有限,大量的語音 立. 2.2.2. 通用背景模型 (Universal Background Model, UBM). ‧ 國. 學. 訓練資料往往無法獲得,所得到的訓練語音可能僅有幾分鐘甚至更短,在有限的 資料下很難訓練出一個穩定的模型來表示語者特徵。因此,2000 年 DA Reynolds. ‧. 團隊又提出了一種改進方案[6]來解決此一問題,利用其他大量非目標人員的聲. sit. y. Nat. 音當作背景數據,混合起來訓練出一個充分的 GMM 模型,此模型可代表一般非. io. al. er. 特定語者的聲音特性。使用者根據各自少量的訓練資料,藉由最大事後機率. v. n. (Maximum A Posteriori, MAP),將 GMM-UBM 調適成個別語者的特定模型,. Ch. engchi. 也避免過度訓練的發生,其訓練流程如圖 2.6。. i n U. 圖 2.6、UBM 模型訓練流程. 8. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(19) 2.2.3. 聯合因素分析 (Joint Factor Analysis, JFA) 然而在眾多的訓練資料中,每個人因錄音環境與設備都不盡相同,所造成的 話筒、通道以及說話狀態差異,使得訓練時經錄音取的語音特性與測試資料有很 大的不一致性,此不一致性會大大地降低 UBM 辨識結果。於是在 2007 年 Kenny 提出將因素分析(Factor Analysis,FA)導入語者辨識領域[7],如此只要使用數 量較少的基礎向量組合即可表示原來高維度的 GMM 超向量。此種技術也廣泛的 使用在圖像與聲音壓縮技術中,因真實數據往往參雜許多的多餘訊息。聯合因素 分析假設在 GMM-UBM 系統中的 GMM 超向量,大致上可以分為跟語者本身有. 政 治 大 就是將語者 GMM 超向量所在的空間劃分為語音相關空間,通道空間,還有一個 立. 關的向量特徵和跟通道以及其他變化有關的向量特徵的線性疊加(如圖 2.7)。也. ‧ 國. 學. 其餘動態空間。這樣,如果我們能抽取出跟說話人本身相關的特徵而去掉和通道 相關的特徵,就能克服通道差異影響進行辨識。最後結果證明這個方法是有效的,. ‧. 採用聯合因素分析後,系統的準確率明顯提高,其處理流程如圖 2.8。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2.7、JFA 將 GMM 分為語者相關與通道相關空間. 9. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(20) JFA 將語者相關超向量 M 視為以下幾個部份疊加:. 𝑀𝑀 = 𝑠𝑠 + 𝑐𝑐 ……………………………… (2.2). 其中:. 𝒔𝒔 :語者相關分量. 𝒄𝒄 :通道相關分量. 𝒔𝒔 = 𝒎𝒎 + 𝑽𝑽𝒚𝒚 + 𝑫𝑫𝒛𝒛 ……………………… (2.3). 立. 學. ‧ 國. 其中:. 政 治 大. 𝒄𝒄 = 𝑼𝑼𝒙𝒙 ………………………………… (2.4). 𝒎𝒎 :語者與通道無關的分量,即 UBM. ‧. 𝑽𝑽𝒚𝒚 :語者相關的分量. sit. n. al. er. io. 𝑫𝑫𝒛𝒛 :其餘動態分量. y. Nat. 𝑼𝑼𝒙𝒙 :通道相關的分量. Ch. 合併上述式子可以得到:. engchi. i n U. v. 𝑀𝑀 = 𝑚𝑚 + 𝑉𝑉𝑦𝑦 + 𝑈𝑈𝑥𝑥 + 𝐷𝐷𝑧𝑧 …………………… (2.5) 𝑉𝑉1 V= � ⋮ � 𝑉𝑉𝐶𝐶 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶. M = [⋮]𝐶𝐶𝐶𝐶𝐶𝐶1. m = [⋮]𝐶𝐶𝐶𝐶𝐶𝐶1. 𝑈𝑈1 U= � ⋮ � 𝑈𝑈𝐶𝐶 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶. 𝛴𝛴1 D= � ⋮ 0. x, y, and z ~ 𝑁𝑁(0, 𝐼𝐼). ⋯ ⋱ ⋯. 0 ⋮� 𝛴𝛴𝑐𝑐 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶. 10. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(21) 圖 2.8、JFA 處理流程圖. 2.2.4. i-Vector. 政 治 大. 將語者與通道相關因素完全分離在實際應用中很難達成,故 Dehak 以 JFA. 立. 為基礎,在 2011 年提出[8]用一個子空間同時描述語者訊息和通道訊息。即模擬. ‧ 國. 學. 語者差異性又模擬通道差異性的空間稱為總體變異空間(Total Variability Matrix) , 藉由訓練出的總體變異空間(如圖 2.9),將原本的超級向量映射到更低維的空. ‧. 間,每段語音在這個空間上的映射坐標稱作 i-Vector。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2.9、總體變異矩陣 11. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(22) i-Vector 可以看做是一種特徵;亦可看做是簡單的模型,通常 i-Vector 向量 維度也不會太高,一般在 100~1000 左右。因其能更佳地表現出語者及通道資訊 並具有良好的空間方向性,因此使用 i-Vector 能輕易的使用 SVM 做區分。時至 今日研究語者辨識問題中,i-Vector 是表現最好的特徵參數之一;亦是大多數語 者辨識所使用的表現最佳的建模框架,其後續的研究通常是基於 i-Vector 對分類 和評分方法的改善,其訓練流程如圖 2.10。 JFA 公式可以改寫做:. 𝑀𝑀 = 𝑚𝑚 + 𝑇𝑇𝑤𝑤 ………………………… (2.6). 政 治m = 大 [⋮]𝐶𝐶𝐶𝐶𝐶𝐶1. M = [⋮]𝐶𝐶𝐶𝐶𝐶𝐶1. 立. y. w ~ 𝑁𝑁(0, 𝐼𝐼). er. io. sit. ‧ 國. w = [⋮]𝑅𝑅𝑅𝑅1. ‧. Nat. 其中:. 學. 𝑇𝑇1 T= � ⋮ � 𝑇𝑇𝐶𝐶 𝐶𝐶𝐶𝐶𝐶𝐶𝐶𝐶. 𝒎𝒎:語者與通道無關的分量,即 UBM a. n. iv l C n h e n gMatrix) 𝑻𝑻:總體變異空間(Total Variability chi U 𝒘𝒘:即為 i-Vector. 圖 2.10、i-Vector 訓練流程 12. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(23) 2.3. 機器學習 機器學習是人工智慧的處理方法,主要是利用機率論與統計學等多門計算科 學,實現讓電腦可以自動從資料中學習並找出其相互間的關係或規則,然後利用 它來做判別或預測的演算法。近年來由於電腦硬體設備的進步加上多工與分散式 演算法逐漸完善,使得機器學習逐漸成為現世代中的顯學。目前機器學習已廣泛 應用於資料探勘、電腦視覺、自然語言處理、語音和手寫辨識等各式各樣領域。 常見的機器學習演算法有:支援向量機(SVM)與深度學習等(其範圍如圖 2.11) 。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. i n U. v. 圖 2.11、人工智慧、機器學習、深度學習範圍. Ch. engchi. 2.3.1. 深度學習 (Deep Learning) 深度學習是基於類神經網路,讓電腦模擬人類大腦運作方式,進而讓電腦可 以擁有和人類一樣的學習能力。人的的大腦是由神經元所構成,在類神經網路中 每個神經元都有其權重,這些神經元的輸入是一組數值,輸出是一個數值。在設 定好神經元後,我們只需要決定個神經元間的連結方式,機器可以根據訓練資料 找出每個神經元的參數。其中神經元與神經元之間,每排稱為一層(Layer),每 層神經元的輸出為下一層各神經元的輸入,中間層則稱之為隱藏層(Hidden. 13. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(24) Layer),最後一層稱為輸出層(Output Layer)。所謂深度學習,意味著有很多 的隱藏層(如圖 2.12)。. 立. 政 治 大. ‧ 國. 學 ‧. 圖 2.12、深度學習模型示意圖. Nat. sit. y. 深度學習由於層數的提高,因此需要大量的訓練資料以滿足各個神經元之間. n. al. er. io. 連結參數的計算。經過大量資料訓練後,機器最終能找到一個最佳函數,得出最. i n U. v. 佳結果。以目前知名的 Google DeepMind AlphaGo 為例[9],其資料庫中約含 3000. Ch. engchi. 萬步棋著,利用這些資料使用深度學習自己與自己對弈以強化學習能力,並預測 下個棋子所該落子的位置。在一盤圍棋比賽中平均約有 150 步棋;每步棋平均約 有 200 種下法,其複雜度可想而知,但藉由深度學習的 AlphaGo,其最終以 4:1 擊敗了世界棋王,並在網路上引發了人們對人工智慧的廣泛討論。 如上所述,深度學習需要大量學習資料且需要精準的訓練資料標示,雖然深 度學習在聲音領域方面是非常有前景的方法,但本研究主要是探討聲音風格分析, 聲音風格本就不易標示,我們所挑選的風格亦是大眾較常見且有共識聲音,因此 本研究暫不考慮使用深度學習模型。. 14. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(25) 2.3.2. 支援向量機 (Support Vector Machine, SVM) SVM 是於 1995 年由 Cortes 和 Vapnik 所提出[10]基於結構風險最小化的 機器學習方法,使用最大間隔分類(Maximum Margin Classifiers)來設計決策最 佳分類超平面的演算法。一般常用來進行模式識別(Pattern Recognition)、分類 (Classifier)或迴歸分析(Regression Analysis)。SVM 在小樣本、非線性及高 維度模式辨識中有許多特有的優勢,因此常被使用在機器學習問題中。此外計算 速度快,空間成本低,在業界也有廣泛的應用。 SVM 可經由訓練(Training)一群已經標記好的資料獲得一組模型(如圖. 政 治 大. 2.13) ,之後若有尚未標記的資料,SVM 可以用先前訓練好的模型去預測(Predict). 立. 這筆資料屬於哪個類別。因訓練的資料須事先標記,故 SVM 屬於是監督式學習. ‧ 國. 學. (Supervised Learning)的方法。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 2.13、線性 SVM 分類示意圖 除了進行線性分類之外,SVM 還可以將輸入的向量利用所謂的核函數 (Kernel Function)映射到高維度空間來做非線性分類(如圖 2.14)。. 15. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(26) 圖 2.14、非線性 SVM 分類示意圖. 政 治 大 本研究主要欲探討事先定義好的聲音風格,是經過前處理降低背景音,再透 立. ‧ 國. 學. 過聲音特徵值擷取計算出 i-Vector 進行訓練與分類。這在實際應用中可能存在以 下問題:其一是無法針對使用者進行長時間的聲音錄製,所獲取的訓練資料大多. ‧. 僅數十秒至一兩分鐘;其二是風格之間可能存在模糊地帶或是重疊部份。為解決. sit. y. Nat. 上述問題,經研究得到 SVM 對於小量樣本亦有良好的測試結果且亦是常用的語. io. er. 者辨識的分類方法之一;透過 SVM 機率模型(Probabilistic Models)[11]可以計 算出實驗結果對於每個聲音風格的個別機率,如此有助於判斷不易分類的聲音風. al. n. v i n Ch 格類型。因此 SVM 是本研究相對於深度學習較適合的分類方法。 engchi U 2.4. 小結. 綜合以上探討結果,由 Dehak 等人提出的 i-Vector[12]最初即用於語者辨識 問題,而今在語音處理的領域已成為眾所周知並廣泛使用的一項特徵,其主要 理論基礎從 Joint Factor Analysis(又名 JFA)[13]發展而來。因為錄音設備、錄 音當下背景的不同,導致辨識不精準,因此 JFA 便被採用以將語者特徵與背景 特徵分別考量。與 JFA 不同之處,在於 Dehak 等人提出的方法,不再將語者特 徵與背景特徵分為兩個變因考量,而使用一個總體變異性(Total Variability)的 16. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(27) 矩陣簡化。其簡化的前提,是須將訓練集中的人聲資料,都視為不同的語者。 當總體變異性矩陣訓練完成了,我們即可使用此矩陣來計算 i-Vector。Larcher 等人的研究[14],證實了 i-Vector 在與語言相關的語者辨識問題上是可信賴的。 i-Vector 亦是目前研究中最佳的聲音特徵值,尤其對語音有著極佳的表現,亦符 合現實應用中訓練資料越短越好的特性。除了語者辨識,i-Vector 在聲音情感辨 識(Speech Emotion Recognition)[15]亦有亮眼的表現,聲音情感亦是影響聲音 風格的因素之一。 雖然深度學習已有多篇研究證明是目前較佳的語者辨識分類方法,但其所需. 政 治 大 SVM 機率模型有著計算速度快;適合小量訓練資料;優異的分類表現等優點。 立. 訓練資料相對龐大且需要精準的訓練資料標示並不符合本研究的應用情境;相對. ‧ 國. 學. 基於以上看法,不採用深度學習而改採 i-Vector 作為對欲探討聲音風格的聲 音特徵向量,引用大眾對於聲音風格感受來做標示,以此訓練 SVM 機率模型來. ‧. 學習大眾對於聲音風格的結論,作為本論文的實作理論基礎。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 17. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(28) 第三章 研究方法 在本章節中,我們將介紹所使用的聲音特徵擷取工具 ALIZE Toolkit 與 SVM 函式庫 LIBSVM,使用它進行聲音風格的前期研究,最後根據前期研究的結果設 計出研究架構與預期取得的目標。. 3.1. 工具探討. 3.1.1. ALIZE Toolkit. 立. 政 治 大. ALIZE[16][17]是一套語者辨識的開源平台。主要目的是提供一套低階. ‧ 國. 學. (ALIZE-Core)和高階(LIA_RAL)框架,讓任何人都可以開發應用程式來處理. ‧. 語者辨識領域的各種任務:驗證、識別和分割等(如圖 3.1)。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.1、ALIZE 架構 ALIZE-Core 主要基於 GMM-UBM 的低階統計引擎;LIA_RAL 則是提供包 括語者辨識功能的相關計算模組。自 2005 年以來,ALIZE 的效能在許多屆 NIST 18. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(29) SREs 已經被驗證,並且 ALIZE 在一些主要的國際評估活動,如 NIST SRE、RT 和 French-ESTER 等都取得了很好的成績。直至今日 ALIZE 在學界和業界亦被 廣泛地使用。隨著語者辨識技術的演進,目前 LIA_RAL 函式庫已經支援 JFA、 i-Vector 和 PLDA(Probabilistic Linear Discriminant Analysis)等功能(如圖 3.2)。. 立. ‧ 國. 學 圖 3.2、ALIZE 處理流程. ‧ sit. y. Nat. 3.1.2. LIBSVM. 政 治 大. io. er. LIBSVM 是[18]所開發的一個簡單、易於使用的 SVM 分類與迴歸函式庫。. al. v i n Ch 整的 C 和 gamma 參數透過交叉驗證自動計算出最佳值,其中: engchi U n. 它將一般 SVM Kernel 選用 RBF(Radial Based Function)訓練所需要手動反覆調. . C 為 Cost 懲罰的權重,導入後目標函數如公式 3.1,C 愈大則較無法容 忍誤差,容易發生過度訓練(Over-fitting);反之,C 愈小則容易造成 訓練不足(Under-fitting)。 minimize. 1 2. ∥ 𝑤𝑤 ∥2 + 𝐶𝐶 � 𝜉𝜉𝑖𝑖 ………………… (3.1) 𝑖𝑖. subject to 𝑦𝑦𝑖𝑖 (𝑤𝑤 𝑇𝑇 𝑥𝑥𝑖𝑖 − 𝑏𝑏) − 1 + 𝜉𝜉𝑖𝑖 ≥ 0 . 𝜉𝜉𝑖𝑖 ≥ 0. ∀𝑖𝑖. ∀𝑖𝑖. gamma 是選擇 RBF 函數作為 kernel 的一個內部參數(gamma 與標準差 σ 關係如公式 3.3),gamma 太大,支援向量所影響區域半徑僅包括支 19. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(30) 援向量本身,無法防止過度訓練;gamma 太小,則模型太受約束,無法 捕捉到資料的複雜性或“形狀”(Shape)。. 𝑘𝑘 (𝑥𝑥, 𝑧𝑧) = exp �−. ∥𝑥𝑥−𝑧𝑧∥2 2𝜎𝜎 2. � = exp(−𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 ∥ 𝑥𝑥 − 𝑧𝑧 ∥2 )…… (3.2). ⟹ 𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 =. 1. 2𝜎𝜎 2. …………………..… (3.3). 並提供程式碼讓使用 SVM 變得簡單容易上手,不懂 SVM 原理的開發人員 也可以使用輕鬆使用 SVM。此外,LIBSVM 在預測目標時也支援 SVM 機率模型 輸出。. 政 治 大. LIBSVM 官方建議使用步驟如下:. 立. 把資料轉成 LIBSVM 所需的格式. 2.. 對訓練和測試資料做縮放調整(Scaling). 3.. 選用效能較好的 RBF Kernel. 4.. 用交叉驗證(Cross Validation)選擇較好的參數 C 和 gamma. 5.. 以步驟 4 找到的參數來訓練模型. 6.. 對測試資料進行預測. ‧. ‧ 國. 學. 1.. n. Ch. sit er. io. 3.2. 前期研究. y. Nat. al. engchi. i n U. v. 在相關研究中得知語者辨識準確率在目前聲音技術上已有相當的準確率, 不過影響語者辨識穩定性變因也有許多,以下將介紹在前期研究中所涉及實做 技術來驗證實驗方法的穩定性,包含: . 資料前處理. . ALIZE Toolkit 基本驗證. . 最短資料長度測試. . 白噪音對於語者辨識的影響. . 不連續語音內容測試 20. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(31) . 聲音取樣率測試. . 配音員使用不同聲調對於聲音風格的影響. 3.2.1. 資料前處理 ALIZE Toolkit 的聲音輸入格式為 SPH,SPH 是一種在語者辨識中常用聲音 格式,其包含 16 位元 PCM 和 44100Hz 取樣率(可調整) 。SPH 格式可以由 WAV 轉換獲得。在這裡我們使用 SoX[19](如圖 3.3)來做聲音格式轉換,SoX 是一套 跨平台(Windows,Linux,MacOSX 等)命令列執行程式,可以將各種格式的電 腦聲音檔轉換為其他格式。. 政 治 大. 立. ‧. ‧ 國. 學 y er. io. sit. Nat. 圖 3.3、SoX 轉檔範例. 3.2.2. i-Vector 功能基本驗證. al. n. v i n Ch ALIZE Toolkit 亦提供相對所需之功能 ALIZE 網頁[20] e n g,c故我們一開始先依照 hi U. 中教學文件連結下載 LIA_SpkDet — I-vector System 並利用內附聲音資料先進行 基本功能確認,ALIZE 執行步驟如下(如圖 3.4): 1.. 使用 SPro[21]擷取出 MFCC 特徵值. 2.. 對特徵值進行正規化並以能量檢測方式去除靜音部份. 3.. 訓練 UBM 模型後預估總體變異矩陣(Total Variability matrix),再計 算出 i-Vector. 4.. 以 WCCN、EFR 等方式正規化 i-Vector 並評分. 5.. 以 PLDA(Probabilistic Linear Discriminant Analysis model)方式對 i21. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(32) Vector 評分. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.4、ALIZE Toolkit 執行流程 22. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(33) 執行結果語者皆有正確辨識。因內建資料為 NIST-SRE 2004 所提供經由電 話錄音得到的語音資料,為確認在其他環境下所收集的語音資料也可正常地在 ALIZE Toolkit 工具包執行,我們隨機蒐集 15 位男性與 15 位女性廣播主持人的 聲音檔,每個人擷取語音資料約 120 秒來做基本的語者辨識,以確認 ALIZE 可 行性。 ALIZE Toolkit 工具包內附語音樣本有 100 個,因此將蒐集到的語音樣本分 割為每 30 秒一段共四段,經過 ALIZE 計算可得 120 個 i-Vector 樣本。隨機取 60 個 i-Vector 做為訓練資料;餘下 60 個做為測試資料,並重複測試共 10 次(如圖. 政 治 大. 3.5)。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.5、ALIZE Toolkit 驗證流程. SVM 使用的參數 c = 0.03125、g = 0.0078125,測試結果如下:. Round. SVM Accuracy. 1. 100%. 2. 100%. 3. 100%. 4. 100%. 5. 100% 23. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(34) 6. 100%. 7. 100%. 8. 100%. 9. 100%. 10. 100%. 表 3.1、ALIZE Toolkit 測試結果 由實驗結果得知:ALIZE Toolkit 可準確處理語者辨識問題。 3.2.3. 最短資料長度測試 因每人語音資料長度約為 120 秒,主要以 50%、50%分配給訓練與測試資料。. 學. ‧ 國. . 治 政 實驗 1:最短測試(Test)資料 大 立 將語音樣本分割為訓練資料 60 秒;測試資料依序為 30 秒、20 秒、10 秒、. 5 秒、3 秒、2 秒和 1 秒當作測試資料,每次實驗做 10 次取平均值(如圖 3.6)。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.6、最短測試資料流程 測試結果如下: 實驗 1 Training(秒). Test(秒). SVM Accuracy. 60. 60. 100%. 60. 30. 100%. 60. 20. 100%. 24. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(35) 60. 10. 100%. 60. 5. 96.67%. 60. 3. 90.56%. 60. 2. 83.89%. 60. 1. 60.56%. 表 3.2、最短測試資料測試結果 由實驗結果得知:在維持高準確度前提下,最短測試資料長度以 10 秒為單 位是較佳的結果。 . 實驗 2:最短訓練(Training)資料. 政 治 大 5 秒和 1 秒當作訓練資料(如圖 立 3.7)。測試結果如表 3.3。. 將語音樣本測試資料固定為 10 秒;訓練資料依序為 60 秒、30 秒、10 秒、. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.7、最短訓練資料流程 實驗 2 Training(秒). Test(秒). SVM Accuracy. 60. 10. 98.91%. 30. 10. 96.19%. 10. 10. 95.14%. 5. 10. 89.47%. 1. 10. 61.74%. 表 3.3、最短訓練資料測試結果 25. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(36) 由實驗結果得知:在訓練資料準確率愈高愈好的前提下,最短訓練資料以 60 秒為較佳的選擇。此實驗結果亦符合 GMM-UBM 中單檔訓練時間愈長;預估 TV Matrix 愈準確;所計算出的 i-Vector 愈能表現出該語音特徵的特性。 3.2.4. 白噪音對於語者辨識的影響 雖在文獻探討中指出,i-Vector 特徵對於通道影響有良好的抗噪性。現實資 料收集時常有收音環境背景音會錄進去或是在後製時加入其他音效等狀況,故測 試加入白噪音來測試系統對語者辨識的影響(加入方式如圖 3. 8)。 測試流程如下(如圖 3.10):. 政 治 大. 1.. 訓練資料每人取 60 秒,共 1 檔。. 2.. 測試資料每人取 10 秒,共 6 檔。. 3.. 依序加入原音量 1%、2%、4%的白噪音(頻譜圖如圖 3.11)。. 4.. 將步驟 3 原音量 1%白噪音,使用軟體[22]降噪(如圖 3.9)。. 5.. 重複步驟 1~4,共測試 10 次。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.8、使用 SoX 加入白噪音. 26. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(37) 政 治 大 圖 3.9、使用 Audacity 進行降噪 立 ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.10、白噪音對於語者辨識影響測試流程. 27. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(38) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.11、白噪音測試頻譜圖,上至下依序為 原音、白噪音 1%、白噪音 2%、白噪音 4%、白噪音 1%(軟體降噪) 測試結果如下: 28. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(39) 白噪音(原音量%). SVM Accuracy. 1%. 83.33%. 2%. 68.61%. 4%. 56.09%. 1%(軟體降噪). 93.33%. 表 3.4、白噪音對語者辨識測試結果 由以上實驗結果可得知,噪音對於辨識結果有相當大的影響,使用降噪軟體 對於辨識準確度正面效果。實際上,若在吵雜的環境中,人類對於語音的辨識也 會降低。但人耳較奇特的是,我們可以將注意力集中在某一個人的談話之中,而. 政 治 大. 忽略背景中其他的對話或噪音,使我們可以在吵雜的環境中交談,此種現象稱之. 立. 為雞尾酒會效應(Cocktail Party Effect)[23]。若要讓電腦如人耳般去自動分離出. ‧ 國. 學. 各式各樣不同的聲音,並從中找出我們感興趣的聲音,則需要在不同的位置放置 足夠的麥克風去紀錄這些聲音再藉由電腦去做分析,以分離各個訊號,此種方法. ‧. 稱為獨立成分分析(Independent Component Analysis,ICA) [24](如圖 3.12)。但. Nat. sit. y. 是目前機器自動過濾之效果不佳,因此在收集語音樣本時,應儘量避免或降低收. n. al. er. io. 音時環境音效所造成的影響。. Ch. engchi. i n U. v. 圖 3.12、獨立成分分析與雞尾酒效應示意圖 29. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(40) 3.2.5. 不連續語音內容測試 我們欲探討的聲音風格,主要是每個人說話的習慣是不同的,具備不同之聲 音特色,如重音、語調快慢、聲頻高低、音量大小,停頓語氣等。這些因素跟其 說話內容無關(Text-Independent),因此我們將擷取的語音樣本做隨機切割再組 合,並測試其對於語者辨識的關聯性。 測試流程如下(如圖 3.13): 1.. 將訓練資料每人取 60 秒,並以 5 秒為單位做切割。. 2.. 將步驟 1 切割後的檔案隨機組合回一個 60 秒語音檔。. 3.. 測試資料每人取 10 秒,共 6 檔。. 學 ‧. ‧ 國. 4.. 政 治 大 重複步驟 1~3,共測試 10 次。 立. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.13、不連續內容語音測試流程. 測試結果如表 3.5: Round. SVM Accuracy. 1. 100%. 2. 100%. 3. 100%. 4. 100%. 5. 99.67% 30. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(41) 6. 97.50%. 7. 100%. 8. 100%. 9. 99.67%. 10. 100%. 表 3.5、不連續內容語音測試結果 實驗過程中,我們使用 ffmpeg [25]將測試資料自動分割為單個 5 秒的檔案, 自動分割過程中若分割點不是剛好切在說話中字與字的間隔,如此分割出的檔案 可能會在開頭或是結尾處產生破音造成機器誤判,應儘量避免此種狀況產生。 執行指令如圖 3.14:. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.14、使用 FFMpeg 自動分割聲音樣本 由實驗結果可得知:i-Vector 對於語音內容並無太大影響(即符合 TextIndependent 之特性)。 3.2.6. 聲音取樣率測試 前面小節所做測試都是以取樣率(Sampling rate)44100Hz 為主,若是模擬 31. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(42) 電話通話音質是否會對語者辨識造成影響?因此我們將 3.2.3 節實驗中所有聲音 樣本的取樣率從 44,100Hz 降低至 8,000Hz,並測試其對於語者辨識的相關性。 測試流程如下(如圖 3.15): 1.. 訓練資料每人取 60 秒,共 1 檔。. 2.. 測試資料每人取 10 秒,共 6 檔。. 3.. 將聲音取樣率降低至 8000Hz。. 4.. 重複步驟 1~3,共測試 10 次。. 政 治 大. 立. ‧. ‧ 國. 學 er. io. sit. y. Nat. al. n. 圖 3.15、聲音取樣率降低至 8,000Hz 測試流程. 測試結果如表 3.6:. Ch. engchi. i n U. v. Round. SVM Accuracy. 1. 90.83%. 2. 90%. 3. 92.5%. 4. 93.33%. 5. 94.17%. 6. 87.5%. 7. 89.17%. 8. 92.5%. 9. 90.83% 32. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(43) 10. 90.83%. 表 3.6、聲音取樣率測試結果 由實驗結果可得知:取樣率降低辨識率也會隨之降低,但還是有約 90%的準 確率。 3.2.7. 配音員使用不同聲調對於聲音風格的影響 在收集資料過程中,我們發現專業的配音員一人聲音可以分飾多角,常見如 模仿老人、小朋友說話等;有些甚至可以模仿他人的說話的語氣型態,維妙維肖 到讓人無法分辨到底是不是本人在說話。故我們也在網路上蒐集了一些知名配音. 政 治 大. 員的聲音樣本,其中有他平時說話的聲音與他配音角色的聲音。我們想要知道如. 立. 果同一人若以不同的聲音模式說話,機器辨識會照著分類到本人,亦或是分類到. ‧ 國. 學. 其他風格。. 實驗流程如下(如圖 3.16):. ‧. 我們首先定義出兩種風格:. 男性低沉. sit. . io. 娃娃音. y. Nat. . n. al. er. 1.. 2.. 收集相關語音資料. Ch. engchi. i n U. v. . 娃娃音,代表人物:林志玲、丫頭[26]。. . 男性低沉,代表人物:李季準、甄建波。. . 娃娃音配音員,代表人物:林美秀(卡通『我們這一家』中「花 橘子」配音員)、林佑俽(卡通『櫻桃小丸子』中「小丸子」和卡 通『小紅豆』中「勇之助」配音員)。. 3.. SVM 分類標記如下: . 娃娃音. . 男性低沉. . 配音員 1 日常音 33. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(44)  4.. 配音員 2 日常音. 將娃娃音和男性低沉風格的候選人員與和配音員日常說話的聲音當作 訓練資料;再以配音員使用娃娃音和使用其他聲音配音的聲音當作測試 資料來進行檢驗,並使用 SVM 機率模型來分析其結果。. 重複步驟 1~4,共測試 10 次,測試結果如表 3.7。. 立. 政 治 大. ‧ 國. 學 ‧. 圖 3.16、配音員使用不同聲調對聲音風格影響測試流程. n. al. 櫻桃小丸子<小丸子>1 櫻桃小丸子<小丸子>2. 林美秀. (女性). (男性). (一般音). 57.09%. 7.44%. y. 低沉. sit. io. 我們這一家<花橘子>. 娃娃音. er. Nat. 節目名稱<配音角色>. 25.05%. 4.43% C78.18% hengchi Un 76.98% 7.93%. i v 12.34%. 林佑俽 (一般音) 10.41% 5.03%. 11.00%. 4.07%. 櫻桃小丸子<小丸子>3. 71.66%. 6.42%. 12.53%. 9.38%. 櫻桃小丸子<小丸子>4. 85.63%. 6.51%. 3.59%. 4.25%. 櫻桃小丸子<小丸子>5. 68.34%. 8.39%. 12.12%. 11.14%. 櫻桃小丸子<小丸子>6. 81.85%. 2.19%. 8.25%. 7.69%. 櫻桃小丸子<小丸子>7. 80.92%. 5.53%. 4.40%. 9.14%. 小紅豆<勇之助>1. 4.14%. 66.17%. 10.61%. 19.05%. 小紅豆<勇之助>2. 5.12%. 44.86%. 19.10%. 30.91%. 表 3.7、配音員使用不同聲調對於聲音風格的影響測試結果 34. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(45) 由實驗結果可得知,配音員使用不同聲調的聲音來詮釋角色會讓機器判別到 該詮釋角色所屬的聲音風格分類;亦即寄 i-Vector 特徵對於聲音風格的敏感性相 較於對於個人的敏感性為高。這也符合在現實中,常有配音員模仿的非常逼真, 人類不透過視覺只靠聽覺,也很難分辨出聲音是不是原主所發出。. 3.3. 研究架構 根據以上研究,設定的研究架構如圖 3.17:. 立. 政 治 大. ‧ 國. 學. 圖 3.17、研究架構. 3.3.1. 風格定義. ‧. 本階段研究一開始是先蒐集聲音資料,以軟體分析做標籤分群(Label. y. Nat. io. sit. clustering),再與大家共識投票出風格來做比對,最後結果是分散的。後來修正. n. al. er. 為:先找出風格代表性人物、反覆收集資料、大家共識投票、定義風格、再找出. Ch. i n U. v. 另一風格代表性人物,重複以上步驟,最後我們將聲音依男女主分為兩大類別,. engchi. 再藉由頻率低到高再細分為四種常見的風格。本研究將聲音風格共區分為八大類, 以下為我們所提出的八類風格特色的詳細說明: 女聲組: . 冷靜,代表人物:李育潔、雷光夏. 聲音偏低沉,聽起來較為理性且不參雜私人情感,其頻譜圖如圖 3.18。. 35. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(46) 政 治 大 圖 3.18、冷靜(女)之聲音頻譜圖 立 娃娃音,代表人物:林志玲、ㄚ頭. ‧ 國. 學. . 成年人的聲音聽起來像是小孩的聲音,其頻譜圖如圖 3.19。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.19、娃娃音(女)之聲音頻譜圖 . 陽光,代表人物:吳逸芳、Gina Lin. 聲音聽起來有朝氣,在兒童節目或是童話故事有聲書中常見的聲音,其頻譜 圖如圖 3.20。 36. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(47) 政 治 大 圖 3.20、陽光(女)之聲音頻譜圖 立 穩重,代表人物:高邵怡、劉家渝. ‧ 國. 學. . 聲音較有抑揚頓挫,在專業的廣播主持人較常出現,其頻譜圖如圖 3.21。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.21、穩重(女)之聲音頻譜圖 男聲組: . 低沉,代表人物:李季準、甄建波. 37. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(48) 聲音粗重不響,常搭配有磁性一同形容,大多在成熟男性較常聽見,其頻譜 圖如圖 3.22。. 立. 政 治 大. ‧ 國. . 學. 圖 3.22、低沉(男)之聲音頻譜圖 激昂,代表人物:戴立綱、劉寶傑. ‧. 聲音聽起來比較激動,在政論節目中較為常見,其頻譜圖如圖 3.23。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3.23、激昂(男)之聲音頻譜圖 . 陽光,代表人物:劉傑、蠢蠢. 38. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(49) 相對於女版陽光類型,較常在年輕男性主持的兒童節目中或卡通配音員中聽 見,其頻譜圖如圖 3.24。. 學. 圖 3.24、陽光(男)之聲音頻譜圖. 穩健,代表人物:邢子青、張敬. ‧. . ‧ 國. 立. 政 治 大. n. al. er. io. sit. y. Nat. 男版穩重類型,在專業的廣播主持人較常出現,其頻譜圖如圖 3.25。. Ch. engchi. i n U. v. 圖 3.25、穩健(男)之聲音頻譜圖. 39. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(50) 3.3.2. 資料來源 . Youtube YouTube[27]是源自美國的一個影音分享網站,主要讓使用者上載、觀看及. 分享及評論影片或短片。YouTube 的系統每天要處理上千萬個視頻片段,為全球 成千上萬的用戶提供高水平的視頻上傳、分發、展示、瀏覽服務。官方統計數據 中顯示,YouTube 現在有超過 10 億使用者,世界上所有上網的人群中幾乎有三 分之一的人每天在 YouTube 高達 10 億個小時的影片觀看時數,可知其所擁有影 音資料規模之龐大。基於其豐富的影音資料內容,故本研究資料主要以 Youtube 作為實驗資料來源之一。 愛樂電台. 學. ‧ 國. . 立. 政 治 大. 愛樂電台[28]是一個位於台灣台北市的廣播電台,1995 年 11 月 9 日開播,. ‧. 是台灣第一個古典音樂專門電台,因其電台主持人聲音風格明顯,故亦列為資料. sit er. 警察廣播電台. io. . y. Nat. 收集參考來源之一。. al. n. v i n Ch 警察廣播電台[29]是一個由警察單位經營、運作的廣播電臺,主要服務為提 engchi U. 供各地區交通路況報導。基於其電台特性,主持人聲音相較符合本研究所定義之 風格,因此亦列為資料收集參考來源之一。. 3.4. 目標設定 本研究的目標,希望能試著從語者辨識方向出發,利用其技術處理分析聲音 特徵,再套用至大眾定義之聲音風格。因其結論為可用,所以我們便可據此結論 提供給機器學習,並實作出簡易的風格分類程式。. 40. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(51) 第四章 研究過程與結果分析 在本章節中,將依照上一章所定義聲音風格去收集相關資料。針對所收集到 的資料進行初步評估與過濾,並分段討論實驗流程與結果分析。. 4.1. 收集訓練資料 在上章提及白噪音對於辨識結果有很大的影響,因此在收集聲音時,需要儘. 政 治 大. 可能找無背景音干擾的聲音樣本。在網路上所收集到的聲音資訊大部份均有加上. 立. 效果音或是背景音樂,這對於後續的實驗會有很大的干擾,因此初期資料收集方. ‧ 國. 學. 向主要以廣播節目為主。在收集了一些訓練資料後,發現廣播節目主持人大多有 接受過專業的口條訓練,雖然收集到的聲音樣本較為乾淨無雜音,不過聲音風格. ‧. 也較為一致。其後我們朝有聲電子書方面去收集相關樣本,最後不足的樣本則是. y. Nat. n. al. 聲音風格. 代表 1. 冷靜(女). 李育潔. 娃娃音(女). ㄚ頭. 陽光(女). 吳逸芳. 穩重(女). 高邵怡. 低沉(男). 李季準. 激昂(男). 戴立綱. 陽光(男). 劉傑. 穩健(男). 邢子青. Ch. 說明. e愛樂電台 ngchi. 主持人 藝人 愛樂電台 主持人 愛樂電台 主持人 廣播節目 主持人 政論節目 主持人 配音員、廣播節 目主持人 愛樂電台 主持人. er. io. 下表為所收集到資料的基本資訊:. sit. 在全球影音網站 Youtube 上去補足適合的測試樣本。. v i n U 代表 2. 說明. 雷光夏. 音樂藝術家. 林志玲. 藝人. Gina Lin. Youtuber. 劉家渝. 愛樂電台 主持人. 甄建波. 電子書作者. 劉寶傑. 政論節目 主持人. 蠢蠢. Youtuber. 張敬. 警廣電台 主持人. 表 4.1、聲音風格與代表人物簡介 41. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(52) 4.2. 訓練資料前處理 4.2.1. i-Vector 正規化 為避免不同樣本彼此特徵數值差異過大,造成部分特徵影響整個實驗結果。 實驗過程中,我們採用 i-Vector Length Normalization 的方式,將特徵值轉換至正 規化後的範圍內。研究指出正規化後的 i-Vector 也較能表現出彼此聲音的差異性 [30],如圖 4.1、4.2 所示,正規化後 i-Vector 對於男女聲音樣本的分佈較為明顯。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.1、未正規化 i-Vector 男女樣本分佈圖. 42. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(53) 政 治 大. 立. ‧. ‧ 國. 學. 圖 4.2、正規化後 i-Vector 男女樣本分佈圖. sit. y. Nat. io. n. al. er. 4.2.2. SVM 訓練及測試結果. i n U. v. 在此我們總共設定八種風格:每種風格挑選 2 人;每人擷取 120 秒聲音樣本. Ch. engchi. 並將這 120 秒的聲音樣本分割為 60 秒、10 秒、10 秒、10 秒、10 秒、10 秒、10 秒。將一個 60 秒的檔案當作 GMM-UBM 訓練樣本,6 個 10 秒檔案作為 GMMUBM 測試樣本並輸入 ALIZE Toolkit 去計算出其特徵向量 i-Vector。將所得到 (1+6)*16 共 112 個 i-Vector 使用亂數選取一半作為 SVM 訓練樣本,另一半作 為 SVM 驗證樣本,如此實驗 10 次來測試此聲音風格模型的穩定度(如圖 4.3)。. 43. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(54) 政 治 大. 圖 4.3、聲音風格驗證流程. 立. 學. SVM Accuracy. 1. 100%. 2. 100%. 3. 100%. 4. 100%. 5. 100%. y. sit. io. n. al. er. Nat. Round. ‧. ‧ 國. 所得到結果如表 4.2:. i n C 7 h U e n g c h i100% 6. 100%. 8. 100%. 9. 100%. 10. 100%. v. 表 4.2、聲音風格驗證結果 其後依序加入測試樣本,這裡我們取女性 3 位、男性 3 位和電腦合成語音 2 位(Google 和百度)其測試流程如圖 4.4。. 44. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(55) 樣本簡介如下:. ‧ 國. 立. 代表. 說明. 凱樂. 藝人. 黃韻玲 蔡珮蓁 呂超倫 胡榮 顧寶文. 歌手 音樂製作人 愛樂電台來賓 科技業 愛樂電台來賓 大提琴家 愛樂電台來賓 鋼琴家 愛樂電台 主持人 電腦 合成語音 電腦 合成語音. 治 政 大 Google 語音 百度語音. 學. 預期風格 娃娃音 (女) 穩重 (女) 穩重 (女) 穩健 (男) 低沉 (男) 穩健 (男) 冷靜 (女) 冷靜 (女). 表 4.3、聲音風格測試人物簡介. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4.4、聲音風格測試流程. 45. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(56) 以下為測試人員之頻譜圖(如圖 4.5~4.7):. 立. 政 治 大. ‧. ‧ 國. 學 er. io. sit. y. Nat. 圖 4.5、女生組頻譜圖,上至下依序為凱樂、黃韻玲、蔡珮蓁. n. al. Ch. engchi. i n U. v. 46. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(57) 立. 政 治 大. ‧. ‧ 國. 學 y. Nat. n. al. er. io. sit. 圖 4.6、男生組頻譜圖,上至下依序為呂超倫、胡榮、顧寶文. Ch. engchi. i n U. v. 圖 4.7、機器合成音頻譜圖,上至下依序為 Google、百度 47. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(58) 得到測試結果如下: 測試人員. 預期風格. 測試結果 Top1. 凱樂 黃韻玲 蔡珮蓁 呂超倫 胡榮 顧寶文. 立. 百度. 45.62% 39.99% 55.24% 33.20%. 娃娃音 (女) 冷靜 (女) 低沉 (男) 穩重 (女) 低沉 (男) 激昂 (男) 陽光 (女) 冷靜 (女). 16.38% 23.20% 22.49% 17.99%. 36.41% 24.53% 政 治 大 69.17% 9.59% 32.10% 38.76%. 25.67% 21.39%. 冷靜 (女) 穩健 (男) 陽光 (男) 冷靜 (女) 冷靜 (女) 陽光 (女) 穩重 (女) 激昂 (男). 15.20% 11.40% 7.19% 16.03% 18.49% 4.51% 14.56% 11.75%. ‧. ‧ 國. Google. 激昂 (男) 穩重 (女) 穩重 (女) 穩健 (男) 穩健 (男) 穩健 (男) 冷靜 (女) 陽光 (女). Top3. 學. 娃娃音 (女) 穩重 (女) 穩重 (女) 穩健 (男) 低沉 (男) 穩健 (男) 冷靜 (女) 冷靜 (女). Top2. 表 4.4、聲音風格測試結果. y. Nat. n. al. er. io. (8/8). sit. Top1 Accuracy = 62.5% (5/8),Top2 Accuracy = 100% (8/8), Top3 Accuracy = 100%. 4.2.3. 預測錯誤樣本分析. Ch. engchi. i n U. v. 根據 4.2 章節之實驗,可以得到穩定的結果。在此將分析 Top1 結果預測錯 誤的樣本。 凱樂. Test1 Test2 Test3 Test4 Test5 Test6 Average. 冷靜 (女) 9.60% 13.64% 7.24% 16.63% 23.22% 20.89% 15.20% Top3. 預期風格 娃娃音 (女) 19.02% 18.55% 10.26% 18.67% 17.13% 14.64% 16.38% Top2. 陽光 (女) 4.48% 6.47% 5.14% 4.87% 5.29% 5.44% 5.28%. 穩重 (女) 3.61% 4.84% 3.21% 5.17% 5.59% 6.78% 4.87%. 低沉 (男) 0.49% 0.80% 0.51% 0.63% 0.55% 0.60% 0.60%. 預測結果 激昂 (男) 50.57% 45.18% 64.29% 42.98% 38.24% 32.44% 45.62% Top1. 陽光 (男) 10.69% 8.23% 8.08% 8.88% 8.44% 17.55% 10.31%. 穩健 (男) 1.53% 2.29% 1.28% 2.15% 1.56% 1.66% 1.75%. 48. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(59) 表 4.5、聲音風格預測錯誤之資料 1 凱樂的預期風格是娃娃音(女),預測的風格為激昂(男)。此次聲音樣本 為出 EP 專輯前一般性訪談,訪談內容中有提及為發專輯有對之前娃娃音的發音 方式做出改變。實際聽聲音檔說話聲音帶有些許激動情緒,娃娃音亦不如在主持 兒童節目時那樣明顯。雖說有對發音方式有做修改,但機器分析仍有 14.75%的 娃娃音比例。 胡榮 娃娃音 (女) 2.33% 3.25% 3.34% 3.39% 2.94% 3.75% 3.17%. 陽光 (女) 1.09% 2.28% 2.53% 1.73% 2.50% 2.21% 2.06%. 政 治 大. 激昂 (男) 12.07% 4.32% 7.02% 4.18% 5.55% 4.73% 6.31%. 表 4.6、聲音風格預測錯誤之資料 2. 陽光 (男) 11.05% 5.63% 5.72% 5.04% 6.90% 5.22% 6.59%. 預測結果 穩健 (男) 34.64% 48.71% 31.15% 25.48% 44.74% 38.05% 37.13% Top1. ‧. ‧ 國. 立. 穩重 (女) 0.96% 3.31% 2.25% 1.02% 2.33% 2.12% 2.00%. 學. Test1 Test2 Test3 Test4 Test5 Test6 Average. 冷靜 (女) 12.34% 16.44% 20.20% 10.20% 17.70% 29.17% 17.68% Top3. 預期風格 低沉 (男) 25.52% 16.05% 27.77% 48.96% 17.35% 14.75% 25.07% Top2. sit. y. Nat. 胡榮預期風格是低沉(男),預測的風格為穩健(男)。此次聲音樣本為電. io. er. 台節目訪談,其內容主要介紹古典音樂家。在定義風格時,此聲音樣本主要偏向. al. 低沉(男)同時也有穩健(男)的感覺,但投票結果是低沉(男),因此機器分. n. v i n Ch 類判斷結果是穩健(男)並不讓人感到意外。其中低沉(男)所佔比例 25.07%亦 engchi U 是 Top2 選項。 百度. Test1 Test2 Test3 Test4 Test5 Test6 Average. 預期風格 冷靜 (女) 26.36% 28.38% 19.80% 16.31% 16.27% 22.47% 21.60% Top2. 娃娃音 (女) 9.97% 7.55% 7.57% 9.48% 12.85% 10.89% 9.72%. 預測結果 陽光 (女) 36.35% 32.39% 37.98% 44.93% 42.57% 36.62% 38.47% Top1. 穩重 (女) 2.68% 2.90% 2.53% 2.41% 2.37% 2.68% 2.59%. 低沉 (男) 4.83% 7.52% 5.68% 4.52% 3.94% 5.96% 5.41%. 激昂 (男) 10.85% 10.84% 13.18% 12.23% 11.98% 11.87% 11.83% Top3. 陽光 (男) 6.11% 6.50% 9.40% 7.37% 7.48% 6.07% 7.16%. 穩健 (男) 2.84% 3.92% 3.86% 2.75% 2.54% 3.45% 3.23%. 表 4.7、聲音風格預測錯誤之資料 3. 49. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(60) 百度語音[31]預期風格冷靜(女),預測的風格為陽光(女)。與 Google 語 音[32]同屬機器合成語音,合成語音發音較無人類情感,聲音字字分明亦給人直 覺印象較為冷酷與冷靜,因此 Google 與百度語音預期風格都定義為冷靜(女)。 事後分析因近幾年機器合成語音因深度學習有大幅度的進步,百度語音在中文讀 音聽起來相較 Google 語音柔和,可能因此讓機器分析偏向陽光(女)選項。. 4.3. 聲音風格分析之應用 利用語音進行身份辨識可能是最自然和最經濟的方法之一。聲音輸入設備造. 政 治 大 術相比,聲紋辨識具有更為簡便、準確、經濟及可擴展性良好等眾多優勢,可廣 立. 價低廉,而其他生物辨識技術的輸入設備往往造價昂貴。由於與其他生物辨識技. ‧ 國. 學. 泛應用於安全驗證、身份辨識等各方面。但其中若使用者健康狀況或長時間的習 慣改變亦可能造成錯誤的判斷且聲音模仿的難度相對於其他生物驗證亦較為容. ‧. 易,因此建議還是以輔助使用為主。. y. Nat. er. io. sit. 4.3.1. 使用電話錄音辨識風格. al. 在使用語音進行身份辨識中以電話最為常見亦容易取得,因此我們將 4.2.2. n. v i n C h (Sampling rate) 小節的實驗中所有聲音樣本的取樣率 e n g c h i U 降為 8,000Hz 再進行測試。 得到測試結果如下: 測試人員. 預期風格. 測試結果 Top1. 凱樂 黃韻玲 蔡珮蓁 呂超倫 胡榮. 娃娃音 (女) 穩重 (女) 穩重 (女) 穩健 (男) 低沉 (男). 娃娃音 (女) 冷靜 (女) 冷靜 (女) 激昂 (男) 低沉 (男). Top2 39.00% 64.75% 64.76% 35.61% 35.58%. 冷靜 (女) 穩重 (女) 穩重 (女) 穩健 (男) 陽光 (男). Top3 18.55% 12.02% 11.26% 28.01% 20.23%. 激昂 (男) 陽光 (女) 陽光 (男) 冷靜 (女) 激昂 (男). 12.23% 5.75% 9.28% 14.55% 14.94%. 50. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(61) 顧寶文 Google 百度. 穩健 (男) 冷靜 (女) 冷靜 (女). 穩健 (男) 激昂 (男) 穩健 (男). 18.57% 29.03% 27.89%. 低沉 (男) 冷靜 (女) 陽光 (女). 14.85% 20.04% 22.83%. 陽光 (女) 陽光 (女) 冷靜 (女). 13.88% 18.68% 20.75%. 表 4.8、使用電話錄音之聲音風格辨識測試結果 Top1 Accuracy = 37.5% (3/8),Top2 Accuracy = 87.5% (7/8),Top3 Accuracy = 100% (8/8). 4.3.2. 電話錄音預測風格結果分析. 政 治 大. 由以上結果可以得知,聲音取樣率降低會導致聲音風格的辨識結果亦有部份. 立. 降低,其中因取樣率降低所損失的高頻部份聲音會讓低頻風格較為明顯。整體看. ‧. ‧ 國. 學. 來雖有降低一些辨識率,在取 Top3 狀況下準確度還是可以達到 100%。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 51. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(62) 第五章 結論與未來研究方向 5.1. 結論 本研究試圖採用語者辨識中穩定並可用的聲音特徵模式,以分析結果證實大 眾對於聲音風格的感受,存在可供機器學習並辨別的共識模式。實驗中同時顯示 對某些風格聽起來類似的聲音,機器亦可提供其風格比例最為參考。目前生活中. 政 治 大 可辨別聲音是哪個人所發出,但還是不易分辨其聲音風格。使用本系統,透過大 立 除專業的音樂人或是較有特色的聲音外,一般人對於大部分民眾說話的聲音,雖. ‧ 國. 學. 眾共識所定義出的聲音風格,從而利用機器提供相對聲音風格比例作為參考,提 供大眾對於聲音風格有進一步的認識。. ‧ sit. y. Nat. 5.2. 未來研究方向. n. al. er. io. 由本研究結果可得知,機器是可以學習人類對於聲音風格的感受。但從實驗. i n U. v. 過程中隱約察覺,目前所提供於評估的聲音資料與聲音風格,尚不能稱為全面而. Ch. engchi. 大量。本研究只是初步證實機器對於聲音風格的共識模式存在,此共識無關乎聲 音本身內容,那此共識可以跨語言或是跨文化甚至跨入歌聲領域嗎?種種議題, 皆值得我們繼續探討。 以下列舉幾種繼續深究與發展的方向: . 主持人聲音風格對於聽眾的反應的影響 主持人的聲音風格對於聽眾來說與收聽與收視率息息相關,透過分析找出較. 大眾喜歡的風格模式。. 52. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

(63) . 歌者辨識 因歌唱發聲模式與一般口語略有不同,若將語者辨識方法套用至歌者清唱中,. 機器是否能提供準確歌者辨識。 . 不同語言如:國、台、客語;台灣國語、中英夾雜等分類 在台灣多語環境下,我們好奇是否有可跨不同語言的語者辨識技術?意即,. 在註冊用戶時,與進行身份認證時所使用的語言可以不一樣(例如用國語註冊, 用台語驗證)?是否可以獲得穩定辨識出語者的結果。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 53. DOI:10.6814/THE.NCCU.EMCS.007.2018.B02.

參考文獻

相關文件

分類法,以此分類法評價高中數學教師的數學教學知識,探討其所展現的 SOTO 認知層次及其 發展的主要特徵。本研究採用質為主、量為輔的個案研究法,並參照自 Learning

2-1 化學實驗操作程序的認識 探究能力-問題解決 計劃與執行 2-2 化學實驗數據的解釋 探究能力-問題解決 分析與發現 2-3 化學實驗結果的推論與分析

本書立足中華文化大背景,較為深入系統地分析研究了回族傳統法文化的形成基礎、發展歷

對照加拿大學人麥基概括的東南亞大都市地區 Desakota 區的特徵,中國 20

本章將對 WDPA 演算法進行實驗與結果分析,藉由改變實驗的支持度或資料 量來驗證我們所提出演算法的效率。實驗資料是以 IBM synthetic data generator

接下來的 FDTD 疊代運算將是整個計算的核心,也是運算量最大 的部分,在這中間,如何利用光波導的性質以及傳播常數等特徵參量

假設 H1 經驗開放性會影響 Instagram 的使用行為 部分成立 假設 H2 盡責性會影響 Instagram 的使用行為 不成立 假設 H3 外向性會影響 Instagram 的使用行為 部分成立 假設

(二) Coase 定理難以實踐於實體的交易,現實社會為防止負外部性導致市場 失靈,政府介入多採課徵制度(價格政策) ,但