中華大學

(1)

中華大學碩士論文

呼吸聲偵測技術在 MP3 音樂自動斷句的應用 A Breath Detection Technique for MP3 Music

and It’s Application in Automatic Phrase Segmentation

系所別：資訊工程學系碩士班學號姓名：E09802003 黃志銘指導教授：劉志俊博士

中華民國 100 年 8 月

(2)

摘要

樂句是音樂內涵分析的基本單位，因此許多音樂內涵分析的研究中需要能自動對一首歌曲進行樂句分段的技術。對流行音樂與聲樂而言，由於樂句分段處往往會伴隨出現換氣呼吸聲，本論文提出一種利用呼吸聲偵測技術來改進傳統依據樂句群組法則的樂句自動分段方法。我們使用 MFCC 作為特徵值來訓練呼吸聲偵測識別器，可以由 MP3 歌曲中找到呼吸聲出現的位置。我們以國語流行歌曲哼唱錄音進行樂句自動分段效能分析，結果顯示基於呼吸聲的樂句分段方法在回覆率與準確率方面皆優於傳統的樂句群組法則樂句分段方法。

關鍵字: MP3音樂、樂句分段、呼吸聲偵測、音樂內涵分析

(3)

ABSTRACT

Phrase is a basic unit of music content analysis, many musical content analysis studies need to have automatic segmentation of a song of the technology. In terms of popular music and voice music, often at each section have accompanying breathing, this paper proposes a use of breathing techniques to improve the traditional basis for the detection of group automatic segmentation method of rule. We use a device of MFCC to train the breathing sounds as feature parameters and it can detect the breathing occurs from MP3 songs. We utilize the Mandarin pop singing to verify the performance of automatic segmentation analysis showed that the phrase segmentation based on breathing methods in terms of recall rate and precision rate are superior to the traditional law of the group segmentation method.

Keywords: Phrase, Automatic segmentation, MP3, Breath sounds detection.

(4)

致謝

努力了這麼久終於畢業了，突然間輕鬆了許多。對於過去幫助我和支持我的人們，這時後就該是我要為他們歌功頌德一番的時候，以聊表我的感激。

首先，當然是指導老師劉志俊博士，雖然剛入門時的我對音樂分析不是很懂，

更何況是要作音樂斷句，但慢慢的經由您的指導也終於能夠順利的畢業。在此，

學生也非常感謝您這段時間的細心指導和耐心教誨，能夠被您指導真是太幸福了。

也感謝伯峰學長你提供的程式和一些指導，讓我能夠更快的進入狀況。阿哲感謝你在口詴前幫我送資料和文件的準備。大雄、秋華、元鴻、志淦，感謝你們陪我聊天打屁的日子，雖然我先離開了，但你們還是要好好聽老師的話，這樣才會長得高又壯。

最後，的是要感謝我的爸爸幫我找一些音樂軟體和實驗樣品。也感謝我的媽媽煮好吃的飯菜幫我補充營養。也感謝我的老婆和 2 個小孩讓我更有動力去完成學業。

也再一次的謝謝所有曾經愛護我、指導我及幫助過我的人。

黃志銘謹誌中華民國一○○年七月

(5)

表目錄

表 1 修改 LAME 程式所擷取的特徵值 ... 15

表 2 哼唱歌曲列表... 25

表 3 哼唱歌曲的起音偵測的回復率(Recall rate)與精確率(Precision rate) ... 27

表 4 同歌曲不同一人的哼唱起音偵測比較... 27

表 5 不同男女生呼吸聲 HMM 模型交叉辨識結果... 31

表 6 呼吸聲/靜音/樂音分類實驗結果混淆矩陣 ... 31

表 7 樂句結構傾向規則與呼吸聲偵測法的樂句偵測結果... 32

(8)

圖目錄

圖 1 MP3 音樂自動斷句系統架構圖 ... 12

圖 2 濾波器組示意圖... 13

圖 3 MDCT 架構圖 ... 14

圖 4 MP3 流行音樂轉換成音符串列(Note List)流程圖 ... 14

圖 5 三個連續音... 16

圖 6 三連音的起音點取樣方法... 16

圖 7 音樂換氣聲的模型... 18

圖 8 使用 Open source LAME 將 MP3 歌曲轉換成(*.mdct) ... 22

圖 9 音符串列(Note List)產生器 ... 23

圖 10 呼吸偵測的斷句位置自動產生樂句斷句位址... 23

圖 11 將(00013.notes)檔使用 Melisma 的 meter 轉換成(00013.meter) ... 24

圖 12 將(00013.meter)檔使用 Melisma 的 grouper 轉換成(00013.grouper) .. 24

圖 13 Cool Edit Pro2.0 起音點人工標示範例... 26

圖 14 歌曲編號 0022 由 2003 年 22 號男性歌手所唱出的呼吸聲信號的光譜圖與長期平均頻譜變化... 28

圖 15 歌曲編號 0022 由 2003 年 8 號女性歌手所唱出的呼吸聲信號的光譜圖與長期平均頻譜變化... 28

圖 16 兩位男性呼吸聲之長期平均頻譜... 29

圖 17 兩位女性呼吸聲之長期平均頻譜... 30

圖 18 二十位男女性呼吸聲之長期平均頻譜... 30

(9)

1. 緒論

音樂資料的內涵式查詢與分析是目前資訊檢索、資料庫與多媒體訊號處理領域的焦點研究之一。由於樂句(phrases)是音樂分析的基本單位，因此自動偵測一首歌曲中的樂句分段位置，是音樂索引、音樂內涵查詢、音樂曲式自動分類等相關研究所需的基本技術。此外、在數位音樂資訊的記錄方式也越來越豐富，從早先單純的使用檔案名稱來當作辨別，慢慢的演進在 MP3 的音樂歌曲中加入了 ID3-Tag，最後也由於需求資訊要求又更多於是出現了 MPEG-7 的多媒體資訊描述方式。最近，隨著音樂資訊的異質整合需求，在 2009 年 IEEE 推動了一個新的音樂描述規格 IEEE1599。其主要的用意是在整合這些異質音樂資訊，及多種的音樂格式，最重要的是可以有樂曲、樂譜和歌詞同步撥放的技術支持。就如同在流行音樂的播放與 KTV 之類的音樂應用環境中，往往需能夠對一首音樂的曲譜、樂曲訊號與歌詞進行同步播放控制，而音樂的同步也是以對齊樂句的歌曲訊號與歌詞作為播放控制的基準。

對於流行音樂來說，同步化的要求能結合音樂歌詞、樂譜和樂曲是極為重要的。

而一個樂曲訊號也必需依據樂譜的旋律所產生的。所以若要進行音樂的同步分析，就要從曲譜、樂曲信號和歌詞的順序著手。且欲要在音樂的曲譜、樂曲訊號和歌詞做同步撥放，就必需要找出一套合適於流行音樂的樂句分段方法。

樂句的自動分段技術近年來相當受到學術界與產業界的重視，而樂句(phrases)是音樂構成的最基本單位。而一首流行音樂的曲譜、樂曲訊號與歌詞的同步單位就必頇是樂句(phrases)。我們利用樂句分段規則，自動計算每個起音點發生樂句分段點的機率值，將一首數位樂曲切割成一連串的數位樂句，而每首數位樂句包含若干個數位樂音。

曲譜、歌詞和音訊也可以經過分段處理再利用同步控制來實現。對於一首歌曲的曲譜、樂曲及歌詞的同步化處理必需要先進行平行分段的工作。而本文的方法是先針對曲譜、樂曲訊號與歌詞的部份作個別的樂句分段。由於歌詞分段技術是較不需要考

(10)

慮的範圍，而曲譜和樂曲訊號的分段技術才是本文的研究重點。

歌詞在目前的數位音樂資訊的表示中，通常都是伴隨時間標記來當作該樂句所出現的位置時。這種標記方式常會運用在網路音樂的撥放，與一些 KTV 撥放器中。有時會因為時間的計算不正確造成詞曲非同步撥放的現象。

對於音樂分句的技術研究，在過去的研究學者們，幾乎都是以鋼琴曲譜來當作研究的對像。而在近幾年的數位音樂內涵式的分析研究，也少有部份是針對音樂的訊號來進行斷句的方法探討。然而 MP3 音樂的儲存方式是目前數位音樂訊號儲存的主流。

所以我們若想進行 MP3 音樂的斷句研究，是無法完全利用過去的曲譜斷句技術來完成。而本文的研究動機就是希望能夠針對 MP3 流行音樂來進行斷句分析的研究。

MP3 音樂是目前數位音樂訊號儲存的主流，對於在已壓縮過的音樂斷句分段的研究，不論是學界或者是產業界也頗為重視。而數位音樂的自動斷句技術的研究，對於音樂內涵分析也是極為重要。其自動斷句技術的相關應用可以歸類如下：

1. 可以提供一般流行樂句譜、歌詞、音樂同步的整合技術。

2. 可以將已完成分段的樂曲信號、歌詞及所需的資訊，並自動建立一首適合 KTV 撥放的歌曲檔案。

3. 協助進行音樂內涵式查詢與分析。

(11)

2. 相關研究

2.1. 樂句分段的相關研究

由於樂句(phrases)是音樂分析的基本單位，因此自動偵測一首歌曲中的樂句分段位置，是音樂索引、音樂內涵查詢、音樂曲式自動分類等相關研究所需的基本技術。

以往在樂句分段方面的研究中，最著名的是根據調性音樂生成理論(GTTM)[22]中的群組傾向規則(GPR, grouping preference rules)所提出的樂句邊界偵測方法[14]。此方法依據連奏、休止符、長起音點間距、音程變化、力度變化、發音方式改變、以及音長變化來估計發生樂句邊界的可能性。

Temperley 在[31]一書中詳細探討有關樂音群組規則在感知心理學與音樂理論的根據與發展沿革，提出一套樂句結構傾向規則(PSPR, phrase structure preference rules)，

藉由考慮樂音群組間隙(gap)、樂句長度、以及韻律對句(metrical parallelism)來計算樂句分段點的可能性。針對 65 首德國民謠的樂句分段實驗結果的回復率為 75.5%，而準確率為 74.6%

在[3][4]等論文中，Cambouropoulos 提出一種稱為區域邊界偵測模型(LBDM, local boundary detection model)的方法來偵測樂句的分段點。LBDM 方法根據音高、起音點間距、以及休止符的變化來估計樂句分段點發生的可能性。實驗結果顯示對 498 個樂句的分段點的偵測可以達到 63%的回覆率與 55%的準確率。而針對蕭邦離別曲的實驗結果顯示，在斷句點發生前第 2 個音有加長的傾向，此規則有助於改善樂句分段點的判讀。

Friberg 等人在[15]一文中提出對樂譜自動進行標點(musical punctuation)的方法。

藉由歸納對特定音樂家對音群或是所謂的旋律樣型(melodical gestures)標註逗號的偏好模式，Friberg 提出 13 種規則來自動偵測在最長 5 個音符的音群中是否存在可能的逗號位置(potential comma locations)。此外，文中也詴著訓練類神經網路的技術，來

(12)

進行可能的逗號位置之自動辨識。實驗以 52 首各個時期的古典音樂進行測詴，結果顯示依照 13 種規則的音群標點準確率為 66%，而回復率為 66%。類神經網路的辨識效果則是明顯較差。

在統計語言學的領域中，n 元語法模型(n-gram model)常被用來預測下一個符號是否歸屬於同一個序列之中。在[26]一文中，Pearce 等人利用 n 元語法模型來進行樂句分段點預測，發展出一個稱為 LDyOM 的樂句分段統計模型。此模型利用音高、起音點間距、以及起音-終音間距來訓練出一個樂句預測機率模型。文中比較了 GPR 法則 [14][22]、Grouper[31]、LBDM[3][4]與 LDyOM 等樂句分段方法的效能，並以 1705 首德國民謠資料庫的分句資料進行實驗，結果顯示以 Grouper 與 LBDM 方法的效能較佳，但整合四種方法可以得到最佳效能(準確率 87%，回復率 56%，F 量測 66%)。

記憶模型(memory-based model)是自然語言處理領域常用的分析技術。在[2]一文中，Bod 將記憶模型應用於樂句分段。Bod 主張有些樂句是無法使用完形理論(gestalt theory)[32]為基礎的樂句分段方法來進行偵測的。因此， Bod 提出使用樹庫語法 (treebank grammar)、馬可夫語法(Markov grammar)、以及資料導向剖析(data-oriented parsing)等三種統計模型來訓練樂句記憶模型。實驗以 5251 首埃森民謠資料庫中的歌曲進行訓練，再以 1000 首歌曲進行測詴，結果準確率 76.6%，回復率 85.9%，F 量測 81%。

Cheng 與 Chew 在[5][6]等論文中提出一種稱為區域最大樂句偵測(LMPD, local maximum phrase detection)的樂句分段方法。LMPD 方法的理論根據是以往在樂句特徵方面的許多研究結果指出，一個樂句的力度變化大致上會呈現出由漸強(crescendo) 轉為漸弱(decrescendo)的拱門結構，兩個拱門交界處即是樂句邊界。利用此特性，

Cheng 等人定義了樂句強度(phrase strength)、樂句穩定度(phrase volatility)與樂句典型性(phrase typicality)等衡量公式，來表示某一演奏家在樂句方面的詮釋特性。

以往在樂句分段方面的相關研究，基本上都是基於樂句的群組規則來進行探討。

對流行音樂與聲樂等人聲樂曲而言，換氣是樂句的顯著特徵。因此，本文提出一種根

(13)

據呼吸聲偵測的樂句分段點偵測方法，可提昇傳統根據樂句群組理論的樂句分段點偵測方法的效能。

本論文的結構說明如下：在第 2.1.1 節中，我們解釋樂句的涵義以及傳統上依據樂句群組法則的樂句自動分段方法；第 2.2 節回顧以往在醫學以及語音處理領域對呼吸聲分析方面的研究，據此，我們提出利用呼吸聲偵測技術來改進傳統依據樂句群組法則的樂句自動分段方法在第 3.1 節中，我們說明所提出之 MP3 音樂自動斷句系統整體架構。我們以實際國語流行音樂哼唱資料來進行實驗，呼吸聲的特性分析，以及兩種樂句分段方法的效能比較在第 6 節中說明；第 7 節總結本論文並說明未來發展方向。

2.1.1. 樂句的涵義與樂句分段原理

關於樂句的定義，根據新葛羅夫音樂辭典(The New Grove Dictionary of Music and Musicians)的解釋，“樂句(phrases)是源自於語言學的術語，表示長度較短的音樂單位，

樂句比動機(motifs) 來的長，但比樂段(periods)來的短。樂句具有旋律上的涵義，所謂的分句(phrasing)通常是指將旋律線(melody line)切分為多個部分”。

而在音樂演唱領域中，Phillips 在[27]一書中定義樂句為“一口氣的長度”，“為了讓兩個樂句的連接能夠更好，歌者必頇做換氣(breath)的技巧的訓練”。在歌唱時每一個樂句前的換氣停頓，就像是演講者藉由換氣停頓可以將一句話表達清楚，若聽眾聽不清楚一句話的邊界，就無法順利了解演講者所要表達的思想與感情，甚至於造成會錯意、表錯情的情形。由此可知，樂句為一首歌曲的基本演唱單位，對聲樂來說，

不可在樂句中間進行換氣，以免破壞樂句的完整性。所以，在樂句邊界處往往會伴隨著換氣呼吸聲，我們可利用此特性來設計出有別於傳統根據完形理論所發展出的樂句自動分段的方法。

(14)

2.1.2. 基於完形理論的樂句分段原理

在樂句分段的原理方面，早期的研究是從心理學角度來探討音樂的群組(muiscal grouping)關係。付表性的研究是在 1920 年付德國的一群稱為完形學派(Gestalt school) 的心理學家[32]。完形理論認為群組的心理層面認知包含三個基本原理：

 相似原理(principle of similarity)：我們傾向把相似的事物組合為一個群組。

 鄰近原理(principle of proximity)：我們傾向把在空間或某種維度上鄰近的事物組合為一個群組。

 連續原理(principle of continuation)：我們傾向把形成連續圖案的事物組合為一個群組。

雖然完形學派有提到將完形理論應用在音樂方面，但有系統化地根據完形理論，

建立音樂的群組理論的研究是由 Lerdale 與 Jackendoff 所提出的調性音樂生成理論 [22]。Frankland 與 Cohen 應用調性音樂生成理論中的群組傾向規則(GPR, grouping preference rules)提出一套樂句邊界偵測方法之實作[14]。此方法依據連奏、休止符、

長起音點間距、音程變化、力度變化、發音方式改變、以及音長變化來估計發生樂句邊界的可能性。

延續 GTTM 的理論，Temperley 在[31]一書中詳細探討有關樂音群組規則在感知心理學與音樂理論的根據與發展沿革，提出一套樂句結構傾向規則(PSPR, phrase structure preference rules)，藉由考慮樂音群組間隙(gap)、樂句長度、以及韻律對句 (metrical parallelism)來計算樂句分段點的可能性。

在本篇論文中，我們所提出的樂句分段方法是結合樂理的樂句分段規則，以及根據呼吸聲偵測所找到的可能樂句分段點。在我們樂理的樂句分段規則方面，我們根據 Temperley 所提出的樂句結構傾向規則，將一首 MP3 音樂及其對應曲譜切分為一連串的樂句。樂句結構傾向規則說明如下：

樂音群組間隙法則 (Gap Rule) ：樂句邊界傾向發生在有較大的起音點間隔 (inter-onset intervals)或是較大的終音點與起音點間隔(offset-to-onset intervals)之處。

(15)

樂句長度法則(Phrase Length Rule)：樂句長度大致上包含八個樂音。計算公式為：

^f

_樂句⁽

^N

⁾

^

^{M i n}



^{l o g}²

^N ^

³



(1) 其中 N 為樂句所包含的樂音個數。

韻律對句法則(Metrical Parallelism Rule)：樂句邊界傾向發生在構成韻律結構中產生對句之處。

Temperley 提出的樂句結構傾向規則以第一法則作用最為明顯。以流行音樂來說，

樂句邊界為歌手演唱換氣之處，且為強化感情的表達，故樂句最後經常有休止符或是較長的音符發生。第二法則的目的為避免產生太短或太長的不合理樂句分割，大部分的樂句包含 6 到 10 個音符，但例外狀況也有，所以第二法則的重要性較低。第三法則的產生是因為流行音樂如同詵歌，歌詞與旋律有對仗、重複的樣型出現，故將樂句切分在形成韻律對句的位置，較符合音樂的對仗特性。在實際樂句的切割應用，三個法則的權重設定可依曲目實際狀況實驗調整設定之。

2.2. 呼吸聲偵測的相關研究

由於換氣是樂句邊界判別的重大依據，所以利用呼吸聲偵測技術，可以找到一首歌曲中的換氣位置，結合樂理上的樂句分段規則，可以發展出一套適用於流行音樂與聲樂等類型音樂的自動樂句分段系統。我們首先回顧在其他領域中，對呼吸聲分析的研究成果，然後提出我們對 MP3 音樂中呼吸聲偵測的技術。

2.2.1. 呼吸聲偵測的歷史回顧

最早進行呼吸聲分析的領域為醫學，自從 Laennec 發明聽診器(stethoscope)以來 [21]，由於聽診(ausculation)的操作簡便與非侵入性診療特性，使其成為最常見的疾病診斷技術。傳統上聽診是倚靠醫生的主觀與專業判斷來進行，但隨著訊號處理技術的進步，逐漸產生了利用訊號處理技術來進行呼吸聲分析的研究[13][24]。尤其是隨著

(16)

快速傅立葉轉換(FFT)[9]與線性預估編碼(LPC)[23]等訊號處理技術的發展，利用數位訊號處理技術來進行呼吸聲偵測與分類，以便協助醫師進行胸部疾病診療的研究，自 1980 年付開始快速發展[7][8][16]。

Chowdhury 在[7]一文中最早提出使用 FFT 的技術來比較正常人與纖維化肺結核 (tuberculosis with fibrosis)病人的呼吸聲，分析結果發現正常人呼吸聲的最大頻率大約在 250Hz 左右(吸氣 273.44Hz,呼氣 234.38Hz)，且訊號在 1kHz 以上頻帶快速衰減；而肺結核病人的呼吸聲的最大頻率比較低(吸氣 58.59Hz,呼氣 117.19Hz)，且有高頻訊號。

Cohen 等人在[8]一文中提出自動進行呼吸聲分類的方法。此方法使用 LPC 係數與能量輪廓作為特徵值來建立雙層結構的呼吸聲分類器，可以對肺泡呼吸聲(vesicular breath sounds) 、支氣管呼吸聲 (bronchial breath sounds) 、支氣管肺泡呼吸聲 (broncho-vesicular breath sounds)、與氣管呼吸聲(tracheal breath sounds)等四種不同位置錄製的正常呼吸聲，以及齒輪式呼吸聲(cogwheel breath sounds)、喘息式呼吸聲 (asthmatic breath sounds)、空甕式呼吸聲(amphoric breath sounds)、與空洞式呼吸聲 (cavernous breath sounds)等四種不同類型的不正常的呼吸聲進行自動分類。

在呼吸聲偵測與分析的應用方面，Taplidou 在[30]一文中提出藉著分析哮喘聲 (wheezes)的最大能量頻率以及 100-800Hz 頻帶範圍內的頻譜特性與連續性，可以對氣喘病人的喘哮發作期(wheezing-episode)得到 93.45%的總偵測率(total detectability rate)。

為了協助進行吞嚥異常病患的診斷，Aboofazeli 等人在[1]一文中提出一種利用類神經網路來偵測氣管呼吸聲中出現吞嚥聲的技術。其方法採用 150-450 Hz 頻帶的平均能量，以及碎形維度(waveform fractal dimension)作為訓練類神經網路分類器的特徵值，

實驗結果對吞嚥聲偵測的準確率達到 91.7%。由於許多疾病的預警可以透過呼吸聲分析來產生，所以對一般人而言，在日常生活中即可方便進行的簡易呼吸聲分析的裝置顯得非常實用。因此，Corbishley 在[10]一文中提出一種可穿戴式的迷你化呼吸監控系統，可在雜訊感擾的一般生活環境下偵測到 91.3%的呼吸聲。

(17)

呼吸聲偵測技術在語音處理領域也有許多實際應用。由於韻律資訊(prosodic information)有助於語音訊號的語法結構辨識，在[28]一文中，Price 等人提到在口述語言處理方面，韻律資訊可用於標記詞彙的重音(lexical stress)、辨識語句的邊界(phrasing breaks)、以及協助進行語句涵義上的解讀(semantic interpretation)。Price 等人針對新聞廣波訊號進行統計，發現 85%的句子間以及 53%的辭語間存有呼吸聲。為了能自動找到語音訊號中的韻律資訊，他們提出一種呼吸聲偵測法(breath detection)，此方法利用倒頻譜係數(ceptral coefficients)作為特徵值來訓練高斯分類器，對新聞廣播中的 83 個呼吸聲進行偵測實驗，可正確找出其中的 78 個呼吸聲(回復率 93%)，而找到的呼吸聲位置與人工標記位置相比，皆在 50ms 誤差範圍內。在其後續研究中，他們使用貝式分類器對三段 FM 廣播新聞中的 112 個呼吸聲進行自動偵測實驗，發現若訓練資料集中不含同一段廣播訊號(語者無關)，則呼吸聲偵測回覆率為 73.2%；若訓練資料集中包含同一段廣播訊號(語者相關)，則呼吸聲偵測回覆率為 91.3%。在[33]一文中，

呼吸聲偵測技術運用於協助語意混淆文句的識別。Wightman 與 Ostendorf 提出 7 種不同的韻律斷點類型(prosodic breaks)的分類量化樹(quantization tree)，使用呼吸聲偵測技術來進行語意混淆文句的韻律斷點偵測與標註。

在音樂內涵分析領域方面，Ruinsky 與 Lavner 提出一種使用樣板比對技術的音樂訊號中的呼吸聲偵測方法[29]。此方法首先計算呼吸訓練樣本的平均 MFCC 特徵矩陣作為呼吸聲比對樣板，藉由計算待測音訊資料的 MFCC 特徵矩陣與呼吸聲比對樣板間的相似度，來找出可能是呼吸聲的換氣位置。接著利用音框長度、能量、越零率等呼吸聲的統計特性來去除誤判的偽呼吸聲。此外，為了能精確地找到呼吸聲所在的範圍，本文提出一種雙門限值的呼吸聲邊界偵測方法，來精確地找到呼吸聲的開始與結束時間。

在[25]一文中，Nakano 等人分析 RWC 流行音樂資料庫中的 27 首流行歌曲中的呼吸聲，藉由觀察其平均頻譜圖，Nakano 等人發現：

相同歌手唱不同歌曲時的呼吸聲頻譜圖不會改變。

(18)

男歌手呼吸聲頻譜在 1.6KHz，女歌手呼吸聲頻譜在 1.7KHz 附近有明顯的共振峰。

呼吸聲頻譜在 850~1000 Hz 附近有第二個共振峰。

文中提出一種利用 MFCC、ΔMFCC 以及能量變化作為特徵值的呼吸聲偵測方法。

實驗使用 27 首清唱歌曲中的 1488 個呼吸聲來進行，辨識結果回復率為 97.5%，準確率為 77.7%。

我們綜合以往的呼吸聲研究成果，採用 MFCC 與ΔMFCC 作為呼吸聲特徵值，

參考 Ruinsky 與 Lavner 的呼吸模型，分別訓練男生呼吸聲與女生呼吸聲的 HMM 模型來，在 MP3 壓縮音樂檔環境中進行呼吸聲發生位置偵測，用換氣資訊來協助樂句邊界的判斷。

(19)

3. 研究方法

3.1. MP3 音樂自動斷句系統架構

本論文所提出之 MP3 音樂自動斷句系統整體架構如圖 1 所示。斷句系統各模組主要功能說明如下：

 MP3 歌曲錄音檔：本文所提出之樂句分段技術強調樂句的換氣特徵，主要針對如流行歌曲以及聲樂等人聲演唱的歌曲作為分析對象。此外，由於 MP3(MPEG 1 Audio Layer 3)[19]為近年來數位音樂的主流格式，因此本文以 MP3 歌曲錄音檔的自動斷句為探討的主題。

 壓縮領域特徵擷取：為了降低資料分析的計算量，我們希望樂句分段所需的特徵值是擷取自壓縮領域。本文所使用的特徵值為修正離散餘弦轉換係數 (modified discrete cosine transform, MDCT) 。依據 MPEG 標準[19]，以 44.1KHz 取樣的音樂訊號，每個音框(frame)包含 1152 個樣本。我們在 MP3 音樂的解碼過程中取出 MDCT 係數作為起音點偵測特徵值。MP3 音訊每秒有 44100/1152=38.28125 個音框，MDCT 係數每個頻帶的頻率解析度為 38.28125 Hz。

 呼吸聲特徵計算：根據以往對呼吸聲分析的相關文獻描述，倒頻譜特徵可以有效地進行呼吸聲偵測。因此，我們提出根據修正式離散餘弦轉換係數 (MDCT)來計算倒頻譜呼吸聲特徵值的方法，計算過程詳述於 3.2 節。

 呼吸聲識別：我們分別使用取自國語歌曲實際哼唱樣本中的不同男生與女生換氣聲，作為訓練呼吸聲識別器的訓練樣本，來建構男生呼吸聲 HMM 模型、

女生呼吸聲 HMM 模型、以及男女混和呼吸聲 HMM 模型。我們將在實驗章節討論三種呼吸聲偵測模型的效能。

 起音點偵測：本文所使用的起音點偵測(onset detection)技術主要將 MDCT

(20)

讀準則[18]，來計算每個音框發生起音事件(onset event)的機率。最後參考 Dixon 的平滑化以及峰值挑選技術[12]，進行整合起音點判斷。

圖 1 MP3 音樂自動斷句系統架構圖。

 音符串列轉換：由於樂句結構傾向規則必頇運用在一首歌曲的音符串列

(Note List)上，因此我們必頇將一首 MP3 歌曲轉換為對應的音符串列。我們利用起音點偵測結果，將每個起音點間距(IOI, inter-onset interval)中的每個音框能量，依照 MDCT 頻帶加總，計算每個樂音的長期 MDCT 頻譜能量，

然後依照泛音規則找到每個音的可能音高與音長，產生一首歌曲的音符串列。

 樂句群組估算：根據音樂的群組理論，樂句偏好發生的位置可以用一組樂句

(21)

結構傾向法則來描述。我們參考著名的 GTTM 樂句群組理論[22]，以及 Templey 的樂句結構傾向規則[31]，根據樂音群組間隙、休止符、樂句長度、

以及韻律對句等資訊來計算樂句分段點的可能性。結構傾向法則計算公式描述於 2.1.2 節。

 樂句邊界綜合判斷：由於流行歌曲中的歌手換氣位置提供判斷樂句邊界的重大線索，我們整合樂句結構傾向規則的樂句邊界估算分數，以及呼吸聲 HMM 模型對呼吸聲預測的機率值，來綜合判斷樂句的發生位置，並以流行歌曲哼唱片段來進行實驗驗證 MP3 樂句分段技術的效能。

3.2. 起音點偵測

MP3 音樂是一個壓縮資料格式，使用了混合的轉換機制將時域訊號轉換成頻率域的訊號。所以本文方法就利用 Modified Discrete Cosine Transform (MDCT)修正離散餘弦轉換，來進行特徵值的擷取(Feature Extraction)，所需的時間、能量及頻率再進行音高(Pitch)及音長(Length)的判斷後轉換成音符串列(Note List)。

圖 2 濾波器組示意圖。

MDCT 的功能是作為頻率域到時間域的轉換。而 MP3 的音源訊號都必需先經過一個多相位濾波器組(Polyphase Filter Bank)，它是由 32 個相同的頻帶率波器(Subbank

(22)

Filter)所組成的，所以一個輸入信號後會被切分為 32 個相同寬度的頻帶信號。如圖 2 所示。

圖 3 MDCT 架構圖。

而 MDCT 的功能就是將 Polyphase 濾波器組的輸出訊號經過再一次的解析，進而分成 18 個頻帶信號。從這樣就可以提供較佳的頻譜解析度(Frequency Resolusion)，如圖 3 所示。

透過 MDCT 的模式去擷取出每一段音框 (Frame)的時間、能量、頻率，在進行音高(Pitch)及音長(Length)的判斷，再轉換成音符串列(Note List)，其轉換流程如圖 4 所示。

圖 4 MP3 流行音樂轉換成音符串列(Note List)流程圖。

(23)

3.2.1. 起音點取樣方法

本文的方法是需要輸入已經去除背景音樂的 MP3 音樂，也就是保留人聲的部份，

並進行 MDCT 的使用擷取出時間(t)、能量(Power)、頻率(F) 及最大能量(Max. Power)，

並將轉換的結果程式會自動儲存為 (*.mdct) 檔。而本文的 MDCT 轉換是使用 LAME[20]所釋放的原始碼，來進行程式部份的修改，並建立出每個音框(Frame)的能量和頻率，如表 1 所示。

表 1 修改 LAME 程式所擷取的特徵值。

3.2.2. 起音點取樣

將一首取樣頻率為 44.1KHz 之 MP3 歌曲，透過 LAME 所轉出的資料格式，依能量的大小來建立起音點的門限值(Threshold)。而本文的能量偵測設定是當能量(Power) 大於 0.01 時為起音點(Onset)的起始位置，而遇到下一個起音點(Onset)時為前一個音的結束時間。但是由於可能會有一聯串的聲音聯在一起，所以可能無法完全準確的去辯別出來。如圖 5 所示，三個連續音中除了第一點的起音點的能量是在 0.01 之外，

其它的兩個點均大於 0.01。針對此問題本文在程式的設計上有利用重覆偵測計算 (Rescan Detection Computation)的動作來補償起音點能量大於 0.01 ，且無法有效判斷的位置。

(24)

圖 5 三個連續音。

重覆偵測計算(Rescan Detection Computation)的方法就是在能量(Power)的控制上作一些調整，在本實驗方法是計算出總平均能量的 20%、40%和 60%來去偵測起音位置。將不同能量所記錄下來的起音點(Onset)，重新計算出起音位置(Onset Position)。

如圖 6 所示。

在圖 6 中是一首速度(tempo) 100 的歌曲。當使用能量設定為 0.01 時，所偵測出的起音位置會有兩個點，但其中第一點的位置與第二點間的距離太為相近。基本上音與音相互間的起音點是不會太接近的，假若以 1/16 音符來計算一個音符的時間大約為 150ms，若不考慮 1/32 音符出現的機率，那兩個起音位置間低於 150ms 就可以視為誤判或是雜訊。由此方式判斷，以能量 0.01 所偵測的起音位置為基準點，取得能量在 20%、40%和 60%的起音位置排成一列，計算出低於 140ms(本程式設定值)的位置排除，就可以獲得三個不同的起音位置點了。

圖 6 三連音的起音點取樣方法。

當能夠正確的判斷出準確的起音點時，在相對應的音框(frame)資訊中就可以去計算出音頻(Frequency)，由於在所擷取的資料中發現，當頻率轉換、能量較大或較弱時

1’st Onset 2’st Onset 3’st Onset

(25)

會有雜訊(Noise)的產生，所以在資料的處理上都要去避免。所以本文的取樣方法是去除前端能量較大及後半部較弱的頻率，並將所取樣出的頻率做加總求平均值。然後再去比對附錄 A 的音高(Pitch)值，進而轉換成音符串列(Note List)。

(26)

4. MP3 音樂中的呼吸聲偵測技術

4.1. 音樂換氣聲的模型

在流行音樂與聲樂中的換氣聲，典型的出現方式如圖 7 所示。呼吸信號(breath) 通常發生在樂句的邊界之處，介於兩個樂音(tones)之間。而在呼吸聲與樂音之間有時會出現很短暫大約 20 msec 的呼吸(Breaths)。

圖 7 音樂換氣聲的模型。

根據圖 7 的音樂換氣模型，我們設計以下的呼吸聲自動識別馬可夫語法(Markov syntax)，配合呼吸聲/呼吸/樂音辨識的 HMM 模型，可自動找出一首歌曲中的換氣位置。

$BR = breath_male | breath_female | breath_mixed;

([TONE] {START_SIL} [$BR] {END_SIL} [TONE])

我們使用三種不同的呼吸聲識別 HMM 模型 breath_male、breath_female 與 breath_mixed，分別是根據男性呼吸訓練樣本集、女性呼吸訓練樣本集、以及男女混和呼吸樣本集所訓練出。三種呼吸模型的建構方式與偵測效能比較分析描述於後文。

語法中的[]符號表示該訊號至少出現一次；{}符號表示該訊號出現次數可為零次、一次或多次。TONE、START_SIL、$BR、END_SIL 與 TONE 分別表示樂音、起始呼吸、

呼吸聲、結束呼吸與樂音。

(27)

4.2. MP3 音樂換氣聲的自動偵測技術

我們綜合過去在語音識別以及音樂內涵分析領域的研究成果，呼吸聲偵測的特徵值以梅爾倒頻譜係數 (MFCC, Mel-frequency cepstral coefficients) 最為有效 [25][28][29][34]。因此，本文亦採用 MFCC 作為呼吸聲偵測的特徵值。由於本文係針對 MP3 壓縮格式的數位音樂進行分析，特徵值計算宜在壓縮領域中進行以減輕計算負荷量。在壓縮領域進行 MFCC 特徵值擷取的方式說明如下:

MFCC 特徵值的計算過程大致上是先使用傅立葉轉換將訊號轉換頻率域上，接著按照梅爾尺度對頻帶做切割。接著對每個子頻帶分別計算其能量值，將能量取對數。

最後對這些能量對數做離散式餘弦轉換，取得 MFCC 係數。在這一系列的計算過程中，花費時間較多的為傅立葉轉換。對於 MP3 來說，還要再加上把 MP3 解壓縮還原成原始信號的時間。原本計算過程中，做傅立葉轉換的目的是為了將訊號轉為頻率域，

而 MP3 的 MDCT 係數本身即為頻率域的資訊。因此我們可以將 MDCT 係數取付傅立葉轉換係數，把原先的傅立葉轉換係數以 MP3 音訊的 MDCT 係數取付。計算過程如下：

首先按照梅爾尺度近似計算公式將 MDCT 係數換算成符合人耳感知特性的梅爾頻譜係數 mj，並對其做平滑化的動作：

 

 

^



kHz j

MDCT freq

if j MDCT

kHz j

MDCT j freq

MDCT

m

j ^[ ^], ⁽ ^[ ^]) ¹

1 ]) [ (

700 ), ] 1 [

( log

2595 ₁₀ >

(2) 公式(2)中的^freq⁽^MDCT^[^j^])付表的是 MDCT 係數中，第 j 個係數所付表的頻率。接著，計算每個音框的梅爾頻譜係數之能量值，並取對數值，使其符合人耳對音量的感知特性：

) log(

_ db

_j

m

_j²

m 

(3)

(28)

最後透過離散餘弦轉換去除梅爾倒頻譜係數各個維度的相依性，可得到 MP3 音訊在壓縮領域之 13 維的 MFCC 係數。









¹³

1

13 ,..., 2 , 1 13 ), 2 ) ( 1 cos(

_

i

j

m db j i j

MFCC 

(4) 假設一個音訊樣本 X 可以藉由一連串的 MFCC 特徵向量 M 來表示

m

T

m m

M 

₁, ₂,, (5)

其中 mi 為音訊樣本 X 在第 i 個音框的 13 維 MFCC 特徵向量。辨識音訊樣本 X 是否為呼吸聲，此問題亦即在於求在音訊樣本 X 出現 MFCC 特徵向量 M 時，音訊樣本 X 為呼吸聲 B 的機率 P(B|M)。根據貝氏定理

) (

) ( )

| ) (

|

(

P M

B P B M M P

B

P 

(6) 我們使用 HMM 模型來估算 P(M|B)之值。考慮到男女呼吸聲的基本差異，我們訓練三種不同的呼吸聲 HMM 模型 H 男生呼吸聲、H 女生呼吸聲、H 混和呼吸聲來辨識男生與女生在歌曲中的呼吸聲，以及 H 呼吸與 H 樂音來辨識呼吸與樂音的兩個 HMM 模型。藉由計算 P(M|H 男生呼吸聲)、P(M|H 女生呼吸聲)、P(M|H 混和呼吸聲)、

P(M|H 呼吸)、以及 P(M|H 樂音) 之值來判斷音訊樣本 X 為呼吸聲(男生、女生、混和)、

呼吸或樂音。

(29)

5. 系統實作

我們在 Windows 作業系統下以 C++語言進行系統開發，圖 9 為我們實作的 MP3 樂句分段程式執行畫面。程式可直接讀取 MP3 格式的歌曲錄音檔，MDCT 特徵值的擷取的實作採用開放原始碼 MP3 編碼/解碼程式 LAME。取得所需的特徵值轉換成 (*.mdct)檔後進行起音點偵測。接著程式計算出每個樂音起音點位置及音高、音長等資訊，轉換成畫面左方的音符串列(Note List)。呼吸聲偵測部分的 HMM 模型使用 HTK 工具程式來實作；樂句結構傾向規則則整合 Melisma 音樂分析工具來實作。MP3 樂句分段程式可在音符串列中顯示出樂句分段偵測結果，以“Phrase”標記所偵測到的每個樂句分段事件的位置，“Phrase”標記後面的數值為偵測到之樂句分段點的發生時間。音符串列與樂句分段點的時間單位為毫秒，而實驗實作流程如第 5.2 節所述。

本系統工具是計算出起音點位置及音高、音長等資訊，經計算後才轉換成音符串列(Note List)，如圖 9 音符串列(Note List)產生器所示。此分析工具也可以利用 Save 功能來儲存成(*.notes)檔，而這個檔案是可以供給 Melisma 音樂分析工具來進行斷句分析的檔案使用。

5.1. 呼吸聲偵測法之 MP3 樂句分段系統實作

在 Windows OS 裡面執行‖命仙提示字元‖模式下開啟已修改過的 Open source LAME 工具執行檔 lame.exe 然後輸入 mp3 音樂檔案，其指仙範例為‖lame 00014.mp3‖

就可以直接轉換成‖feature.mdct‖檔，如圖 8 所示。然後再將‖feature.mdct‖重新命名為‖00014.mdct‖。

(30)

圖 8 使用 Open source LAME 將 MP3 歌曲轉換成(*.mdct)。

使用音符串列(Note List)產生工具的功能‖Open‖來開啟已完成轉換好的(*.mdct) 檔，並利用執行鍵‖Execute‖來轉換成音符串列(Note List)。如圖 9 左邊欄位所顯示的就是已完成轉換的音符串列(Note List)，而右邊欄位所顯示的就是每一個起音點(Onset) 位置。透過‖Save‖的執行來儲存成‖00014.notes‖檔。而(*.notes)檔也可以直接使用在 Melisma 的分析軟體工具上。

本實驗工具所產生的音符串列(Note List)表示說明如下：

Note 483 731 56 Note 731 1071 53 Note 1071 1332 54

……

‖Note‖為一個起音的事件，第一個時間(483 ms)為起音位置而後面的時間(731 ms) 為結束位置也就是下一個起音位置，再來的就是音高(Pitch)。

(31)

圖 9 音符串列(Note List)產生器。

而本系統工具也加入使用呼吸偵測(Breath Detection)來直接判斷樂句分段的時間點。並在音符串列(Note List) 中顯示出樂句分斷位置，而‖Phrase‖就是表示一個斷句分段事件，後面為斷句的發生時間點(單位:毫秒)。如圖 10 所示。

圖 10 呼吸偵測的斷句位置自動產生樂句斷句位址。

5.2. 樂句結構傾向法則之 MP3 樂句分段系統實作

透過音符串列 (Note List) 產生器如圖 9 所產生出來的 (*.notes) 來直接進行 Melisma 的樂句判斷。我們必需先進行 Melisma 中的 meter 轉換，然後在轉換成 Grouper 樂句(Phrase)。

(32)

圖 11 將(00013.notes)檔使用 Melisma 的 meter 轉換成(00013.meter)。

在 Windows OS 裡面執行‖命仙提示字元‖來執行 Melisma 工具，使用以下指仙來完成：

―meter 00013.notes > 00013.meter‖；其轉換結果如圖 11 所示。

然後再將 00013.meter 轉換成 00013.grouper，這樣就完成 Melosma 的樂句群組分析了，其命仙指仙為―grouper 00013.meter > 00013.grouper‖；其轉換結果如圖 12 所示。

圖 12 將(00013.meter)檔使用 Melisma 的 grouper 轉換成(00013.grouper)。

由於 Melisma 的 meter 判斷第一個起音點(Onset)位置必頇設為‖0‖，故在樂句斷句的比較上就必頇以計算‖Note‖的個數來進行比較。例如：歌曲編號 00013 的 Melisma 斷句位置為 4410，而前一個樂句共有十個 Note。

(33)

6. 實驗結果

6.1. 實驗環境設定

在實驗資料集方面，我們使用清華大學張智星教授建立之哼唱歌曲資料庫 MIR-QBSH Corpus (http://mirlab.org/dataSet/public/MIR-QBSH-corpus.rar)進行樂句分段方法的驗證實驗。此歌曲資料庫中總共有 48 首歌曲的多位不同人的哼唱歌曲。在起音偵測的實驗中本論文採用 2003 年 P1 共 21 首哼唱歌曲來進行實驗，其歌曲列表如表 2。

項目歌曲編號歌曲名稱歌曲長度速度

1 00013 小毛驢 8.150 sec 100

2 00014 小星星 8.176 sec 120

3 00016 火車快飛 8.071sec 120

4 00017 王老先生有塊地 8.071sec 165

5 00018 世上只有媽媽好 8.071sec 100

6 00019 只要我長大 8.071sec 160

7 00020 生日快樂 8.071sec 100

8 00022 兩隻老虎 8.071sec 150

9 00024 泥娃娃 8.071sec 120

10 00025 虎姑婆 8.071sec 130

11 00028 秋蟬 8.071sec 40

12 00029 茉莉花 8.071sec 80

13 00030 倫敦鐵橋垮下來 8.071sec 160

14 00031 捕魚歌 8.071sec 120

15 00032 捉泥鰍 8.071sec 40

16 00033 高山青 8.071sec 130

17 00034 甜蜜的家庭 8.071sec 100

18 00035 魚兒魚兒水中游 8.071sec 90

19 00038 萍聚 8.071sec 40

20 00039 當我們同在一起 8.071sec 140

21 00040 遊子吟 8.071sec 100

表 2 哼唱歌曲列表。

(34)

6.2. 實驗結果分析

6.2.1. MP3 樂音起音點偵測結果

對於起音點位置的標示，本文使用 Cool Edit Pro2.0 來對 MP3 音樂檔來進行每一個起音位置的人工標示，我們以人工標示精度至小數點 0.001sec 的位置。如圖 13 所示。

圖 13 Cool Edit Pro2.0 起音點人工標示範例。

經人工標示後並記錄每一點起音位置，然後與本文的方法所判斷出來的起音點位置來進行比較。

而每一首歌曲的精確率(Precision rate)與回復率(Recall rate)的公式如下，而精確率 (Precision rate)的準度必需在 +/- 50ms(含)以內。

公式表示如下：

回復率(Recall rate) =

系統偵測到之正確樂句數

實際樂句數

*100%。 (7) 精確率(Precision rate) =

系統偵測到之正確樂句數

系統偵測到之樂句總數

*100% (8) 如歌曲編號 00014 系統偵測到符合準度在正負 50ms(含)內的起音事件(Match)之正確樂句數為 12，而實際樂句數是 14。故回復率(Recall rate)為 12/14；而系統所偵測到之樂句總數有 16 個，故精確率(Precision rate)為 12/16。而下表是整理出全部 21 首

(35)

哼唱歌曲的起音比對的回復率(Recall rate)與精確率(Precision rate)。

項目歌曲編號實際樂句數偵測個數正確個數精確率回復率

1 00013 25 21 21 100.00% 84.00%

2 00014 14 16 12 75.00% 85.71%

3 00016 28 28 27 96.43% 96.43%

4 00017 19 18 15 83.33% 78.95%

5 00018 14 16 12 75.00% 85.71%

6 00019 17 17 17 100.00% 100.00%

7 00020 13 12 10 83.33% 76.92%

8 00022 25 23 21 91.30% 84.00%

9 00024 11 11 7 63.64% 63.64%

10 00025 15 15 13 86.67% 86.67%

11 00028 8 11 7 63.64% 87.50%

12 00029 11 15 8 53.33% 72.73%

13 00030 17 17 17 100.00% 100.00%

14 00031 18 19 17 89.47% 94.44%

15 00032 19 17 12 70.59% 63.16%

16 00033 7 14 7 50.00% 100.00%

17 00034 13 15 12 80.00% 92.31%

18 00035 14 18 9 50.00% 64.29%

19 00038 14 17 13 76.47% 92.86%

20 00039 21 19 15 78.95% 71.43%

21 00040 10 13 7 53.85% 70.00%

Total average 79.26% 83.78%

表 3 哼唱歌曲的起音偵測的回復率(Recall rate)與精確率(Precision rate)。

針對歌曲編號 00040，本文也同時選出其它不同人所哼唱出來的歌曲進行比較。

其比較列表如下：

項目 2003 年樣本歌曲長度實際樂句數偵測個數正確個數精確率回復率

1 Person00001 8.071sec 10 13 7 53.85% 70.00%

2 Person00002 8.071sec 9 9 9 100.00% 100.00%

3 Person00003 8.071sec 9 9 5 55.56% 55.56%

4 Person00004 8.071sec 7 9 2 22.22% 28.57%

5 Person00007 8.071sec 9 15 4 26.67% 44.44%

表 4 同歌曲不同一人的哼唱起音偵測比較。

(36)

6.2.2. MP3 音樂呼吸聲頻譜特性分析

本文參考 Nakano 等人[25]一文中的頻譜觀察方式去加強判定呼吸信號的可靠性，

及觀察長期平均頻譜的變化。也透過長期平均頻譜去計算出呼吸聲的共振峰值，也驗證所觀察的共振峰值是否與 Nakano 等人[25]一文中所說的相符。

光譜圖長期平均頻譜圖

圖 14 歌曲編號 0022 由 2003 年 22 號男性歌手所唱出的呼吸聲信號的光譜圖與長期平均頻譜變化。

光譜圖長期平均頻譜圖

圖 15 歌曲編號 0022 由 2003 年 8 號女性歌手所唱出的呼吸聲信號的光譜圖與長期平均頻譜變化。

在樂句分段所使用的呼吸偵測方法的部份，本論文採用 2003 與 2004 年的國語哼唱歌曲集來進行實驗，共有 21 首國語哼唱歌曲，由其中隨機選取兩男(P9 與 P5)與兩女(P2 與 P8)各約 10 首不同歌曲，以及十位男生與十位女性各自哼唱同一首歌曲的錄音檔案來進行呼吸聲偵測與樂句分段實驗。樂句群組規則參考 Melisma (http://www.link.cs.cmu.edu/music-analysis/) 的設定； HMM 模型則採用 HTK

20 30 40 50 60

[dB]

20 30 40 50 60

[dB]

F1

F1 F2

F2 F3 F3

(37)

(http://htk.eng.cam.ac.uk/)工具程式庫來進行呼吸聲辨識實驗，其實驗結果如后：

實驗一：首先分析不同男女生在演唱歌曲中的呼吸聲特性。圖 16 為兩位男性在不同曲目中的呼吸聲之長期平均頻譜。我們可以發現同樣的人在演唱不同歌曲時，其換氣呼吸聲依然保有高度的相似性。同樣的情形在女性歌者的呼吸聲樣本中亦可觀察到，如圖 17 所示。

圖 16 兩位男性呼吸聲之長期平均頻譜。

但不同歌者的呼吸聲頻譜彼此間有一定程度的差異，如圖 18 所示，一般而言，

女生呼吸聲的平均共振峰(F1=775、F2=1740、F3=3245)略高於男生呼吸聲的平均共振峰(F1=711、F2=1633、F3=3000) ，此結果與 Nakano 等人的研究成果比較，F2 的數值範圍相當一致(男歌手 F2 約在 1.6KHz，女歌手 F2 約在 1.7KHz)，但我們量測的 F1 數值略低於 Nakano 等人的分析結果(F1 在 850~1000 Hz 間)。

0 1 3 4 5 7 8 9 10 12 13 14 16 17 18 19 21 22 Frequence KHZ

2003 P9 No.14-1 2003 P9 No.17-2 2003 P9 No.18-1 2003 P9 No.22-1 2003 P9 No.22-2 2003 P9 No.30-1 2003 P9 No.30-3 2003 P9 No.31-1 2003 P9 No.31-2 2004a P5 No.14-1 2004a P5 No.17-2 2004a P5 No.18-1 2004a P5 No.19-1 2004a P5 No.19-2 2004a P5 No.20-1 2004a P5 No.22-1 2004a P5 No.22-2 2004a P5 No.24-2 2004a P5 No.24-3 2004a P5 No.29-1 2004a P5 No.30-1 2004a P5 No.30-2 2004a P5 No.30-3 2004a P5 No.31-1 2004a P5 No.31-2

F1

F1 F2

F2 F3

F3

(38)

圖 17 兩位女性呼吸聲之長期平均頻譜。

圖 18 二十位男女性呼吸聲之長期平均頻譜。

0 1 3 4 5 7 8 9 10 12 13 14 16 17 18 19 21 22 Frequence KHZ

2004a P2 No.14-1 2004a P2 No.17-1 2004a P2 No.17-2 2004a P2 No.18-1 2004a P2 No.20-1 2004a P2 No.29-1 2004a P2 No.30-3 2003 P8 No.14-1 2003 P8 No.14-2 2003 P8 No.17-1 2003 P8 No.17-2 2003 P8 No.22-1 2003 P8 No.22-2 2003 P8 No.24-1 2003 P8 No.24-2 2003 P8 No.24-3 2003 P8 No.29-1 2003 P8 No.31-2

F1

F1 F2

F2 F3

F3

0 1 3 4 5 7 8 9 10 12 13 14 16 17 18 19 21 22 Frequence KHZ

Female 1 Famale 2 Female 3 Female 4 Female 5 Female 6 Female 7 Female 8 Female 9 Famale 10 Male 1 Male 2 Male 3 Male 4 Male 5 Male 6 Male 7 Male 8 Male 9 Male 10

F1

F1 F2

F2 F3

F3

(39)

6.2.3. MP3 音樂呼吸聲偵測結果

實驗二：測詴各種不同呼吸聲樣本集，對辨識呼吸聲/靜音/樂音的效能差異。我們使用兩男兩女共四位單一歌者(男 P9、男 P5、女 P2 與女 P8)取自十首不同歌曲來源的呼吸聲，訓練出四個 HMM 模型 H^男_P9、H^男_P5、H^女_P2、H ^女_P8；十位不同女性的呼吸聲訓練出女性呼吸聲 HMM 模型 H ^女性；十位不同男性的呼吸聲訓練出男性呼吸聲 HMM 模型 H^男性；以及二十位男女混和的呼吸聲 HMM 模型 H^混和；一共七組不同的呼吸聲樣本集來測詴各模型交叉辨識的效能。

資料集 HMM

男 P9 男 P5 女 P2 女 P8 十位女性十位男性男女混和

H男P9 - 0% 0% 9% 6% 20% 13%

H男P5 21% - 38% 91% 71% 80% 75%

H女P2 29% 100% - 100% 82% 67% 63%

H女P8 79% 6% 13% - 18% 13% 16%

H女性 100% 100% 100% 100% - 100% 100%

H男性 100% 100% 88% 100% 88% - 94%

H混和 100% 100% 100% 100% 100% 100% -

表 5 不同男女生呼吸聲 HMM 模型交叉辨識結果。

不同呼吸聲樣本集辨識呼吸聲/靜音/樂音的準確率如表 5 所示，結果顯示每個人的呼吸聲都有相當的獨特性。用單一人的呼吸聲訓練出來的 HMM 模型來辨識不同人的呼吸聲效果一般都不太好。此外，男女確實有別，男性的 HMM 模型在辨識男性的呼吸聲準確率確實比辨識女性的呼吸聲準確率要高。同樣地，女性的 HMM 模型辨識女性呼吸聲的準確度比較好。使用多人呼吸聲樣本集所訓練出的 HMM 模型，不論是辨識女性或男性呼吸聲都能得到極好的準確度。

分類結果

來源資料呼吸聲靜音樂音

呼吸聲 42 0 0

靜音 0 40 0

樂音 1 1 38

(40)

實驗三：測詴呼吸聲/靜音/樂音分類器的識別效能。我們使用二十位男女的呼吸聲來訓練呼吸聲 HMM 模型；40 個 10~30dB 模擬靜音環境的白噪音來訓練靜音 HMM 模型；二十位男女演唱的 20 首歌曲的第一個樂音訊號來訓練樂音 HMM 模型。使用交互驗證法(cross validation)來測詴三個分類器的辨識結果，也就是從實驗資料集中每次選取一個樣本來進行測詴，而用其餘的樣本來訓練呼吸聲/靜音/樂音的分類器。表 6 為呼吸聲/靜音/樂音分類實驗結果的混淆矩陣(comfusion matrix)，結果顯示呼吸聲與靜音分類的結果均完全正確，但有一個樂音分類至呼吸聲(氣音)，一個樂音分類至靜音。

6.2.4. MP3 音樂樂句斷句結果

歌曲編號歌曲長度(sec) x 版本數

樂句個數

樂句結構傾向規則

呼吸聲偵測法偵測

個數

正確個數

偵測個數

正確個數

00014 8 x 4 4 4 3 4 4

00017 8.22 x 4 8 4 2 6 6

00018 9.18 x 3 3 3 1 3 3

00019 9 x 1 2 1 1 2 2

00020 8.12 x 3 3 3 2 3 2

00022 8 x 3 6 3 1 6 6

00024 10 x 3 9 4 2 8 5

00029 9 x 4 4 6 4 4 3

00030 7.15 x 3 9 4 3 8 6

00031 10 x 3 6 3 3 6 5

總和 54 35 22 50 42

表 7 樂句結構傾向規則與呼吸聲偵測法的樂句偵測結果。

實驗四：比較樂句結構傾向規則與呼吸聲偵測法兩種樂句分段方法的效能。實驗使用 10 首中文歌曲，每首歌曲選取 1~4 位演唱者大約前 10 秒的不同版本，壓縮成 MP3 格式的錄音檔來進行實驗。

樂句結構傾向規則與呼吸聲偵測法的樂句偵測結果如表 7 所示。我們採用回覆

(41)

率（recall rate）及準確率（precision rate）作為樂句偵測效能評估的衡量標準。其中，

實際樂句數為人工標記演唱歌曲樣本所判斷之正確樂句數；系統偵測正確樂句數為系統偵測樂句分段點與人工判斷樂句分段點誤差在 50 msec 以內範圍的樂句個數。根據表 3 的實驗結果，樂句結構傾向規則的樂句偵測回覆率為 22/54 = 40.7%，準確率為 22/35 = 62.9%；而呼吸聲偵測法的樂句偵測回覆率為 42/54 = 77.8%，準確率為 42/50

= 84%。所以呼吸聲偵測法的樂句偵測結果之回覆率與準確率皆優於樂句結構傾向規則。

(42)

7. 結論

在起音偵測的實驗中，我們使用重覆偵測計算(Rescan Detection Computation)的方法，針對這 21 首哼唱歌曲進行測詴比較。使用該測詴方法所得到的平均回復率 (Recall rate)是 79.26%；精確率(Precision rate)為 83.78%。同時也進行相同歌曲(編號：

00040) 的測詴，分別是由不同的人所哼唱的。在這個測詴比較中也可以發現，在相同的歌曲由不同人的來演唱也是會有不相同的結果。基本上歌唱技巧的好壞，也會影嚮我們所做的偵測結果。

而在音訊樂句斷句的測詴比較中，本文所採用的 21 首歌曲片段中，有 33 個呼吸換氣點。比較使用 Melisma 的音樂樂句群組(Phrase Grouper)分析工具所測詴出來的回復率(Recall rate)為 40.7%；精確率(Precision rate)是 62.9%。而本文所使用的呼吸偵測 (Breath Detection)方法的回復率(Recall rate)為 77.8%；精確率(Precision rate)為 84%。

雖然呼吸偵測(Breath Detection)的方法結果比較好，但此方法只能針對有人聲演唱的歌曲來進行，但對於流行音樂來說，這已經是很足夠的了。

在未來的工作，對於起音點偵測的方法應該還是可以有努力的空間，也期待也有更準確的方法。對流行音樂與聲樂等人聲樂曲而言，換氣是樂句的顯著特徵。因此，

本文提出一種根據呼吸聲偵測的樂句分段點偵測方法，可提昇傳統根據樂句群組理論的樂句分段點偵測方法的效能。呼吸聲偵測的主要困難點在於呼吸聲能量較小，很容易被伴奏樂音聲掩蓋，所以如何在伴奏音樂下偵測到呼吸聲是一項高難度挑戰。此外，

如何整合多種不同的樂句的分段點判斷方法亦是我們未來要探討的方向。

(43)

8. 參考文獻

[1] Aboofazeli, M. and Z. Moussavi, ―Automated classiﬁcation of swallowing and breath sounds,‖ in Proc. IEEE Eng. Med. Biol. Soc., pp. 3816–3819, 2004.

[2] Bod, R., ―Memory-based Models of Melodic Analysis: Challenging the Gestalt Principles,‖ Journal of New Music Research, Vol.30, No.3, pp.27-37, 2001.

[3] Cambouropoulos, E., ―The Local Boundary Detection Model (LBDM) and its Application in the Study of Expressive Timing,‖ in Proceedings of the International

Computer Music Conference, pp.17-22, 2001.

[4] Cambouropoulos, E., ―Musical Parallelism and Melodic Segmentation: A Computational Approach,‖ Music Perception, Vol. 23, No. 3, pp.249-267, 2006.

[5] Cheng, E. and E. Chew, ―A Local Maximum Phrase Detection Method and the Analysis of Phrasing Strategies in Expressive Performances,‖ In Proceedings of the

First International Conference of the Society of Mathematics and Computation in Music, 2007.

[6] Cheng, E. and E. Chew, ―Quantitative Analysis of Phrasing Strategies in Expressive Performance: Computational Methods and Analysis of Performances of Unaccompanied Bach for Solo Violin,‖ Journal of New Music Research, Vol.37, No.4, pp.325-338, December 2008.

[7] Chowdhury, S. K. and A. K. Majumder , ―Digital spectrum analysis of respiratory sound,‖ IEEE Trans. on Biomedical Engineering, Vol. BME-28, No.11, pp.784-788, Nov. 1981.

[8] Cohen, A. and D. Landsberg, ―Analysis and Automatic Classification of Breath Sounds,‖ IEEE Trans. on Biomedical Engineering, Vol. BME-31, No.9, pp.585-590, Sept. 1984.

[9] Cooley, J. W. and J. W. Tukey, ―An algorithm for machine calculation of complex Fourier series,‖ Math. Comput., Vol. 19, pp. 297, 1965.

[10] Corbishley, P. and Rodriguez-Villegas, E., "Breathing Detection: Towards a Miniaturized, Wearable, Battery-Operated Monitoring System," IEEE Trans. on

Biomedical Engineering, Vol.55, No.1, pp.196-204, Jan. 2008.

[11] Dalmay F, Antonini MT, Marquet P, Menier R., ―Acoustic properties of the normal chest,‖ Eur Respir J., Vol.8, No.10, pp.1761-1769, Oct. 1995.

[12] Dixon, S. ―Onset Detection Revisited,‖ in Proc. the 9th International Conference on

Digital Audio Effects, pp 133-137, 2006.

[13] Forgacs, P., A. R. Nathoo, and H. D. Richardson, ―Breath sounds, ‖ Thorax, vol. 26, pp. 288-295, 1971.

(44)

the Local Grouping Rules of Lerdahl and Jackendoff’s A Generative Theory of Tonal Music,‖ Music Perception, Vol.21, No.4, pp.499-543, 2004.

[15] Friberg, A., R. Bresin, L. Frydén, and J. Sundberg, ―Musical Punctuation on the Microlevel: Automatic Identification and Performance of Small Melodic Units,‖

Journal of New Music Research, Vol.27, No. 3, pp.271-292, 1998.

[16] Gavriely, N., Palti, Y., and Alroy, G., ―Spectral characteristics of normal breath sounds,‖ J. Appl. Physiol. Respir. Environ. Exerc. Physiol., Vol.50, No.2, pp.307–314, 1981.

[17] Gavriely, N., et al., ―Spectral characteristics of chest wall breath sounds in normal subjects,‖ Thorax, 50, pp.1292–1300, 1995.

[18] Goto, M. and Muraoka, Y., ―Beat Tracking based on Multiple-agent Architecture — A Real-time Beat Tracking System for Audio Signals,‖ in Proc. Second International

Conference on Multi-Agent Systems, pp.103–110, 1996.

[19] ISO/IEC 11172-3:1993, ―Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s — Part 3:

Audio.‖

[20] LAME Ain't an Mp3 Encoder [http://lame.sourceforge.net/index.php].

[21] Laennec, R. T. H., De l’Auscultation Médiate ou Traité du Diagnostic des Maladies

des Poumons et du Coeur (On Mediate Auscultation or Treatise on the Diagnosis of the Diseases of the Lungs and Heart), Paris: Brosson and Chaudé, 1819.

[22] Lerdahl, F. and R. Jackendoff, A Generative Theory of Tonal Music, MIT Press, Cambridge, MA, 1983.

[23] Makhoul, J., ―Linear Prediction: A Tutorial Review,‖ Proc. IEEE, Vol. 63, No.4, pp.

561-580, April, 1975.

[24] McKusick, V. A., J. T. Jenkins and G. N. Webb "The acoustic basis of the chest examination,‖ Amer. Rev. Tuberc. Pulm. Dis., vol. 72, pp. 12, 1955.

[25] Nakano, T., et al., ―Analysis and Automatic Detection of Breath Sounds in Unaccompanied Singing Voice,‖ in Proc. of ICMPC, pp. 387–390, 2008.

[26] Pearce, M. T., D. Müllensiefen, and G. A. Wiggins, ―A Comparison of Statistical and Rule-based Models of Melodic Segmentation,‖ in Proceedings of the International

Computer Music Conference, 2008.

[27] Phillips, Kenneth H., Teaching Kids to Sing, Schirmer Books, 1996.

[28] Price, P.J., Ostendorf, M. and Wightman, C.W., ―Prosody and Parsing,‖ in Proc.

DARPA Workshop on Speech and Natural Language, pp.5–11, 1989.

[29] Ruinskiy, D. and Lavner, Y., ―An Effective Algorithm for Automatic Detection and Exact Demarcation of Breath Sounds in Speech and Song Signals,‖ IEEE Trans. on

Audio, Speech and Language Processing, Vol. 15, No. 3, pp.838–850, March 2007.

[30] Taplidou, S.A., ―WED: An Efficient Wheezing-Episode Detector Based on Breath

(45)

Sounds Spectrogram Analysis,‖ in Proc. of the 25th Annual Intl. Conf. of the IEEE

Eng. Med. Biol. Soc., pp.17-21, 2003.

[31] Temperley, D., The Cognition of Basic Musical Structures, MIT Press, Cambridge, MA, 2001.

[32] Wertheimer, M., ―Untersuchungen zur Lehre von der Gestalt II,‖ Psychologische

Forschung, Vol.4, No.1, pp.301-350, 1923.

[33] Wightman, C. W. and Ostendorf, M., ―Automatic Recognition of Prosodic Phrases,‖

in Proc. ICASSP, pp.321–324, 1991.

[34] Wightman, C. W. and M. Ostendorf, ―Automatic labeling of prosodic patterns,‖ IEEE

Trans. Speech and Audio Processing, Vol. 2, No. 4, pp.469–481, Oct. 1994.

(46)

附錄A. 音符頻率及音高對照表

C C# D Eb E F F# G G# A Bb B

音高(Pitch)

0 1 2 3 4 5 6 7 8 9 10 11

頻率(F) 16.35 17.32 18.35 19.45 20.60 21.83 23.12 24.50 25.96 27.50 29.14 30.87

0

音高(Pitch) 12 13 14 15 16 17 18 19 20 21 22 23

頻率(F) 32.70 34.65 36.71 38.89 41.20 43.65 46.25 49.00 51.91 55.00 58.27 61.74

1

音高(Pitch) 24 25 26 27 28 29 30 31 32 33 34 35

頻率(F) 65.41 69.30 73.42 77.78 82.41 87.31 92.50 98.00 103.8 110.0 116.5 123.5

2

音高(Pitch) 36 37 38 39 40 41 42 43 44 45 46 47

頻率(F) 130.8 138.6 146.8 155.6 164.8 174.6 185.0 196.0 207.7 220.0 233.1 246.9

3

音高(Pitch) 48 49 50 51 52 53 54 55 56 57 58 59

頻率(F) 261.6 277.2 293.7 311.1 329.6 349.2 370.0 392.0 415.3 440.0 466.2 493.9

4

音高(Pitch) 60 61 62 63 64 65 66 67 68 69 70 71

頻率(F) 523.3 554.4 587.3 622.3 659.3 698.5 740.0 784.0 830.6 880.0 932.3 987.8

5

音高(Pitch) 72 73 74 75 76 77 78 79 80 81 82 83

頻率(F) 1047 1109 1175 1245 1319 1397 1480 1568 1661 1760 1865 1976

6

音高(Pitch) 84 85 86 87 88 89 90 91 92 93 94 95

頻率(F) 2093 2217 2349 2489 2637 2794 2960 3136 3322 3520 3729 3951

7

音高(Pitch) 96 97 98 99 100 101 102 103 104 105 106 107

頻率(F) 4186 4435 4699 4978 5274 5588 5920 6272 6645 7040 7459 7902

8

(47)

附錄B. 樂句歌譜範例

編號：00014 小星星

編號：00017 王老先生有塊地

(48)

編號：00018 世上只有媽媽好

編號：00019 只要我長大

編號：00020 生日快樂

(49)

編號：00022 兩隻老虎

編號：00024 泥娃娃

編號：00029 茉莉花

(50)

編號：00030 倫敦鐵橋垮下來

編號：00031 捕魚歌

中 華 大 學

中 華 大 學 碩 士 論 文

呼吸聲偵測技術在 MP3 音樂自動斷句的應用 A Breath Detection Technique for MP3 Music

and It’s Application in Automatic Phrase Segmentation

系 所 別：資訊工程學系碩士班 學號姓名：E09802003 黃 志 銘 指導教授：劉 志 俊 博 士

中 華 民 國 100 年 8 月

摘 要

ABSTRACT

Keywords: Phrase, Automatic segmentation, MP3, Breath sounds detection.

致 謝

目錄

表目錄

圖目錄

1. 緒論

2. 相關研究

2.1. 樂句分段的相關研究

2.1.1. 樂句的涵義與樂句分段原理

2.1.2. 基於完形理論的樂句分段原理

f

N





N 



2.2. 呼吸聲偵測的相關研究

2.2.1. 呼吸聲偵測的歷史回顧

3. 研究方法

3.1. MP3 音樂自動斷句系統架構

3.2. 起音點偵測

3.2.1. 起音點取樣方法

3.2.2. 起音點取樣

4. MP3 音樂中的呼吸聲偵測技術

4.1. 音樂換氣聲的模型

4.2. MP3 音樂換氣聲的自動偵測技術

 

 

m

) log(

_ db

m

m 









13 ,..., 2 , 1 13 ), 2 ) ( 1 cos(

_

m db j i j

MFCC 

m

m m

M 

P M

B P B M M P

B

P 

5. 系統實作

5.1. 呼吸聲偵測法之 MP3 樂句分段系統實作

5.2. 樂句結構傾向法則之 MP3 樂句分段系統實作

6. 實驗結果

6.1. 實驗環境設定

6.2. 實驗結果分析

6.2.1. MP3 樂音起音點偵測結果

系統偵測到之正確樂句數

實際樂句數

系統偵測到之正確樂句數

系統偵測到之樂句總數

6.2.2. MP3 音樂呼吸聲頻譜特性分析

6.2.3. MP3 音樂呼吸聲偵測結果

6.2.4. MP3 音樂樂句斷句結果

7. 結論

8. 參考文獻

Computer Music Conference, pp.17-22, 2001.

First International Conference of the Society of Mathematics and Computation in Music, 2007.

Biomedical Engineering, Vol.55, No.1, pp.196-204, Jan. 2008.

Digital Audio Effects, pp 133-137, 2006.

Journal of New Music Research, Vol.27, No. 3, pp.271-292, 1998.

Conference on Multi-Agent Systems, pp.103–110, 1996.

des Poumons et du Coeur (On Mediate Auscultation or Treatise on the Diagnosis of the Diseases of the Lungs and Heart), Paris: Brosson and Chaudé, 1819.

Computer Music Conference, 2008.

中華大學

中華大學碩士論文

系所別：資訊工程學系碩士班學號姓名：E09802003 黃志銘指導教授：劉志俊博士

中華民國 100 年 8 月

摘要

致謝

^f

^N

^

^N ^