研究說明 - 基於低音聲部特徵萃取的和弦行進與風格演算法之音樂情緒分類研究

本論文所針對的音樂格式為 MP3(MPEG-1 Layer3)格式，利用壓縮技術來使容量縮小，可以壓縮到原來的十分之一，而 MP3 所使用的壓縮技術、包含了心理聲學模型 (Psychoacoustics Model)，利用遮蔽效應(Masking Effect)來屏人耳所聽不到的極高頻與極低頻，達到不過多影響音質與減少檔案容量的優點。

另外，本文也參考了 E. Tsunoo[14]等人所提出的系統架構，分析 Bass-Line 此項音樂特徵。分析過程架構包含了：提取 BASS 特徵、Pitch Tracking、Low-Pass filtering、

等技術，再藉由 DTW 演算法達成自動化分類器的訓練，區分出基本的音樂風格之後，

再搭配作曲方法分析和弦的走向，用來判斷不同的情緒反應分布，詳細說明於後。

2.1.1 心理聲學（Psychoacoustics）

研究人類聽覺的心理反應稱為心理聲學（Psychoacoustics），就是所謂「人腦解釋聲音的方式」，心理聲學模型是對人聽覺感受的統計性質之數學表述模型，它解釋人各種聽覺感受的生理原理。而人耳的聽覺範圍即音域，大約是在 20Hz 至 20kHz。

聽覺的響度（Loudness）表示感受聲音的強度是根據頻率而變化的，以 phon 為單位；

即在 1kHz 時的聲音強度。正常聽覺的範圍為 0-120phons。超出人耳的可聽頻率範圍的聲音，即使響度再大，人耳也不能聽到；此時響度即等於零 phon（threshold of hearing）。

當響度達 120phon 時便是疼痛點（threshold of pain）。這一組曲線稱為 Robinson-Dadson equal-loudness contours 是根據心理聲學研究人耳對純正弦音調（sine tone）而推論出來並經詴驗證實的。

2.1.2 遮蔽效應(Masking Effect)

聲音訊號實際是一種能量波，在空氣或其他媒介中傳播，人耳對聲音能量的多少即

圖 2.1.2.1 Equal Loudness Curve[17]

代表的意義是說，人耳要能聽到該頻率的聲音、所需要的最小分貝值(dB)，亦即為當某個頻率的能量低於曲線中所對應出的臨界值時，就不會被人耳所察覺。一個聲音訊號如果與一種雜訊同時出現，它將變得微弱或完全聽不清楚。這就是遮蔽效應，雜訊掩蔽了訊號。遮蔽效應的大小取決於雜訊和訊號在頻率上的關係。一般來說，訊號與雜訊的頻率越接近，遮蔽也越大。這個會遮蔽其他頻率的訊號源，我們稱為遮蔽者 (Masker)，而遮蔽者對相鄰頻率的影響範圍和程度，則和遮蔽者本身是位在哪個臨界頻帶有關，不同臨界頻帶內的遮蔽者，對同一個頻帶內的其它訊號或相鄰頻帶內的訊號，會有不同的遮蔽效果，且低頻雜訊對高頻訊號的遮蔽常大於高頻雜訊對低頻訊號的遮蔽。

而遮蔽效應也存在時域上，依時間發生的前後次序，時域遮蔽效應又被細分成前遮蔽效應(Pre-masking)與後遮蔽效應(Post-masking)兩種。後遮蔽效應的意思是說，前一段時間如果聽到的是強度較大的聲音，在它之後的數百微秒(ms)內，所接收到強度較弱的

3 對音框內容做分析，包含主要三個聲音特徵:音量(Volume)，音高(Pitch)，音色 (Timbre)，其他像是頻譜(Spectrum)，過零率(Zero Crossing Rate)等等。

在文檔中基於低音聲部特徵萃取的和弦行進與風格演算法之音樂情緒分類研究 (頁 17-20)