本論文所針對的音樂格式為 MP3(MPEG-1 Layer3)格式,利用壓縮技術來使容量縮 小,可以壓縮到原來的十分之一,而 MP3 所使用的壓縮技術、包含了心理聲學模型 (Psychoacoustics Model),利用遮蔽效應(Masking Effect)來屏人耳所聽不到的極高頻與極 低頻,達到不過多影響音質與減少檔案容量的優點。
另外,本文也參考了 E. Tsunoo[14]等人所提出的系統架構,分析 Bass-Line 此項音 樂特徵。分析過程架構包含了:提取 BASS 特徵、Pitch Tracking、Low-Pass filtering、
等技術,再藉由 DTW 演算法達成自動化分類器的訓練,區分出基本的音樂風格之後,
再搭配作曲方法分析和弦的走向,用來判斷不同的情緒反應分布,詳細說明於後。
2.1.1 心理聲學(Psychoacoustics)
研究人類聽覺的心理反應稱為心理聲學(Psychoacoustics),就是所謂「人腦解釋 聲音的方式」,心理聲學模型是對人聽覺感受的統計性質之數學表述模型,它解釋 人各種聽覺感受的生理原理。而人耳的聽覺範圍即音域,大約是在 20Hz 至 20kHz。
8
聽覺的響度(Loudness)表示感受聲音的強度是根據頻率而變化的,以 phon 為單位;
即在 1kHz 時的聲音強度。正常聽覺的範圍為 0-120phons。超出人耳的可聽頻率範圍的 聲音,即使響度再大,人耳也不能聽到;此時響度即等於零 phon(threshold of hearing)。
當響度達 120phon 時便是疼痛點(threshold of pain)。這一組曲線稱為 Robinson-Dadson equal-loudness contours 是根據心理聲學研究人耳對純正弦音調(sine tone)而推論出來 並經詴驗證實的。
2.1.2 遮蔽效應(Masking Effect)
聲音訊號實際是一種能量波,在空氣或其他媒介中傳播,人耳對聲音能量的多少即
9
圖 2.1.2.1 Equal Loudness Curve[17]
代表的意義是說,人耳要能聽到該頻率的聲音、所需要的最小分貝值(dB),亦即為 當某個頻率的能量低於曲線中所對應出的臨界值時,就不會被人耳所察覺。一個聲音訊 號如果與一種雜訊同時出現,它將變得微弱或完全聽不清楚。這就是遮蔽效應,雜 訊掩蔽了訊號。遮蔽效應的大小取決於雜訊和訊號在頻率上的關係。一般來說,訊 號與雜訊的頻率越接近,遮蔽也越大。這個會遮蔽其他頻率的訊號源,我們稱為遮蔽 者 (Masker),而遮蔽者對相鄰頻率的影響範圍和程度,則和遮蔽者本身是位在哪個臨界 頻帶有關,不同臨界頻帶內的遮蔽者,對同一個頻帶內的其它訊號或相鄰頻帶內的訊 號,會有不同的遮蔽效果,且低頻雜訊對高頻訊號的遮蔽常大於高頻雜訊對低頻訊 號的遮蔽。
而遮蔽效應也存在時域上,依時間發生的前後次序,時域遮蔽效應又被細分成前遮 蔽效應(Pre-masking)與後遮蔽效應(Post-masking)兩種。後遮蔽效應的意思是說,前一段 時間如果聽到的是強度較大的聲音,在它之後的數百微秒(ms)內,所接收到強度較弱的
10
3 對音框內容做分析,包含主要三個聲音特徵:音量(Volume),音高(Pitch),音色 (Timbre),其他像是頻譜(Spectrum),過零率(Zero Crossing Rate)等等。