實驗結果

圖 19 流行音樂架構圖



實驗流程

使用國語流行音樂自動斷句系統與詞曲同步撥放程式判斷樂句的位置，會與實際音樂樂句不一定相同，我們要檢查電腦判斷的樂句位置是否同等於實際的數據，藉此找出音樂效能測詴方式音樂回覆率以及準確率，如圖 20 為系統偵測的國語流行音樂樂曲資料庫的 NO.001 曲目：江蕙-家後的片段資訊。

圖 20 電腦判斷樂句的片段資訊

如圖 21 所示，以此方式對照樂譜，電腦判斷樂句起音點在於的 9 小節開頭休止符之後以及第 11 小節休止符之後，完全與實際狀況相同，

持續測詴整首曲目，將可以找出此樂曲的回覆率及準確率。

圖 21 電腦判斷的樂句位置圖

 實驗數據

編號

曲名實際樂

句數

系統偵測之總樂句

系統偵測之正確樂句

系統偵測之錯誤樂句

回覆率準確率

1 家後 44 35 31 4 70.45% 88.57%

2 征服 38 44 33 11 86.84% 75.00%

3 心動 32 33 15 18 46.88% 45.45%

4 約定 44 31 10 21 22.73% 32.26%

5 活該 48 39 35 4 72.92% 89.74%

6 葉子 37 31 11 20 29.73% 35.48%

7 童話 36 50 11 39 30.56% 22.00%

8 約定 37 36 33 3 89.19% 91.67%

9 後來 48 49 21 28 43.75% 42.86%

10 聽海 49 44 24 20 48.98% 54.55%

11 十年 46 34 31 3 67.39% 91.18%

12 曖昧 35 25 13 12 37.14% 52.00%

13 江南 51 40 22 18 43.14% 55.00%

14 遇見 17 18 11 7 64.71% 61.11%

15 同類 39 28 18 10 46.15% 64.29%

16 唯一 35 34 30 4 85.71% 88.24%

17 勇敢 45 40 32 8 71.11% 80.00%

18 剪愛 41 41 22 19 53.66% 53.66%

19 當你 60 40 27 13 45.00% 67.50%

20 月光 45 33 32 1 71.11% 96.97%

21 候鳥 45 34 25 9 55.56% 73.53%

22 天灰 45 25 21 4 46.67% 84.00%

23 安靜 48 51 30 21 62.50% 58.82%

24 擱淺 46 41 24 17 52.17% 58.54%

25 鋼琴 43 38 21 17 48.84% 55.26%

26 星晴 45 42 27 15 60.00% 64.29%

27 軌跡 57 38 22 16 38.60% 57.89%

28 天空 39 40 35 5 89.74% 87.50%

29 倒帶 51 44 42 2 82.35% 95.45%

30 知足 46 35 7 28 15.22% 20.00%

31 寧夏 42 26 26 0 61.90% 100.00%

32 小薇 33 22 20 2 60.61% 90.91%

33 紀念 36 32 18 14 50.00% 56.25%

34 假如 41 36 28 8 68.29% 77.78%

35 夢一場 52 52 31 21 59.62% 59.62%

36 上弦月 42 37 27 10 64.29% 72.97%

37 我願意 48 37 14 23 29.17% 37.84%

38 如果愛 35 33 11 22 31.43% 33.33%

39 天黑黑 57 46 25 21 43.86% 54.35%

40 我的愛 41 32 26 6 63.41% 81.25%

41 菊花台 54 40 26 14 48.15% 65.00%

42 珊瑚海 56 37 36 1 64.29% 97.30%

43 髮如雪 71 48 40 8 56.34% 83.33%

44 七里香 51 33 21 12 41.18% 63.64%

45 流星雨 36 34 17 17 47.22% 50.00%

46 就是愛 50 32 24 8 48.00% 75.00%

47 聽不到 64 36 29 7 45.31% 80.56%

48 情非得已 49 42 42 0 85.71% 100.00%

49 新不了情 49 33 31 2 63.27% 93.94%

50 理想情人 64 45 27 18 42.19% 60.00%

51 痴心絕對 50 50 33 17 66.00% 66.00%

52 大城小愛 89 84 55 29 61.80% 65.48%

53 眼淚成詵 31 20 19 1 61.29% 95.00%

54 花的嫁紗 65 54 43 11 66.15% 79.63%

55 千年之戀 33 31 24 7 72.73% 77.42%

56 我們的愛 61 54 24 30 39.34% 44.44%

57 一了百了 54 41 33 8 61.11% 80.49%

58 戀人未滿 62 62 38 24 61.29% 61.29%

59 愛很簡單 40 32 23 9 57.50% 71.88%

60 黑色幽默 35 42 8 34 22.86% 19.05%

61 分手快樂 31 24 16 8 51.61% 66.67%

62 除此之外 45 34 26 8 57.78% 76.47%

63 千里之外 34 31 23 8 67.65% 74.19%

64 我只在乎你 43 37 27 10 62.79% 72.97%

65 城裡的月光 40 45 27 18 67.50% 60.00%

66 孤單北半球 28 32 17 15 60.71% 53.13%

67 如果雲知道 50 34 34 0 68.00% 100.00%

68 老鼠愛大米 45 37 30 7 66.67% 81.08%

69 愛一直閃亮 33 30 27 3 81.82% 90.00%

70 至少還有你 47 37 24 13 51.06% 64.86%

71 隱形的翅膀 14 15 0 15 0.00% 0.00%

72 遺失的美好 39 43 23 20 58.97% 53.49%

73 一千年以後 37 30 25 5 67.57% 83.33%

74 給我你的愛 32 35 15 20 46.88% 42.86%

75 那年的情書 36 35 33 2 91.67% 94.29%

76 我會好好的 47 46 36 10 76.60% 78.26%

77 花都開好了 25 31 21 10 84.00% 67.74%

78 愛我還是他 30 29 22 7 73.33% 75.86%

79 如果有一天 43 34 34 0 79.07% 100.00%

80 很愛很愛你 59 38 34 4 57.63% 89.47%

81 從開始到現在 34 29 20 9 58.82% 68.97%

82 我多麼羨慕你 44 43 20 23 45.45% 46.51%

83 一首簡單的歌 41 28 22 6 53.66% 78.57%

84 別在傷口灑鹽 37 26 21 5 56.76% 80.77%

85 檸檬草的味道 38 33 27 6 71.05% 81.82%

86 威尼斯的眼淚 28 29 24 5 85.71% 82.76%

87 他一定很愛你 43 26 26 0 60.47% 100.00%

88 莫斯科沒有眼淚 40 34 27 7 67.50% 79.41%

89 我知道你很難過 45 36 33 3 73.33% 91.67%

90 忠孝東路走九遍 46 32 26 6 56.52% 81.25%

91 月亮付表我的心 40 36 4 32 10.00% 11.11%

92 原來你什麼都不想要

41 40 18 22 43.90% 45.00%

93 當你孤單你會想起誰

44 40 28 12 63.64% 70.00%

94 男人不該讓女人流淚

76 40 37 3 48.68% 92.50%

95 I Believe 30 39 13 26 43.33% 33.33%

96 Lydia 31 31 22 9 70.97% 70.97%

97 Only One 37 37 27 10 72.97% 72.97%

98 Forever Love 54 44 36 8 66.67% 81.82%

99 Kiss Goodbye 40 39 22 17 55.00% 56.41%

100 May I Love You 36 32 28 4 77.78% 87.50%

101 Through The Arbor-Kevin

純鋼琴伴奏

101首樂曲之實驗結果如表格1所示，實際樂句數與系統偵測之總樂句數無誤差的回覆率57.77%，準確率是68.75%。但部分的系統偵測之正確樂句斷句位置跟實際樂句斷句位置相差不大，對歌詞同步影響不大。本文亦將100首歌曲做了另一個實驗，實際樂句與系統偵測之總樂句兩者相差在八分音符以內的回覆率是62.34%，準確率為74.54%，

後者明顯提高。

表格 1 一百零一首樂曲之實驗結果統計

實驗結果回覆率平均值準確率平均值

實際樂句數與系統偵測之總樂句(無誤差)

57.77% 68.75%

實際樂句與系統偵測之總樂句(誤差八分音符以內)

62.34% 74.54%

本文針對二十一首哼唱歌曲做實驗，使用 Melisma 的音樂樂句群組分析工具所測詴出來的回覆率為 40.7%，準確率是 62.9%。使用的呼吸聲偵測方法的回覆率為 77.8%，準確率為 84%，其中準確率之準度必需在 +/- 50ms(含)以內，如表格 2 所示。

表格 2 二十一首哼唱歌曲之實驗結果統計

實驗結果回覆率平均值準確率平均值

實際樂句與系統偵測之總樂句 (相差+/- 50ms(含)以內)

77.8% 84.0%

除第101首樂曲為純鋼琴伴奏，無從判別其準確率以及回覆率外，

其餘實驗結果顯示大部分音樂都有優良的準確率以及回復率，少數斷句標準與一般樂譜不太相同，導致準確率以及回復率就會低於平均值，

由此可見，音樂使用MP3國語流行音樂自動斷句系統進行分段已經具備良好的斷句功能。

Chapter 10 結論

本文提出一種針對 MP3 數位音樂進行樂句自動分段與呼吸聲偵測的技術，在起音偵測的實驗中，我們使用重覆偵測計算(Rescan Detection Computation)的方法，針對這 21 首哼唱歌曲進行測詴比較。使用該測詴方法所得到的平均回復率(Recall rate)是 79.26%；精確率(Precision rate)為 83.78%。同時也進行相同歌曲的測詴，分別是由不同的人所哼唱的。在這個測詴比較中也可以發現，在相同的歌曲由不同人的來演唱也是會有不相同的結果。基本上歌唱技巧的好壞，也會影嚮我們所做的偵測結果。

在 MP3 樂曲起音點偵測樂句斷句的測詴中，本文所採用的 101 首歌曲，

使用 Melisma 的音樂樂句群組(Phrase Grouper)分析工具所測詴出來的回復率(Recall rate)為 62.3%；精確率(Precision rate)是 74.5%。而本文所使用的呼吸偵測(Breath Detection)方法的回復率(Recall rate)為 77.8%；精確率(Precision rate)為 84%。雖然呼吸偵測(Breath Detection) 的方法結果比較好，但此方法只能針對有人聲演唱的歌曲來進行，但對於流行音樂來說，已經足夠。

系統同步播放功能結合 IEEE 1599 標準對 MP3 訊號、歌詞與曲譜的整合描述與樂句同步能力，開發了一套可以讀取 IEEE 1599 音樂整合檔的樂句播放器，提供音樂聆聽者一套 MP3 國語流行音樂自斷斷句以及詞曲同步撥放系統，讓使用者根據音樂整合檔所記載之內容，瀏覽該首歌曲之各種異質資訊，包含演唱者、作詞者、作曲者、專輯發行日期、專輯封面、歌手寫真、歌手其他作品……等資訊，播放 MP3 檔案時可以藉由同步播放功

能，觀看目前歌曲歌詞、查閱樂譜播放資訊、進行樂句分析。

至今我們所使用的呼吸偵測方法只能針對有人聲演唱的歌曲來進行，

對於流行音樂來說，容易受到背景音樂所干擾，所以如何在伴奏音樂下偵測到呼吸聲是一項高難度挑戰。此外如何整合多種不同的樂句的分段點判斷方法，亦是我們未來要探討的方向。

參考文獻

[1] Baggi, D.L., “An IEEE Standard For Symbolic Music,” IEEE Computer, pp.100-102, Nov. 2005.

[2] Baggi, D.L., A.Baratè, G.Hausand L.A.Ludovico,“ A Computer Tool to Enjoy and Understand Music,” in Proceedings of EWIMT 2005 Integration of Knowledge, Semantics and Digital Media Technology, pp.213-217, 2005.

[3] Bod, R., “Memory-based Models of Melodic Analysis: Challenging the Gestalt Principles,” Journal of NewMusic Research, Vol.30, No.3, pp.27-37, 2001.

[4] Cambouropoulos,E., “The Local Boundary Detection Model (LBDM) and its Application in the Study of Expressive Timing,” in Proceedings of the International Computer Music Conference, pp.17-22, 2001.

[5] Cambouropoulos, E., “Musical Parallelism and Melodic Segmentation: A Computational Approach,” Music Perception, Vol.

23, No. 3, pp.249-267, 2006.

[6] Cheng, E. and E. Chew, “A Local Maximum Phrase Detection Method and the Analysis of Phrasing Strategies in Expressive Performances,” In Proceedings of the First International Conference of the Society of Mathematics and Computation in Music, 2007.

[7] Cheng, E. and E. Chew, “Quantitative Analysis of Phrasing Strategies in Expressive Performance: Computational Methods and Analysis of Performances of Unaccompanied Bach for Solo Violin,”

Journal of New Music Research, Vol.37, No.4, pp.325-338, December 2008.

[8] Dixon, S. “Onset Detection Revisited,” in Proc. the 9th International Conference on Digital Audio Effects, pp 133-137, 2006.

[9] Frankland, B.W. and A.J. Cohen, “Parsing of Melody:Quanti ﬁ cation and Testing of the Local Grouping Rulesof Lerdahl and Jackendoff’s A Generative Theory ofTonal Music,”Music Perception, Vol.21, No.4, pp.499-543, 2004.

[10] Friberg, A., R. Bresin, L. Frydén, and J. Sundberg, “Musical Punctuation on the Microlevel: Automatic Identification and Performance of Small Melodic Units,” Journal of New Music Research, Vol.27, No. 3, pp.271-292, 1998.

[11] Good, M., “MusicXML: An Internet-Friendly Format for Sheet Music,” in XML Conference Proceedings, 2001.

[12] Goto, M., “A Chorus-Section Detecting Method For Musical Audio Signal,” in Proc. 2003 IEEE International Conference on Acoustic, Speech, and Signal Processing, pp.V-437-440, 2003.

[13] Goto, M. and Muraoka, Y., “Beat Tracking based on Multiple-agent Architecture — A Real-time Beat Tracking System for Audio Signals,” in Proc. Second International Conference on Multi-agent Systems, pp.103–110, 1996.

[14] Gouyon, F., Klapuri, A., Dixon, S., Alonso, M., Tzanetakis, G. Uhle, C., and Cano, P., “An Experimental Comparison of Audio Tempo Induction Algorithms,” IEEE Transaction on Audio,and

Speech Processing, 2006.

[15] Haus,G. and M. Longari,“Time-Based Music DescriptionApproach Based on XML,”Computer Music Journal,Vol.

29, No. 1, pp. 70-85, 2005.

[16] Haus,G.and L.A. Ludovico, “Music Segmentation: An XML-oriented Approach,” in Lecture Note in Computer Science, Vol.3310, pp.330-346, 2005.

[17] Haus,G., and A. Pinto, “MX structural metadata as MIR tools,”in Proceedings of Sound and Music Computing, Salerno, Italy, 2005.

[18] IEEE Std. 1599, “IEEE Recommended Practice for Defining a Commonly Acceptable Musical Application Using XML,” IEEE, 2008.

[19] ISO/IEC11172-3:1993, “Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mbit/s — Part 3: Audio.”

[20] ISO 226:2003, “Acoustics - Normal Equal-Loudness Level Contours,” ISO, 2003.

[21] Klapuri, A. “Sound Onset Detection by Applying Psychoacoustic Knowledge,” in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing, pp. 115-118, 1999.

[22] Klapuri, A., Eronen, A.J., and Astola, J.T., “Analysis of the Meter of Acoustic Musical Signals” IEEE Transaction on Audio, Speech, and Language Processing, Vol.14, No.1, pp.342-355, 2006.

[23] Lerdahl, F. and R. Jackendoff, A Generative Theory of Tonal Music, MIT Press, Cambridge, MA, 1983.

[24] Ludovico, L. A., “IEEE 1599: a Multi-layer Approach to Music Description,” Journal of Multimedia, Vol. 4, No. 1, pp. 9-14, 2009.

[25] Meier, W., “eXist: An Open Source Native XML Database,”

in Proceedings of NODe Web-and Database-Related Workshops, 2002.

[26] Pearce, M. T., D. Müllensiefen, and G. A. Wiggins, “A Comparison of Statistical and Rule-based Models of Melodic Segmentation,” in Proceedings of the International Computer Music Conference, 2008.

[27] Schaffrath, H., The Essen Folksong Collection in the Humdrum Kern Format, In: D. Huron (Ed.), Menlo Park, CA: Centerfor Computer Assisted Research in the Humanities, 1995.

[28] Scheirer, E. D., “Tempo and Beat Analysis of Acoustic Musical Signals,” J. Acoust. Soc. Amer., Vol. 103, No. 1, pp.

588–601, 1998.

[29] Sommaruga, L. and D.Baggi, “Towards a Semantic Web Based Model for the Tonal System in Standard IEEE 1599," Journal of Multimedia, Vol. 4, No. 1, pp. 40-45, 2009.

[30] Tagliolato, P., “Music Structure Representation: a Formal Model,” in Proceedings of Sound and Music Computing, Marseille, France, 2006.

[31] Temperley, D., The Cognition of Basic Musical Structures, MIT Press, Cambridge, MA, 2001.

[32] Wertheimer, M., “Untersuchungen zur Lehrevonder Gestalt II,” Psychologische Forschung, Vol.4, No.1, pp.301-350, 1923.

Appendix A – 數位化國語流行音樂 MusicXML 樂譜之建立

從傳統的黑膠唱片，演進到錄音帶、CD，實體越來越精緻化，進而到近年來的 MP3，演變成不需要實體也可直接在電腦撥放。傳統的 MP3 播放器，好比說千千靜聽以及 winamp，如圖 22 所示，只提供聲音訊號及歌詞秀的功能，卻沒有以曲譜、歌詞、音樂訊號同步作分段的特性，這即是音樂研究者所需要的樂句分段功能；對音樂愛好者來說，在撥放音樂同時，

也希望專輯照片、歌手照片、歌詞等異質資訊一併顯示，而目前的撥放器亦沒有自動化配置歌詞的方式，所以我們開發出一套整合音樂異質資訊的國語流行音樂自動斷句與詞曲同步撥放系統，建置 MusicXML 是為了讓歌曲有良好的儲存方式，讓這本系統可以應用在音樂動態歌詞的製作，藉由軟體偵測，便能夠自動產生字幕，提供使用者更好的音樂響宴。

圖 22 音樂播放器的歌詞顯示功能

步驟一、掃描樂譜

我們先將樂譜掃描存入電腦，存檔成成 TIF 檔後，利用 PhotoScore Ultimate 來偵測與修改樂譜，如圖 23 所示，首先將照片打開。

圖 23 程式開檔畫面

步驟二、人工校正

<1>.目前這個檔案偵測到四個錯誤，第一個到第四個錯誤是樂譜尾端的的線沒有偵測到。修改方式為：先使用滑鼠右鍵，選擇 Barline 的第一個線條，如圖 24，就可以完成。

圖 24 歌曲修正方式

<2>. 我們以另外一個例子來說明其它容易發生的錯誤，如圖 25，現在軟體偵測到有三個二分音符，和原圖的三個全音符不同。

圖 25 常見問題

<3>. 首先將綠色的(Keypad 最底排的數字 2)二分音符改成藍色的主旋律(數字 1)。

圖 26 解決方式

<4>. 之後將二分音符修改成全音符即完成，如圖 27。

圖 27 修正完成

步驟三、數位樂譜完成

將檔案存檔成 xml 檔，如圖 28

圖 28 XML 檔案編輯完成

目前已經納入 101 首樂曲的 xml 資料於資料庫之中，這對於斷句的判斷是非常重要的一個，前置作業，我們實驗測詴中已經完成了對這 101 首檔案所進行的測詴，詳細實驗結果於 Appendix D。

Appendix B – 國語流行音樂樂曲資料庫之建構

國語流行音樂樂曲資料庫是能讓主程式連接，並且搜尋內部樂曲，

讓撥放程式能夠撥放內部樂曲、以及歌詞，目前已納入 101 首歌曲的 MP3 數位音訊、歌詞，未來可以將更多樂曲新增至此資料庫中，讓此撥放程式擁有更多內容，能夠撥放更多樂曲。

實作方法

先將樂譜完整的加入作詞家、作曲家、曲名等資訊，再加入歌詞於 MusicXML，如圖 29，最後在將 MP3 數位音訊放入詞曲資料庫中。

圖 29 輸入歌詞於 MusicXML

樂曲清單：

歌曲編號

曲名作詞作曲演唱

1 家後鄭進一/陳維祥鄭進一江蕙

2 征服袁惟仁袁惟仁那英

3 心動林夕黃韻玲林曉培

4 約定姚若龍陳小霞周蕙

5 活該王武雄詹凌駕信樂團

6 葉子陳曉娟陳曉娟阿桑

7 童話光良光良光良

8 約定光良光良光良

9 後來施人誠玉城千春劉若英

10 聽海林秓離涂惠元張惠妹

11 十年林夕陳小霞陳奕迅

12 曖昧姜憶萱/顏璽軒小冷楊丞琳

13 江南李瑞洵林俊傑林俊傑

14 遇見易家揚林一峰孫燕姿

15 同類易家揚李偲菘孫燕姿

16 唯一王力宏王力宏王力宏

17 勇敢陳嘉文/夏木洪敬堯張惠妹

18 剪愛林秓離涂惠元張惠妹

19 當你張思爾林俊傑王心凌

20 月光 Sugiyama Kouichi 橋本淳王心凌

21 候鳥方文山周杰倫 S.H.E

22 天灰施人誠/馮士哲馮士哲 S.H.E

23 安靜周杰倫周杰倫周杰倫

24 擱淺宋健彰周杰倫周杰倫

25 鋼琴許常德桑田佳祐范逸臣

26 星晴周杰倫周杰倫周杰倫

27 軌跡黃俊郎周杰倫周杰倫

28 天空衛斯理/小米衛斯理蔡依林

29 倒帶方文山周杰倫蔡依林

30 知足阿信阿信阿信

31 寧夏李正帆李正帆梁靜茹

32 小薇阿弟阿弟黃品源

在文檔中中華大學資訊工程學系專題期末報告 (頁 36-63)

實驗流程

 實驗數據

實驗結果 回覆率平均值 準確率平均值

實驗結果 回覆率平均值 準確率平均值

Chapter 10 結論

參考文獻

Appendix A – 數位化國語流行音樂 MusicXML 樂譜之建立

步驟一、 掃描樂譜

步驟二、 人工校正

步驟三、 數位樂譜完成

Appendix B – 國語流行音樂樂曲資料庫之建構

實作方法

樂曲清單：

實驗結果回覆率平均值準確率平均值

實驗結果回覆率平均值準確率平均值

步驟一、掃描樂譜

步驟二、人工校正

步驟三、數位樂譜完成