電腦自動作曲結果評估

第二章、相關研究

2.4 電腦自動作曲結果評估

電腦自動作曲成果產出後，必須有方法以區分出適當與不適當的旋律。但是，將美學編纂成冊或將其以公式描述有其困難之處。因此，評估音樂是否符合音樂美學最常見的做法為請專家進行評估。但是，音樂是時空藝術，被擷取出來被評估的音樂片段在其他的音樂片段當中可能會呈現出不同的感受，如何切割應呈現這種方法評價的合理性和與所顯示出的大小之間的權衡。

目前尚無法完全客觀評價音樂美學的最大的原因，肇因於無法了解審美觀如何表達成為方程式以評估旋律是否符合音樂上的美感。除此之外，每個人對於聆聽音樂所產生的感受極度主觀，縱使不同的聆聽者若聆聽同樣的音樂，亦不會產生同樣的感受[50, 51]。

Cross 於 1998 年在[52]中提到，透過使用不同的科學方法的相關性和實用性理解音樂現象，針對我們所了解的音樂信仰及看法，並對於有關應用科學和音樂的相關性方面，

提出對於「音樂」可能的定義。Cross 亦認為，在目前的音樂學研究中，內在主義 (immanentist)或解構主義(deconstructionist)的觀點是相當普遍的，在音樂的理解上拒絕了物理科學的可能性，作曲家在作曲過程中並非經度量得知該音樂片段必定會有何作用才使用，而是因為其心理感受及共鳴。除此之外，音樂沒有任何物理上的事實或是軌跡，

僅能夠透過音樂學上的思考和寫曲，推斷出人類賦予意義的能力或是人類與物質世界互動的現象的意義，故否定物理科學和音樂方面的關聯。

在內在主義的觀點，科學與音樂理論是無關的，而與心智的意向性以及文化有關。

Cross 主張，在音樂的理論和實踐研究的重要性方面，音樂認知心理學目前還在非常初期的發展階段，且涉及到各方面的音樂思想和行為在許多層面上的解釋，必須透過執行理解音樂的認知科學的研究計劃以及理論探討，以跨學科的形式化建模和實證實驗的研

究。因此，Cross 認為在現階段尋找一個完全客觀的評估自動作曲之方法是無用的工作。

綜上所述，在過去的電腦自動作曲相關研究中，評估部分篇幅較少，多半著重於音樂產生之方法。在 Johanson 等人於 1998 年透過基因演算法產生音樂，在結果評估部分僅陳述「幾乎所有產出的音樂都很動聽」，流於主觀且缺乏公信力與度量標準[53]。

Unehara 等人的評估方式為改善前述缺點，一共邀請 6 位 20~30 歲年齡層的人，以 1 分至 10 分的標準評斷系統所產生出的音樂，但亦無具體描述客觀評估方式[54]。為改善評估過程過於主觀之問題，即開始有論文採用蒐集演奏家及閱聽人的回饋作為度量之基準 [55, 56]。但是 Pearce 等人認為，蒐集大量的主觀判斷以進行綜合判斷，雖能降低單一主觀判斷所造成之問題，但由於每個人之判斷基準與音樂認知標準不盡相同，故此方法仍然無法完全作為客觀評估方式[57]。若要發展一套完全科學客觀地評估標準，以評估旋律或是音樂是否符合藝術美感，則必須找出影響美感的音樂元素。

在 Freitas 等人於 2012 年提出一系列的理念，以提供一個根據多方觀點以進行綜合檢驗跟研究旋律的構想[58]。其中一些想法是基於音樂理論所發展出來的，在過去音樂分析的研究當中較常被列入考慮，但是在自動作曲領域的研究當中較常被忽略。此篇論文將在自動作曲研究過程中較常被忽略的觀點整理出來，以進一步幫助電腦輔助的創作者定義更複雜跟有用的方法來評估音樂.，盼能夠使自動作曲結果的評估更加成熟。作者一共提出了 10 個能夠在分析旋律上有所依據，如表 2 所示。

Pitch (音高)

Tonality and dissonance (調性與不和諧音) Intervals (音程)

Melodic expectation (旋律期待性) Contour (旋律線)

Rhythm (節奏) Patterns (特徵) Phrases (樂句) Originality (獨創性) Second order analyses (二級分析)

表 2 旋律分析觀點[58]

雖然 Freitas 等人於[58]提出了一系列的旋律分析觀點，但是較傾向於分析觀點的理念，無一套完整的分析架構。因此，Pearce 等人提出了一套自動作曲評估架構，盼能較客觀分析自動作曲產出之成果，並對音樂創作的評價進行了討論[57]。這個架構包含了四個階段：

圖 5 自動作曲評估架構[57]

在 Pearce 等人所提出的論文[57]當中，提出了能夠滿足符合自動作曲評估需求的架構，包含確立目標、取得風格特徵、機器創作音樂、評估等四個階段，各階段目的分述如下：

在第一階段的時候，目的為確立目標。在進行自動作曲之前，就必須針對欲得到的結果清楚定義目標，在目標確立例如說產出之音樂必須為特定風格、或是近似於某位特定作曲家之風格，以及能夠容忍的風格差異程度。

在第二階段時，目的為取得特徵規則。必須蒐集與第一階段所確立之目標相符合的音樂，再使用機器學習技術將特徵萃取出來以建立規則。在此階段所使用的特徵擷取技術必須要能夠被量化與計算，否則其產生結果無法評估。採用機器分析音樂以取得規則的最大原因為，若採用知識工程師所建構出的規則，除了會可能會因為其本位主義而得

1. 確立自動作曲應達到的目標。

2. 從一組音樂樂句當中取得特徵。

3. 作出以滿足目標其特徵的音樂。

4. 在實驗中使用人類受試者評估音樂與

目標是否達到具體要求。

到較為偏頗且較不客觀的資訊，且會因為來源較少而得到較不多樣化的音樂規則。倘若採用機器分析方式，即可以透過大量蒐集音樂來源，透過各種不同的客觀方法分析得到較豐富的規則。

在第三階段則為依據第二階段產出的規則作曲，並且要能夠滿足其規則限制。最後階段則為評估，將自動化產生的音樂及人類作曲的音樂混合在一起請人以主觀方式判斷能否辨別出是人類或是機器所創作。此方式於該論文中稱為區別測試(Discrimination test)，測試過程近似於圖靈測試(Turing test)。但是，圖靈測試係用於檢測機器是否具有思考能力，在人與機器互動的情況之下，由人判斷出該機器是否展現出與人等價或是無法與人區別的思考能力。但是在此處，僅有機器已產生完成的音樂與人已製作完成的音樂，以隨機方式排序且在不揭露答案的情況之下，供人判斷該首音樂是否為機器所創作，

並無涉及圖靈測試中的「互動」，僅單方向接收音樂作出判斷。

在此架構下具有許多特色，由於第二階段的特徵係由人為作曲的音樂當中以數學方式或是其他計算性方式萃取出來，而非由專家制定的規則。因此，整個作曲與評估階段都是在封閉系統(closed system)中運作，無人為的度量標準介入。在評估實驗階段時，會以「人們是否能夠區分出這首音樂是否為機器作曲或人作曲的音樂」取代「這首音樂是否好聽」。倘若受測者無法正確區分出該首音樂為機器所作或人所作，即可以客觀的方式宣稱「該首音樂具有與人為作出的音樂競爭的能力」。

在評估階段計有三項實驗，以各種不同觀點及考量檢定。作者從 Edinburgh 大學的人工智慧研究所找了共 19 名受測者，針對系統與人分別以 GS Roland 909 drum set，節拍 150 BPM 所產生的一小節 MIDI 鼓組音樂進行評估。系統所產生的音樂目標為「聽起來必須像是 drum and bass 風格」、「能夠與人在此種風格下作的音樂相比較」，及「每次系統產生出的音樂必須要有所差異」，各次實驗結果分述如下：

第一個實驗為「區別測試實驗」，受測者必須從訓練集當中區分出該特徵為機器或是人所產生。在測試資料當中，包含了 10 個透過基因演算法所產生的音樂，及 10 個人所產生的音樂。如果受測者無法成功區分出的話，則代表機器所產生的音樂是成功的。

實驗結果顯示，在相同風格前提之下，駁斥了「該系統生成的音樂與人類產生的模式並

無區別」觀點。

第二個實驗為樣式評估，由受測者將系統所產生的音樂以樣式進行分類，若人所認定的樣式與原先系統產生時所設定的樣式相同，且分類正確率大於或等於受測者分類人所做的音樂時的正確率，則代表機器所產生的音樂是成功的。實驗結果顯示「該系統所生成的音樂確實具有 D&B 風格」，但受測者卻無法正確辨識並歸類在 D&B 風格，故駁斥了「該系統生成的音樂之樣式能夠被正確分類在 D&B 風格中」之假設。

在第三個實驗當中，為評估系統每一次所產生的音樂之多樣性。實驗結果顯示，系統生成模式未能達到標準水準的明顯變化，駁斥了系統生成的音樂之多樣性大於或等於人類生成音樂的多樣性的論點。

在上述三個實驗當中，結果均顯示所採用的機器創作方式若在同樣的條件與人相競爭，且在未揭露機器與人所創作的作品的情況下，受試者仍然能夠區分出創作者為機器或人，人創作的風格與多樣性亦較機器創作明確與較高品質。因此，透過[57]所提出的評估架構，具有效衡量評估自動作曲是否達到目標需求之能力。

在文檔中基於IEEE 1599 標準的自動作曲系統架構 (頁 22-26)

第二章、 相關研究