實驗評估方法

第五章實驗

5.2 實驗評估方法

目前的相關研究在評估準確率時，常用Precision 以及 Recall 兩種評估值。Precision 的值表示找出來的分段結果中，符合Ground truth 的比例；Recall 的值表示找出來的分段結果

包含的Ground truth，與所有 Ground truth 的比例。至於，判斷是否與 Ground Truth 相符合，

是比較找出來的一個分段與Ground truth 對應的段落，是否誤差在一定的範圍內。

然而，考慮Precision 與 Recall 可能造成兩種問題的發生。第一種，當我們將一段 Ground truth 切成一個以上的段落時，也就是多找出幾個分段點，所有的結果都會被判斷為不符合 Ground truth，造成 Precision 或 Recall 的值降低。如圖 5.1 所示，下方的長條圖為分段結果的Gruond truth，上方為欲評估的分段結果。長條圖內的數字代表小節。假設誤差不能超過 3 個小節，我們在第一段的地方多分出了一段，因為超過誤差範圍，所以在計算 Precision 和Recall 時，會把第一段的結果全部當作不符合。第二種，依據我們的方法所切割出來的結果與Ground truth 都相近，但是都超過誤差時，會被判斷為全部不符合使得 Precision 與 Recall 的值為 0。如圖 5.2 所示，上方為 Ground truth 的結果，下方為透過我們方法分段的結果，由於每一個小節都超過誤差，所全部都不能算是符合。因此，Precision 與 Recall 並不能表示出相似的程度，所以我們必須利用其他能夠呈現相似度的評估方法來對結果作評估。

圖 5.1：Precision 與 Recall 誤判的第一種情形。

圖 5.2：Precision 與 Recall 誤判的第二種情形。

我們設計一個新的評估實驗效果方法，比較我們方法所找出來的結果以及Ground truth 之間的相似度，我們令U=<u1, u2,…, um>代表我們方法的分段結果，V=<v1, v2,…, vn>為 Ground truth。ui 或 vj 以(starti,endj)或(startj,endj)所表示，start 表示段落 ui 開始的小節，end 表示段落ui 結束的小節。

[範例 5.1] 一首音樂段落的情形為<(1,5), (7,11), (15,20)>，表示這首音樂總共分為三段，第

一段由第一個小節開始，到第五個小節結束；第二段由第七個小節開始，第十一個小節結

1 20 21 30 31 40

1 10 11 20 21 30 31 40

1 5 6 15 16 25 26 37

束；第三段由第十五個小節開始，第二十個小節結束。似度時，也會有好壞不同的結果。舉例來說，U = <(1,9), (10,13), (14,29), (30,33), (34,58)>，

(1, 9) (10, 13) (14, 29)(30, 33)(34, 58)

V=<(1,4), (5,29), (30,33), (34,58)>，可能有圖 5.3 所示的兩種對應方法。圖 5.3 的上方，是將 U2對應到 V2的情形，下方是將 U3對應到 V2的情形，兩者在總體所計算出來的相似度並不相同。因此，我們必須考慮所有對應的情形，並且挑出最佳的結果。

我們可以應用Dynamic programming 的技術建立一個矩陣 S，求出 S(U,V)的結果。在 Dynamic programming 的計算過程中，我們只考慮下面兩種情形。第一種為 Map 的情形，

對於S[m, n] = S[m-1, n-1] + s(um,vn)。第二種為 Ignore 的情形，對於 S[m, n] = S[m, n-1]。所

我們以U = <(1,9), (10,13), (14,29), (30,33), (34,58)>，V=<(1,4), (5,29), (30,33), (34,58)>

為例，我們可以建構出如圖 5.5 的矩陣。其中，圓圈所標記的部分代表 U 與 V 之間的對應關係。所以我們可以求得U 與 V 的相似度(Similiarty)為 104/30。最後，我們必須以長度作 Normalize，得到最後相似度的結果，所有的結果會介於 0 與 1 之間。

U 與 V 比較相似度時，會有三種可能的情況。第一種，U 與 V 的段落數目相同；

Algorithm Similarity Evaluation

Input: Fine segment result U and ground truth V Output: Similarity between U and V

1. if m ≧ n then {

第二種，U 的段落數大於 V 的段落數；第三種，U 的段落數小於 V 的段落數。一般

以下我們將資料分別以Original duration 與 IOI 兩種不同的方法表達旋律，找出個別的粗略段落、動機以及最後的精細段落。我們利用5.2 所提出的評估方法，評估最後的實驗結果。

表 5.2 為 Original duration 表示節奏的實驗結果。其中，效果最好的為莫札特的土耳其進行曲，與Ground truth 的相似度為 0.84，透過我們方法找出來的段落有 17 段，正確的結果有

在文檔中數位音樂典藏之資料探勘與智慧型檢索技術 (I) (頁 55-59)

第五章 實驗

5.2 實驗評估方法

[範例 5.1] 一首音樂段落的情形為<(1,5), (7,11), (15,20)>，表示這首音樂總共分為三段，第

第五章實驗