• 沒有找到結果。

5.2.4. Label Recovering Ratio (標籤回復率)

Label Recover Rate 的目的在於測詴自動標記段落標籤的效果。現在給定系統預 建立參數設定;(2)Instance Path Search 參數設定;(3)有效實體段落門檻值設定。

5.3.1. SSM 建立參數設定

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

63

聲調特徵序列利用 DTW 來計算兩行特徵序列之間的相似度。其中 DTW 的 Step Type 的路徑權重,我們設定如圖 5.6,w1=1.5,w2=1.0,w3=1.5。

圖 5.6 DTW 路徑權重設定

線性組合 SSM 我們將四種特徵值產生的 SSM 的權重都設定為一樣,因此 SSMhybrid = 0.25 * SSMsen + 0.25 * SSMpinyin + 0.25 * SSMpos + 0.25 * SSMtone。

5.3.2. Instance Path Search 參數設定

在 Instance Path Search 中我們要設定轉移分數 Pdiag與 Pother。我們將參數設定為 Pdiag=0.3,Pother=0.0。

5.3.3. 有效實體段落門檻值設定

要成為有效段落有兩個門檻值,分別是相似度門檻值與長度門檻值。相似度門檻 值為給定的 SSM,先去掉相似度為 1 的仍素,將剩下的仍素取帄均加上一個標 準差。長度門檻值為將給定的樣式段落的長度乘以 6/7。

5.3.4. 實驗結果

我們標記了 85 首歌詞的詞式,利用上述的參數設定,對四種特徵產生的 SSM 與 線性組合 SSM 跑詞式分析演算法,結果如表 5.2,第一欄為,其中粗體數字代 表該項評測最高的分數,BF 為 Boundary f-score,PF 為 Pairwise f-score,LRR 為 Label Recover Rate,BP 為 Boundary Precision,BR 為 Boundary Recall。可以發

w3=1.5

w1=1.5 w2=1.0

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

64

現線性組合 SSM 的分數在每一項評測都是最高,這表示線性組合 SSM 有整合到 各個特徵部分的優點。

表 5.2 詞式分析結果

BF PF LRR BP BR Over Under 線性組合 0.67 0.78 0.73 0.66 0.69 0.73 0.79

句字數 0.63 0.74 0.68 0.61 0.69 0.70 0.75 拼音 0.65 0.74 0.66 0.64 0.67 0.68 0.77 聲調 0.61 0.72 0.69 0.60 0.63 0.67 0.74 詞性 0.63 0.73 0.67 0.62 0.66 0.67 0.77

Pairwise f-score 不論在哪一種特徵產生的 SSM 都比 Boundary f-score 高,這 表示系統預測的詞式結果,段落切割的落點雖然有瑕疵,可是段落分群不太受影 響。例如圖 5.7 為任賢齊《不要變》的線性組合 SSM 分析結果,E 為系統預測,

T 為標準答案。可以看到系統預測把主歌部分合併了,因此系統預測少了兩個斷 點,可是分群結果都是正確的,造成 BF=1.0,而 BP=1.0、BR=0.67。而圖 5.8 為蕭亞軒《甩啦甩啦》的線性組合 SSM 分析結果,相較於圖 5.7 是一個反過來 的例子。系統預測把副歌部分多切割了,即使多切割了段落還有將其段落分成相 同的類別,造成 PF=1.0,而 BP=0.71、BR=1.0。

E 主 副 主 副 副

T 主 主 副 主 主 副 副

圖 5.7 任賢齊《不要變》

E 主 副 副 主 副 副 副 尾

T 主 副 主 副 副 尾

圖 5.8 蕭亞軒《甩啦甩啦》

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

65

Boundary Recall 不論在哪一種特徵產生的 SSM 都比 Boundary Precision 高,

這代表我們演算法分析結果切的斷點比較多,在斷點比較多的情況下,就會有較 大的機率產生 Over Segmentation 的情況,因此 Over 分數會比 Under 分數來的低。

例如圖 5.9 為孫燕姿《我要的幸福》的線性組合 SSM 分析結果,E 為系統預測,

T 為標準答案。系統預測有 7 個斷點,標準答案只有 6 個,系統預測將標準答案 中的主歌分成切割成兩塊,並且這兩塊分別是屬於前段與主歌,如此造成 BP=0.86、BR=1.0、Over=0.89、Under = 1.0 的結果。

E 前 主 副 主 副 橋 副 尾

T 主 副 主 副 橋 副 尾

圖 5.9 孫燕姿《我要的幸福》

四種特徵值的 SSM 與線性組合 SSM 在 77 首歌詞當中都有分析不出詞式的 歌詞,分不出的歌詞數分別為,數線性組合 SSM 5 首,句字數 SSM 5 首,拼音 SSM 5 首,詞性 SSM 4 首,聲調 SSM 7 首。彼此的交集為 3 首,聯集為 9 首。

若將各自分析不出詞式的歌詞不列入分數計算,則結果如表 5.3,可以發現整體 的分數都有提升,比沒去除無法分析的歌詞大約提升 5%左右。

表 5.3 去除分析不出詞式歌詞的實驗結果

BF PF LRR BP BR Over Under 線性組合 0.71 0.83 0.78 0.70 0.73 0.77 0.84

句字數 0.69 0.80 0.74 0.66 0.75 0.76 0.82 拼音 0.69 0.78 0.70 0.68 0.71 0.72 0.82 聲調 0.66 0.79 0.75 0.65 0.68 0.73 0.80 詞性 0.66 0.76 0.70 0.65 0.70 0.71 0.81

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

66

表 5.4 為無法分析的歌詞與特徵值 SSM 對應表,無法分析代表在此特徵 SSM 上找不到任兩種 Family 組合的結果,其中打叉為此特徵 SSM 無法分析,數 字代表此特徵 SSM 可以分析,其值為分析結果的 Pairwise f-score。無法分析的 原因,我們歸納出三個原因:(1)網路上歌詞斷句不正確,導致歌詞行數過短;(2) 歌詞內容以人來看,看不出有重複樣式;(3)特徵值本身的缺陷。

表 5.4 無法分析的歌詞與特徵值 SSM 對應表

歌曲名稱 線性組合 句字數 拼音 聲調 詞性

堅強的理由     

長流不息     

告別校園時     

合久必婚  0.40   

蝸牛  0.58   0.41

被動 1.0  1.0 1.0 1.0

全日愛 1.0  1.0 1.0 1.0

突然好想你 0.79  1.0 0.5 0.23

紅豆 0.74  0.93 0.93 0.93

千千萬萬個我 0.66 0.72 0.43  0.44

真的 0.62 0.45 0.45  0.57

《堅強的理由》、《長流不息》與《告別校園時》的歌詞分別行數為八行、九 行與十行。《堅強的理由》是因為歌友將太多句並成一行,導致副歌段落為一行,

造成找不出至少長度為二的 Famliy,造成沒有 Family 組合結果。《長流不息》與

《告別校園時》則是內容短,並且內容上重複樣式很少,因此造成沒有 Family

組合結果。《合久必婚》歌詞的內容寫的像是新詵,因此內容上沒有重複,可是

究句子數結構則有些許的重複。《蝸牛》的歌詞只有兩個特徵可以找出詞式,可

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

67

是 Pairwise f-score 都不高,原因是歌友標記的斷句方式造成演算法不好分析。《被 動》、《全日愛》、《突然好想你》與《紅豆》只有句字數 SSM 無法分析,這是由 於如果主歌與副歌的句結構結構很像的話,找出的 Family 段落範圍容易有重疊,

造成無法組合句字數結構,其中《被動》與《全日愛》其他特徵的 Pairwise f-score 都為 1.0。《紅豆》不論拼音、聲調與詞性 SSM 分析的 Pairwise f-score 皆為 0.93,

反而線性組合 SSM 降為 0.74,這可能是句字數特徵在這首歌來說。《千千萬萬個 我》與《真的》只有聲調 SSM 無法分析,這兩首即使相同為主歌或副歌的內容 歧異度太大,造成其他特徵分析的詞式結果 Pairwise f-score 分數也不高。

相關文件