機器學習(Machine Learning)是近 20 多年興起的一門跨領域研究,其中涉及 統計學、機率理論、逼近理論以及計算複雜性理論等多門學科。無論是資料探勘、
電腦視覺、自然語言處理、生物特徵識別、搜尋引擎、證券市場分析、語音和手 寫識別以及機器人等皆可以看到其蹤跡。機器學習的目的是利用特徵(Features)讓 機器或是電腦學習分類分群的方法。其中如高斯混合模型(Gaussian Mixture Model,
GMM) [66]、隱藏式馬可夫模型(Hidden Markov Model, HMM)[67]、條件隨機場域 (Conditional Random Field, CRF)[68, 69] 、 簡 單 貝 式 分 類 器 (Naive-Bayes Classifier)[70]以及相當熱門的支持向量機(Support Vector Machine, SVM)[71]等皆 屬於機器學習的範疇。
在機器學習領域中可以將資料分為訓練集(Training Set)與測試集(Testing Set) 兩類,兩者皆有抽取出來的特徵向量(Feature Vector)。訓練集中有人工標記的輸 出答案,測試集中則無,因此需依靠由訓練集所訓練出的分類器(Classifier)來判 斷其輸出為何。如在本論文中訓練集為若干語句,而每個語句都有其特徵,諸如 語句的位置、長度以及語調等,若該語句為摘要之一,其人工標記的輸出為+1,
反之標記則為-1,測試集則為其它若干語句,無標記任何答案。上述的例子為二 元分類法(Binary Classifier)。
根 據 訓 練 資 料 的 有 無 多 寡 , 機 器 學 習 可 以 分 為 監 督 式 學 習 (Supervised
Learning) 、 無 監 督 式 學 習 (Unsupervised Learning) 以 及 半 監 督 式 學 習 (Semi-supervised Learning)三種。監督式學習在於訓練資料皆有標記正確答案,亦 即對每一個訓練集中的訓練單元皆有如+1 或是-1 等答案的標記。而在無監督式學 習中的訓練資料皆無標記正確答案,即便沒有標記的答案,在技術上仍可以利用 類似叢集(Clustering)的方式將測試集中的資料做分類。而監督式學習由於有人工 標記的正確答案,通常結果都會比較好,然而人工標記答案是相當困難的,因此 透過半監督式學習能增進使用少量的人工標記答案的學習。
支持向量機(Support Vector Machine, SVM)
對於一群資料而言,有時候會希望依據資料的一些特性來將這群資料分為兩 群。而就資料分群而言,已知有一些效果不錯的方法。例如:最近鄰居法(Nearest
Neighbor)[72]、類神經網路(Neural Networks)[73]、決策樹(Decision Tree)[74]等方 式,上述這些方式的準確率相去不遠。然而,支持向量機在解決小樣本、非線性 以及高維模式識別問題中表現出許多特有的優勢,已被應用於手寫識別、人臉識 別以及文本圖像分類等實際問題,性能優於已有的學習方法,表現出良好的學習 能力。從有限訓練樣本得到的決策規則對獨立的測試集仍能得到較小的誤差。
在二元分類(Binary Classification)的問題上,或許可以使用簡單的線性模型
(Linear Model)來對資料做切割,然而這將面臨到幾個問題。第一,在無限多個可 能的線性模型中,如何挑選出一個較好的平面,第二,若資料分布為線性不可分 割,則所有的線性模型將無法正確的判斷資料類別。支持向量機可以找出一個超 平面(Hyper Plane),使得兩個不同的類別分隔開來。如圖 2.2 中為兩類資料的分布,
分別以黑點與白點表示,而中間的實線則為二維平面上之分隔線,分隔線可以寫 為𝑤𝑇𝑥 + 𝑏。我們希望找到一個超平面可以將黑點與白點分割,並且距離這兩個 類別的邊界(Margin)越大越好,如此才能夠明確地分辨這些點是屬於哪個類別,
否則在計算上容易因精度的問題而產生誤差,因此我們認為右邊的超平面較佳。
圖 5.1 最大邊際之示意圖
特徵(Prosodic Features)以及關聯特徵(Relevance Features),詳細的特徵資訊如表
5.1 所示。
文字文件(TD) 語音文件(SD)
ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
詞彙特徵 0.362 0.237 0.311 0.298 0.176 0.266
韻律特徵 0.452 0.349 0.409 0.363 0.219 0.322
關聯特徵 0.389 0.254 0.332 0.355 0.200 0.300
表 5.2 單類特徵之摘要結果
由表 5.2 中得到,無論在文字文件(TD)或是語音文件(SD)中,韻律特徵
(Prosodic Features)相對於其它兩種特徵產生較為顯著的摘要效能,因此韻律特徵 比起其它兩種特徵更能夠判斷摘要語句的重要資訊。在 TD 實驗中,詞彙特徵
(Lexical Features)在這三種摘要特徵中的表現最差,其原因可能是該特徵描述的是 表淺(Shallow)語句性質,包含專有名詞的數量、停用詞的數量以及語句的流暢性,
沒有考慮語句的內容資訊,因此單憑該特徵無法選取出較正確的摘要語句。此外,
關聯特徵(Relevance Features)比起詞彙特徵有較好的摘要成效。在 SD 實驗中得到 的結論,與 TD 的結論具一致性,但關聯特徵與韻律特徵之間效果差異較無 TD 來得顯著。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
所有特徵 0.484 0.384 0.440 0.387 0.247 0.348
表 5.3 結合所有特徵之摘要結果
我們進行使用所有摘要特徵於支持向量機器(SVM)之實驗,其結果示於表 5.3。
從實驗結果中可以發現,無論於 TD 或是 SD 中,經過各種面向的考量後,確實 可以獲得較好的摘要成效。
排序模型 文字文件(TD) 語音文件(SD)
餘弦相似度 連續型詞袋模型(CBOW) 連續型詞袋模型(CBOW)
馬可夫隨機漫步 連續型詞袋模型(CBOW) 連續型詞袋模型(CBOW)
文件相似度量 連續型詞袋模型(CBOW) 連續型詞袋模型(CBOW)
表 5.4 關聯特徵採用之詞表示法模型
接著進行探討關聯特徵中使用其它模型分數對摘要效能的影響。因此我們將 關聯特徵中的向量空間模型(VSM)、馬可夫隨機漫步(MRW)以及單連語言模型 (ULM)的分數,以詞表示法模型摘要之分數作為替換,分別根據於表 4.1、4.3、
4.5 中最佳的摘要表現,該關聯特徵採用模型如表 5.4 所示。從表中可以發現 CBOW 的摘要效果始終最佳。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
所有特徵 0.497 0.406 0.451 0.396 0.254 0.353
表 5.5 以詞表示法模型摘要分數為關聯特徵之摘要結果
同樣地結合所有特徵一併作為支持向量機的輸入,其摘要效能如表 5.5 所示。
從實驗結果中發現到,無論在 TD 或是 SD 中,以詞表示法模型作為關聯特徵,
皆使得摘要成效非常顯著,尤其在 TD 中的實驗結果,產生最佳之摘要成效。
排序模型 文字文件(TD) 語音文件(SD)
餘弦相似度 分散式儲存模型(PV-DM) 分散式儲存模型(PV-DM)
馬可夫隨機漫步 分散式儲存模型(PV-DM) 分散式儲存模型(PV-DM)
文件相似度量 分散式儲存模型(PV-DM) 分散式儲存模型(PV-DM)
表 5.6 關聯特徵採用之語句表示法模型
我們亦考慮語句表示法模型分數對摘要效能的影響。同樣將關聯特徵中的模 型分數替換為語句表示法模型摘要之分數,分別根據於表 4.2、4.4、4.6 中最佳的 摘要表現,該關聯特徵採用模型如表 5.6 所示。從表中的結果亦可觀察到 PV-DM 的摘要效果始終最佳。
文字文件(TD) 語音文件(SD)
方法 ROUGE-1 ROUGE-2 ROUGE-L ROUGE-1 ROUGE-2 ROUGE-L
所有特徵 0.487 0.393 0.446 0.385 0.255 0.350
表 5.7 以語句表示法模型摘要分數為關聯特徵之摘要結果
其摘要效能如表 5.7 所示。從 TD 的實驗結果中可以觀察到,使用語句表示 法模型分數作為特徵之摘要成效較使用詞表示法來得差(表 5.5)。然而在 SD 中,
結合以語句表示法模型分數作為關聯特徵可以達到最佳之摘要效果。
第 6 章 圖論方式之摘要壓縮