第一章、緒論
1.1 研究動機
近年來,在這資訊蓬勃發展和思想自由發達的時代,伴隨著我們的是諸多的 文字和資訊,如何在如此龐大的文章中,快速且有效的對文章進行分析、分類,
是一個相當大的難題。近年來,越來越多研究使用機器學習方法來進行文件分析 或分類;在實際應用上,除了時間之外,如何提高文章分類的準確度,也都是值 得我們研究的議題。
由於時間上的累積,人們寫作的文章數量越來越龐大,以至於各種不同類別 的文章數量相當龐大,而且每天無時無刻都在增加當中。若是要將新的一篇文章 分析出是屬於哪一個類別,如果是由人工來進行分類,那麼,遇到龐大的資料量 或是類別時,將需要耗費相當多的時間;另外文章內容可能很冗長,或是用詞模 糊不清,此外每個人的看法與觀點也不一定相同,主觀的想法也會造成分類錯誤 的發生,進而演變成人力資源上的浪費。對於現代的社會,有很多種類的文章,
例如電影影評的文章,或是公司的問卷調查,都是需要在少量的時間下就必頇要 將所有的文章分類出來,因為電影公司或是有些電影網站需要知道某一部電影在 社會上一般人的觀後感;或著是對於公司的問卷,我們想要知道關於此次的問卷 內容經由填寫者填出來的結果是偏向正面評價或是負面評價。就以上的兩個簡單 的例子中,文件分類已經成為一樣重要的研究;所以本論文希望發展一套系統,
能夠同時兼顧高準確度以及加快機器分類的時間。
一般來說,使用模糊化的技術在文件分類上,能夠擁有較高的文件分類準確 度,也能夠提升原先分類法的準確度。而在資訊量較小的情況下,一般分類法往 往無法訓練出一個良好的分類模型,分類結果沒有辦法有滿意的結果;加入模糊 化技術之後,有機會可以提高更多的準確度。所以本論文加入模糊化技術,希望 能夠比傳統分類法有較好的分類結果。
2
1.2 研究目的與方法
本論文希望能將各種不同類別的文章,有效率的分類到正確的類別中。本論 文考慮到各種不同領域以及類別的文章,在論文的實驗中,將會考慮在不同的文 章集下以及同一文章集但是不同排列組合下的情況,另外本研究會與其他分類法 作比較。
相對於傳統的監督式學習方法,Ensemble Learning[1]結合了多個不同權重 的分類器去解決各種不同的分類問題。Ensemble Learning 主要是用來改善分類 或是預測、效能的一個模型。而目前在所有以 Ensemble 為基礎的演算法中最有 名的為 AdaBoost[2]分類法,它的各種演算法的變化已經運用在各種不同的領域 中,也都具有不錯的成效[3][4][5][6][7]。
本論文方法部分是以 AdaBoost.MH[8]為基礎,結合模糊化的技術,形成一 個更準確且新穎的分類法。會使用 AdaBoost.MH 主要原因為,它可以對多類別以 及多標籤文章進行分類,加上訓練時間也較有些分類法來的快,除此之外,也具 有不錯的準確度,所以在時間以及準確度兩者皆要兼顧的考量上是個不錯的分類 法。而模糊化的技術自從 20 世紀開始,就一直是個讓許多研究者所研究的議題,
在傳統的自然語言處理上,往往會有許多的資訊是屬於不確定的、不準確的,但 是在二元的邏輯思維模式中,要解決這些問題,是有一定的困難和挑戰性,往往 到了最後只能以隨機的或是猜測的方式來對這些資訊進行處理。模糊理論用在分 類的方法上,是一種能夠更有效提高準確度的方法。模糊理論跟傳統的分類方法 中,在本質上有些的不同,模糊理論是屬於多元邏輯,代表說除了二元邏輯的非 真即假觀念,還多了有漸進的值,不再是只有 0 或 1 而已。結合 AdaBoost.MH 和模糊化的技術,擴大了模糊理論在自然語言領域的運用,是一個新穎的想法,
但是兩者方法的結合,是否有比原先 AdaBoost.MH 的準確度更高,又或著是在時 間上是否需要花費更多的時間,都是本論文中所需要研究的議題。本論文的目的 主要是要將模糊化的技術運用在分類的方法上,可以利用模糊化技術提升本來方
3
法的效能之外;達到比傳統其他的方法在時間和準確度上都有更好的優勢。
本論文也嘗詴了將本系統演變為 Semi-Supervised 的形式,稱為
Semi-Boosting,只需要提供少量的 training data 給系統作學習,就能將大量 的文章資料進行分類。不同於傳統的 Semi-Supervised 分類法對於文章的分類只 進行一個循環,代表只有一次的 Training 以及一次的 Testing,本系統
Semi-Boosting 將會對所要分類的文章集進行多次的循環,經由多次的循環 Training 以及 Testing,能夠在準確度上有提高的機會。
實驗比較的部分,其他比較著名的機器學習的演算法,例如,Support Vector Machine(SVM)[9][10]、以及 Naïve Bayes[11],本論文也用了相同的文章集去 實作了這些方法當作我們比較的數據。文章集皆為英文,本論文使用了 Pang 的 電影影評文章集、20-Newsgroups、和 Reuters,其實驗的設計以及實驗的數據 在本論文中會詳細介紹。
4
1.3 論文架構
第一章:緒論,簡單的介紹論文研究的動機,以及探討研究的目的與方法。
第二章:相關研究,概述本論文中所使用的技術背景知識,以及其他關於分