緒論 - 基於AdaBoost.MH之模糊化文件分類法

第一章、緒論

1.1 研究動機

近年來，在這資訊蓬勃發展和思想自由發達的時代，伴隨著我們的是諸多的文字和資訊，如何在如此龐大的文章中，快速且有效的對文章進行分析、分類，

是一個相當大的難題。近年來，越來越多研究使用機器學習方法來進行文件分析或分類;在實際應用上，除了時間之外，如何提高文章分類的準確度，也都是值得我們研究的議題。

由於時間上的累積，人們寫作的文章數量越來越龐大，以至於各種不同類別的文章數量相當龐大，而且每天無時無刻都在增加當中。若是要將新的一篇文章分析出是屬於哪一個類別，如果是由人工來進行分類，那麼，遇到龐大的資料量或是類別時，將需要耗費相當多的時間;另外文章內容可能很冗長，或是用詞模糊不清，此外每個人的看法與觀點也不一定相同，主觀的想法也會造成分類錯誤的發生，進而演變成人力資源上的浪費。對於現代的社會，有很多種類的文章，

例如電影影評的文章，或是公司的問卷調查，都是需要在少量的時間下就必頇要將所有的文章分類出來，因為電影公司或是有些電影網站需要知道某一部電影在社會上一般人的觀後感;或著是對於公司的問卷，我們想要知道關於此次的問卷內容經由填寫者填出來的結果是偏向正面評價或是負面評價。就以上的兩個簡單的例子中，文件分類已經成為一樣重要的研究;所以本論文希望發展一套系統，

能夠同時兼顧高準確度以及加快機器分類的時間。

一般來說，使用模糊化的技術在文件分類上，能夠擁有較高的文件分類準確度，也能夠提升原先分類法的準確度。而在資訊量較小的情況下，一般分類法往往無法訓練出一個良好的分類模型，分類結果沒有辦法有滿意的結果;加入模糊化技術之後，有機會可以提高更多的準確度。所以本論文加入模糊化技術，希望能夠比傳統分類法有較好的分類結果。

1.2 研究目的與方法

本論文希望能將各種不同類別的文章，有效率的分類到正確的類別中。本論文考慮到各種不同領域以及類別的文章，在論文的實驗中，將會考慮在不同的文章集下以及同一文章集但是不同排列組合下的情況，另外本研究會與其他分類法作比較。

相對於傳統的監督式學習方法，Ensemble Learning[1]結合了多個不同權重的分類器去解決各種不同的分類問題。Ensemble Learning 主要是用來改善分類或是預測、效能的一個模型。而目前在所有以 Ensemble 為基礎的演算法中最有名的為 AdaBoost[2]分類法，它的各種演算法的變化已經運用在各種不同的領域中，也都具有不錯的成效[3][4][5][6][7]。

本論文方法部分是以 AdaBoost.MH[8]為基礎，結合模糊化的技術，形成一個更準確且新穎的分類法。會使用 AdaBoost.MH 主要原因為，它可以對多類別以及多標籤文章進行分類，加上訓練時間也較有些分類法來的快，除此之外，也具有不錯的準確度，所以在時間以及準確度兩者皆要兼顧的考量上是個不錯的分類法。而模糊化的技術自從 20 世紀開始，就一直是個讓許多研究者所研究的議題，

在傳統的自然語言處理上，往往會有許多的資訊是屬於不確定的、不準確的，但是在二元的邏輯思維模式中，要解決這些問題，是有一定的困難和挑戰性，往往到了最後只能以隨機的或是猜測的方式來對這些資訊進行處理。模糊理論用在分類的方法上，是一種能夠更有效提高準確度的方法。模糊理論跟傳統的分類方法中，在本質上有些的不同，模糊理論是屬於多元邏輯，代表說除了二元邏輯的非真即假觀念，還多了有漸進的值，不再是只有 0 或 1 而已。結合 AdaBoost.MH 和模糊化的技術，擴大了模糊理論在自然語言領域的運用，是一個新穎的想法，

但是兩者方法的結合，是否有比原先 AdaBoost.MH 的準確度更高，又或著是在時間上是否需要花費更多的時間，都是本論文中所需要研究的議題。本論文的目的主要是要將模糊化的技術運用在分類的方法上，可以利用模糊化技術提升本來方

法的效能之外;達到比傳統其他的方法在時間和準確度上都有更好的優勢。

本論文也嘗詴了將本系統演變為 Semi-Supervised 的形式，稱為

Semi-Boosting，只需要提供少量的 training data 給系統作學習，就能將大量的文章資料進行分類。不同於傳統的 Semi-Supervised 分類法對於文章的分類只進行一個循環，代表只有一次的 Training 以及一次的 Testing，本系統

Semi-Boosting 將會對所要分類的文章集進行多次的循環，經由多次的循環 Training 以及 Testing，能夠在準確度上有提高的機會。

實驗比較的部分，其他比較著名的機器學習的演算法，例如，Support Vector Machine(SVM)[9][10]、以及 Naïve Bayes[11]，本論文也用了相同的文章集去實作了這些方法當作我們比較的數據。文章集皆為英文，本論文使用了 Pang 的電影影評文章集、20-Newsgroups、和 Reuters，其實驗的設計以及實驗的數據在本論文中會詳細介紹。

1.3 論文架構

第一章：緒論，簡單的介紹論文研究的動機，以及探討研究的目的與方法。

第二章：相關研究，概述本論文中所使用的技術背景知識，以及其他關於分

在文檔中基於AdaBoost.MH之模糊化文件分類法 (頁 9-12)