國立中央大學

(1)

國立中央大學

資訊管理研究所碩士論文

以統計分析探討文件分類程序對期刊論文分類效果之影響

______________________________________________________________

研究生：賴昆佑

指導教授：薛義誠博士

中華民國九十六年六月

(2)

國立中央大學圖書館碩博士論文電子檔授權書

本授權書所授權之論文全文電子檔(不包含紙本、詳備註 1 說明)，為本人於國立中央大學，撰寫之碩/博士學位論文。(以下請擇一勾選)

( ○ )同意 (立即開放)

( )同意 (一年後開放)，原因是：

( )同意 (二年後開放)，原因是：

( )不同意，原因是：

以非專屬、無償授權國立中央大學圖書館與國家圖書館，基於推動「資源共享、

互惠合作」之理念，於回饋社會與學術研究之目的，得不限地域、時間與次數，

以紙本、微縮、光碟及其它各種方法將上列論文收錄、重製、公開陳列、與發行，

或再授權他人以各種方法重製與利用，並得將數位化之上列論文與論文電子檔以上載網路方式，提供讀者基於個人非營利性質之線上檢索、閱覽、下載或列印。

研究生簽名: 賴昆佑學號： 944203023

論文名稱: 以統計分析探討文件分類程序對期刊論文分類效果之影響指導教授姓名：薛義誠教授

系所：資訊管理所博士班 █碩士班日期：民國 96 年 07 月 10 日

備註：

1. 本授權書之授權範圍僅限電子檔，紙本論文部分依著作權法第 15 條第 3 款之規定，採推定原則即預設同意圖書館得公開上架閱覽，如您有申請專利或投稿等考量，不同意紙本上架陳列，須另行加填聲明書，詳細說明與紙本聲明書請至 http://blog.lib.ncu.edu.tw/plog/ 碩博士論文專區查閱下載。

2. 本授權書請填寫並親筆簽名後，裝訂於各紙本論文封面後之次頁（全文電子檔內之授權書

簽名，可用電腦打字代替）。

3. 請加印一份單張之授權書，填寫並親筆簽名後，於辦理離校時交圖書館（以統一代轉寄給國家圖書館）。

4. 讀者基於個人非營利性質之線上檢索、閱覽、下載或列印上列論文，應依著作權法相關規定辦理。

(3)

(4)

(5)

摘要

期刊論文提供專業領域知識，然資訊超載造成檢索時間成本浪費，應用文件分類技術可讓使用者迅速取得相關領域之期刊論文。文件分類程序包含「前處理」、

「文件特徵建構」、「分類方法應用」與「分類結果評估」等四個階段。針對期刊論文之分類效果，本研究以統計假設檢定探討期刊論文分類程序中，特徵權重方法、文章欄位差異與應用不同分類器對分類效果之影響，並與本研究設計之抽樣分配分類器進行比較。由實驗模擬與統計假設檢定分析顯示，第一，以特徵比例作為特徵權重方法分類效果顯著優於特徵頻率。第二，文章欄位以「摘要」之分類效果最佳，優於標題與關鍵字，後兩者則無顯著差異。第三，期刊論文分類以支持向量機分類效果最佳，其次為貝式機率分類器、決策樹以及抽樣分配分類器。

第四，應用文件分類技術將期刊論文分類之方法可行。另外針對抽樣分配分類器部分，亦提出分析結果與建議，以提升未來研究所需。

關鍵字：文件分類，分類器，期刊論文分類，統計檢定。

(6)

Abstract

Journal papers provide professional domain knowledge. Nevertheless, emerging of information overloading causes considerable cost of time.

Application of text categorization technology could help users to retrieve domain journal papers efficiently. Four phases of text categorization process are “text pre-processing”, “document feature construction”,

“applying classification methods” and “evaluation”. This research probes for the effectiveness of: feature weighting, fields of articles and classifiers during the process of journal papers categorization, and also applied sampling distribution classifier within the process. The hypothesis test analysis shows that: 1

^st

, feature ratio performs well significantly than feature frequency. 2

^nd

, fields of abstract are more effective than titles and keywords of journal papers, and there are no difference between the latter two. 3

^rd

, Support vector machines are most effective, then naïve-bayes, decision trees and sampling distribution classifier in order. And 4

^th

, text categorization of journal papers is feasible. Additionally, analysis and recommendation of sampling distribution classifier are also proposed for the future study.

Keywords: text categorization, classifiers, journal papers classification,

hypothesis test.

(7)

誌謝

在中央大學求學六年，轉眼間已經到了尾聲。除了資訊管理領域專業知識學習與論文研究外，最重要的是學習「獨立」與「合群」。獨立的部分，指求知過程中的獨立思考與批判。而合群係指與周遭的人群跟事物相處。或許現在尚未臻至完美，但相信我仍能持續努力追求真善美的境界。此刻，即將告別學生生涯的我五味雜陳於心頭。除了高興求學過程順利外，也感到些許惆悵與一絲難過。即將離開培育自己六年的中央大學，即將告別校園的老師與長輩，在此獻上我最殷切的祝福與最誠摯的感謝：

感謝敬愛的薛義誠老師，在您繁忙之時仍抽空指導學生，讓本研究得以順利完成。系主任陳彥良老師，感謝您六年來的指導，毋論是在資料與檔案結構與商業智慧課程，專題研究以至學位口試，您都細心地給予指導。郭建明學長感謝您平時的指導，並在百忙之中抽空從南部北上擔任口試委員。資管系的老師們，感謝你們耐心地傳道、授業與解惑，使學生能更進一步接受磨練，讓自己成長。資管系辦的嚴小姐、趙小姐、邱先生與惠敏，感謝你們這段時間以來的幫忙，謝謝。

註冊組的長輩們，謝謝大家這段時間以來的照顧。小惠姊就像是我的親姊姊一樣照顧我。依菱姐感謝你平常耐心聽我吐苦水與忍受我的無聊笑話。錦鄉老大即便是兩個孩子的媽，依然保持二十歲姑娘的純真，感謝你花時間跟我互相吐槽取樂，你永遠是註冊組之花。玉琴、志銘、碧華、怡俐與雲琴大人，感謝你們這段時間以來的關照。註冊組是我在中央的家，你們就是我的家人，真的非常感謝大家這段時間的照顧。

信宏、有為跟拉拉庫奇，感謝你們平常難笑的笑話跟無聊的蠢事，讓我碩士生活增添一些樂趣。好屌的克拉馬學長與昱芬賢伉儷跟屌學長，感謝你們這段時間的照顧。感謝凱耀每天熬夜讓我半夜有人可以一起無聊。毓賢、俊宇、小胖、

欣峻、威智、口桀、秋婷、小公主、柏廷依潔賢伉儷、清焱、莉文、俊豪、俊皓、

子軒、明豪純甄賢伉儷、哈比人玉霞、小紅、昆龍、小綠、哲民與俊融、老丈等，

(8)

希望未來有機會大家能聚首，感謝大家這兩年來的照顧，謝謝。

大學的同學們，能夠認識你們真的是很幸福的事情。書宇小帥哥祝福你在博士學程順利。敬珽祝福你交大畢業後的人生能夠一帆風順。ＡＱ跟無聊添也希望你們未來留學的計畫順利成功。宗霖大師從交大畢業後也能找到想作的事情、伯翰在清大請好好努力，之後創業之路能過關斬將。神豆從政大畢業後也能找到待遇很好的工作。佩君在交大也能夠過得充實順利。還有很多很多大學同學們未來一切順利，謝謝你們。資管系系壘的學弟們，這幾年打球打得很愉快，謝謝你們。

祝福你們除了在球技上有所突破外，在資管專業上也能步步高昇。

在此特別感謝我的好朋友于綺，從高中認識到現在已經八年，這段時間感謝妳的關懷與勉勵。雖然平常妳都笑我黑，不過我知道只是開玩笑的，就像我笑妳憨一樣。非常謝謝妳，希望妳在國防求學過程順利，未來到英國或美國留學的計畫順利。

最後感謝培育我的中央大學，以及所有幫助過我的人，謝謝你們。

賴昆佑 2007/7/10

(9)

目錄

摘要 ... v

Absrtact ... vi

目錄 ... ix

1 序論 ... 1

1.1 研究背景與動機 ... 1

1.2 研究目的 ... 3

1.3 論文架構 ... 5

2. 文獻探討 ... 6

2.1 文字探勘與機器學習 ... 6

2.2 文件分類 ... 10

2.3 分類器 ... 16

3. 研究方法 ... 21

3.1 研究問題 ... 21

3.2 研究流程 ... 24

3.3 分類方法 ... 26

4. 實驗結果與分析 ... 31

4.1 實驗設計 ... 31

4.2 特徵權重方法分類效果差異檢定 ... 35

4.3 文章欄位分類效果差異檢定 ... 41

4.4 抽樣分配分類器之信心水準分類效果差異檢定 ... 50

4.5 分類器分類效果差異檢定 ... 58

5. 結論與建議 ... 65

5.1 結論 ... 65

5.2 研究限制 ... 66

5.3 未來研究方向 ... 67

參考文獻 ... 68

(10)

圖目錄

圖 1 資訊檢索結果 ... 15

圖 2 決策樹示意圖 ... 16

圖 3 支持向量機分類示意圖 ... 19

圖 4 研究流程 ... 24

圖 5 訓練資料與實驗資料關係 ... 27

圖 6 抽樣分配與信賴區間 ... 28

圖 7 抽樣分配分類器示意圖 ... 29

圖 8 兩特徵維度交集 ... 30

圖 9 兩特徵維度空集 ... 30

圖 10 特徵次數權重分類結果 ... 35

圖 11 特徵比例權重分類結果 ... 36

圖 12 特徵次數與特徵比例權重法之準確率比較 ... 37

圖 13 特徵次數與特徵比例權重法之召回率比較 ... 38

圖 14 特徵次數與特徵比例權重法之F值比較 ... 39

圖 15 標題欄位之分類結果 ... 41

圖 16 摘要欄位之分類結果 ... 42

圖 17 關鍵字欄位之分類結果 ... 43

圖 18 文章欄位分類準確率比較 ... 44

圖 19 文章欄位分類召回率比較 ... 46

圖 20 文章欄位分類F值比較 ... 48

圖 21 抽樣分配分類器於信心水準為 90%之分類效果 ... 50

圖 24 不同信心水準下抽樣分配分類準確率比較 ... 53

圖 25 不同信心水準下抽樣分配分類召回率比較 ... 55

圖 26 不同信心水準下分類F值 ... 56

圖 27 決策樹分類效果 ... 58

圖 28 支持向量機之分類效果 ... 59

圖 29 不同分類器之分類準確率比較 ... 60

圖 30 不同分類器之分類召回率比較 ... 61

圖 31 不同分類器之分類F值比較 ... 63

(11)

表目錄

表 1 特徵選取方法 ... 13

表 2 資訊檢索列聯表 ... 15

表 3 符號說明 ... 21

表 4 特徵權重方法檢定實驗 ... 31

表 5 期刊論文欄位效果實驗 ... 32

表 6 分類器分類效果實驗 ... 34

表 7 特徵次數權重之分類統計值 ... 35

表 8 特徵比例權重之分類統計值 ... 36

表 9 特徵次數與特徵比例權重法之分類效果比較 ... 37

表 10 標題欄位分類之統計值 ... 41

表 11 摘要欄位分類之統計值 ... 42

表 12 關鍵字分類之統計值 ... 43

表 13 文章欄位之分類效果比較 ... 44

表 14 抽樣分配分類器於信心水準為 90%之分類統計值 ... 50

表 17 不同信心水準下，抽樣分配分類器效果比較 ... 53

表 18 決策樹分類統計值 ... 58

表 19 支持向量機分類統計值 ... 59

表 20 各種分類器分類效果之比較 ... 60

(12)

1. 序論

1.1 研究背景與動機

知識經濟時代來臨，使用者利用搜尋引擎、資料庫與入口網站檢索資訊並學習。然資訊超載的問題迫使使用者需從大量文件中過濾文件是否與其檢索意圖相關，造成可觀的時間成本。專業領域文件之文件分類，如期刊論文。不僅可提供使用者有效的資訊檢索工具，避免人工分類標準不一，亦可讓使用者以最節省時間成本方式瞭解並學習該領域之知識。

文件分類透過演算法將文件自動指定至事先定義之類別。文件分類程序主要包含「前處理」、「文件特徵建構」、「分類方法應用」與「分類結果評估」等四個階段。前處理將文件轉換成適當的格式以供分析。文件特徵建構將各文件重要的特徵以量化指標標記，作為該文件內容之代表。接著透過各分類方法之模型建構，

計算各文件與類別或文件與文件之間之相似度，決定是否將文件歸屬於該類別。

最後則是對於分類效果進行評估。

分類器在文件分類程序中扮演影響關鍵角色，其核心概念以統計理論與機器學習為主，透過事前分類好的文件作為訓練資料，學習各類別文件所包含的特徵，

並依此建構分類模型與規則，進而應用於新進文件分類之預測。常見分類器主要可分為四種模型架構，分別為以統計理論為基礎、以幾何距離與向量模型為基礎、

以決策樹模型為基礎以及以類神經網路模式為基礎等四種[3]。決策樹、貝氏機率分類器與支持向量機皆歸屬於此四類。為因應不同資料與情況之分類，各模型架構又可衍生許多計算模型。不同架構有其優缺點與適用情境，分類前必須檢視資料欄位與內容量等性質，才能達到分類目的。

(13)

本研究針對期刊論文之分類效果，以統計假設檢定探討期刊論文，以便瞭解其分類程序之運作原理。進一步提出研究假設，藉由實驗模擬之數據分析驗證分類程序對期刊論文分類之影響。並以研究結果為基礎提出提升期刊論文分類效果之建議。

(14)

1.2 研究目的

本研究主旨在於探討文件分類程序對期刊論文文件分類效果之影響。依據主旨將本研究劃分成數點研究議題，藉此設定研究目標與定義問題，並以實驗模擬確認各種假設成立與否，並根據結果分析提出期刊論文分類效果提升之建議。以下兩點為研究目的：

1. 「分析文件分類程序中，特徵權重方法、文章欄位差異與分類器對期刊論文分類效果之影響。」

2. 「分析實驗結果並提出提升期刊論文分類效果之建議。」

本研究著重於三個分類程序構面因素的探討，分別為期刊論文資料特性，特徵建構方法與分類器。探討議題如下：

(1). 「檢定特徵權重計算方法為特徵比例與特徵頻率時分類效果之差異」

藉由實驗分析，檢定特徵權重計算方法的為特徵比例與特徵頻率時分類效果之間的差異程度，並提出建議以供未來研究參考。

(2). 「檢定期刊論文欄位差異造成的分類效果差異」

多數的期刊論文屬半結構性文件，具有部分固定欄位。本研究將使用這些固定欄位的內容進行分類，檢定期刊論文欄位差異造成的分類效果差異程度，並依此提出建議。

(3). 「檢定不同分類器之分類效果差異」

分類器理論不同，適用情境與資料型態也有所差異。本研究以統計檢定比較

(15)

(4). 「檢定抽樣分配分類器與其他分類器之分類效果的差異程度。」

本研究以抽樣分配模型為基礎，搭配歐式距離設計分類器。為瞭解此分類器實用程度，本研究將以期刊論文進行實驗模擬，檢測此分類器與其他分類器分類效果的差異程度。

(16)

1.3 論文架構

以下為本篇論文之架構。第二章為文獻探討。2.1 為文字探勘與機器學習之介紹。2.2 針對文件分類之定義與其過程進行探討，包含特徵建構、分類方法與效果評估。2.3 進一步探討決策樹、貝式分類器、支持向量機與三種分類法之適用情境。

第三章為研究方法。3.1 說明本研究依據研究目的所設定之研究問題定義與說明。3.2 研究流程敘述本研究各主要步驟詳細過程。3.3 描述研究採用之分類方法與過程。

第四章為結果與分析。4.1 為實驗設計，說明針對研究問題設計之實驗步驟與方法。4.2 為使用不同特徵權重方法之實驗結果、分析與討論。4.3 為期刊論文欄位實驗結果、分析與討論。4.4 為抽樣分配分類器信心水準實驗結果、分析與討論。

4.5 為分類器效果之實驗結果、分析與討論。

第五章為本研究之結論與建議，5.1 闡述本研究之結論與研究發現。5.2 說明研究限制。5.3 則針對本研究所採行之方法與研究目的等進行建議。

(17)

2. 文獻探討

2.1 文字探勘與機器學習

文字探勘

文字探勘 (text mining) 針對文字資料進行處理，透過各種量化技巧，如統計計量與資訊理論等，輔以人工智慧理論，試圖找出隱含、有趣且有助於決策之樣式。其應用領域相當廣泛，如知識管理[15][16]、資訊安全[14]、資訊檢索[17]、自然語言處理[18]與語意網路[19]等。

文字探勘與資料探勘的相同點在於兩者核心概念皆為找出隱含有用的樣式與知識。而相異點在於前者所處理的對象以文字為主，後者則處理以數值為主的資料。文字不像數值具有單位統一性質，使用上較自由不受限制，因此文字探勘必須面對幾點挑戰，首先最重要的一點是文字特性的量化，藉由量化後的特性找出各文件之間的相關性，然文字文件結構通常屬於非結構或半結構化，如何訂定結構性量化的指標為文件探勘最首要的考量。其次為文件撰寫通常跟作者本身習慣與背景有相當程度的關聯性，即便針對相同事件也會有不同的敘述，如何將這些差異性降低是文件探勘必須考量的一點。第三點是文字資料亦受限於語言限制，

然文件並不一定侷限於以同一種語言撰寫，文字間可能夾雜常見但屬於不同語言的詞彙，如何將文字準確地辨識同樣扮演重要的環節。

現行文字探勘技術其中一環為處理分類議題，透過分類技術將大量文件區分成許多小群組，以便使用者檢索之需求。一般而言文字探勘分類技術可劃分成下列兩種形式，分別為「群集」(clustering) 與「分類」(categorization)，兩者特性與意義不同，適用情境亦有所差異：

(18)

(1). 群集

群集法將文件集合切割成不同的小群集，透過這些群集找出屬於該群集的主題與特性。主要原則為相同群集內文件必須具有高內聚力，群集與群集之間則必須維持低偶合力，藉此有效區隔群集。分群法試圖找出各群集的「樣式」 (pattern)，

目前樣式辨認較為常見的演算法有 k 平均法 (k-means)、最小生成樹 (Minimal Spanning Tree) [22][26]、k 最接近鄰居法 (k nearest neighbor, k-NN)、基因演算法 [23][24][25]與階層分群[21]等。

(2). 分類

分類法與群集法不同的一點在於分類法進行分類時必須給定事先定義好的類別集合。透過各類別中的文件子集合，辨別屬於該類別的樣式與特性。由於分類法中類別集合為事先定義，而群聚法則是依群聚特性演變自動產生，因此分類法在類別擴展上需要人工或搭配群聚法。另一方面因為類別集合為事先定義，分類法可透過訓練資料強化類別樣式之辨識力，藉此提升分類結果之準確率。

(19)

機器學習

機器學習 (machine learning) 為人工智慧的子領域，其主要概念在於發展能讓計算機自我學習的演算法與演算技巧，應用理論以計算機科學與統計學為主。因此，機器學習法常使用於資料探勘、文字探勘、資訊檢索、自然語言處理與搜尋引擎設計等領域。

機器學習可分成演繹與歸納兩種型態。歸納式機器學習法透過大量訓練資料萃取相關資訊與規則，與文字探勘與資料探勘型態與應用方式較為相近。然所有的歸納方法都存在推論偏差 (inductive bias) [12]，此偏差說明任何歸納決策過程都必須確認假設前提成立，亦即必須假設歸納過程中所考量的決策規則與現象本身具有關連性，而且也僅考量這些決策規則。舉例而言，假設某人發現地面是濕的，

透過資料得知是由於前晚下雨造成的地面濕了這個現象。在此例情境中建立的規則為：若「下雨」則「地面濕」。然此推論過程因為歸納偏差造成兩項缺點，第一點必須假設只有下雨可以造成地面濕的現象，然或許另外一筆資料所得的決策規則包含下雨與人為因素造成地面濕。因此歸納式機器學習可能會有解釋力薄弱的現象，即所謂的「適配不足」(under-fitting) 的現象。第二個缺點在於累積大量資料進行歸納式機器學習後，規則考慮面向過於複雜且狹隘，接續上述範例，機器學習後的推論規則為：若「下雨」或「泰國人灑水」造成「地面濕」的現象。事實上泰國人灑水主要是因為潑水節，並非僅有泰國人會造成地面濕的現象。此現象則說明「適配過度」(over-fitting) 的現象，即推論規則不具一般性，而僅適用於某些特定資料。機器學習法必須仰賴規模較大的資料量與適當的決策規則修減以維持一般性。

(20)

機器學習主要概念在於塑造分類規則的建構者，在文件分類中，若文件資料代表性過低或雜訊太高會造成分類規則不具代表性，亦即所分類出來的結果準確率會降低。因此透過機器學習進行之文件分類通常會將文件集合切割成兩組，一組為訓練資料 (training data)，另一組則為測試資料 (test data)。訓練資料必須是確定類別，透過應用機器學習演算法找出各類別的特性，並訂定分類規則。測試資料則是用來評估透過機器學習而得之分類規則有效性與正確性。雖然訓練資料與測試資料兩者的比例並無硬性規定，基於決策規則必須具備相當程度的解釋力，

通常訓練資料量會大於測試資料量。甚至到達兩倍或三倍的比例。

(21)

2.2 文件分類

文件分類之基本定義

針對文件分類可以矩陣 A 表示其意涵，令 D 表文件集合，C 表類別集合，則目標方程式以式 2.1 表示：

Φ , 式 2.1

一般將 Φ , 稱之為分類器[4][5]，其中 , … _{| |} 表類別集合，而表有限或無限的文件集合。當目標方程式 Φ , T 時，表文件 屬於 c 類別。文件分類中，類別僅為符號象徵，不具有任何與分類相關之資訊。

應用目的之差異對文件分類將有不同之方法與觀點。常見的分類有「單一標記」與「多標記」分類、「硬式」與「排序」分類以及「文件主軸」與「類別主軸」

三種[4][5]。單一標記與多標記之差異在於前者進行分類時，僅有唯一一個類別被指定到每份文件，後者則可被指定任何數量之類別。

分類器使用可分為以文件主軸或類別主軸。文件主軸係指將所有文件

給予類別標籤，亦即針對每一份文件至少必須指定一個類別標籤。類別主軸導向則是將類別為主體，判斷文件是否歸屬於該類別，而

可被指定至一個以上之類別。

完全自動分類之應用必須給定文件與類別絕對之關係，即 , ，但若針對部分自動分類之應用則給定文件與類別一相對之關係，亦即排序值，藉由此排序值可供決策者判斷哪些類別標籤適合指定給該文件。

(22)

前處理

進行文件分類前，必須針對文件進行前處理轉換成可分析之格式。典型的前處理包含移除文件標籤、去除停用字與詞幹還原 (word stemming) 。移除文件標籤將與文件內容不相關之標籤移除，如 html 語法標籤。第二階段為去除停用字，停用字代表使用頻率高但不帶特別資訊的詞彙，例如英文的代名詞與連接詞等等。

停用字清單會因語言不同而有所差異。詞幹還原又稱字根化，功用在於還原因型態學產生詞類型態變化之詞彙，諸如名詞之單複數與動詞之時態變化等。常見之詞幹還原演算法有 Porter 與雪球演算法[20]，根據[1]研究顯示，Porter 演算法相較於其他詞幹還原之演算法效率較佳，本研究以該演算法進行詞幹還原。

文件特徵建構

文件特徵 (feature) 為文件之代表，文件特徵建構常見方法為關鍵字選取。藉由數個關鍵字代表文件，使用者可比對關鍵字檢索文件。特徵建構將文件以向量形式表示，透過特徵與文件對應關係可得一矩陣 A ，矩陣元素則表示該特徵在該文件中出現之權重。

A 式 2.2

權重量化常見方式為詞彙頻率 (term frequency) ，即值為詞彙在文件中出現之頻率。 TF-IDF 則將逆向文件頻率 (inverse document frequency) 納入考量 [9]。亦有文獻以文件內容長度為量化法。資訊熵 (information entropy) 函數以資訊理論為基礎發展而來，相較於前述方法較為精密複雜，但其效果也相對較佳。

(23)

維度縮減為特徵建構相當重要的議題，基於效能與穩定性之考量，進行適度的維度縮減可增進分類效率[13]。維度縮減主要以特徵選取 (feature selection) 為主。

下列舉出三種常見之特徵選取法，分別是「文件頻率門檻」、「資訊獲利」與「卡方統計」。以下將針對此三種方法進行敘述。

文件頻率門檻 (document frequency threshold, DF) 計算所有樣本文件中特徵出現之頻率，並將低於門檻值之特徵從特徵空間中排除[6][13]。其假設前提為罕見詞彙可能代表該詞彙較不具資訊意涵或對整體效能之影響力過小，對分類不具貢獻度。目前發展之特徵選取方法中，以此法最為簡單有效率，對於大量樣本及分類集合具有較佳之效能，但此法通常是伴隨其他特徵選取方法一起使用。

資訊獲利 (information gain, IG) 由 Quinlan 於 1979 年提出，藉由測量樣本特徵在文件中出現與否計算其資訊位元數值並用以預測分類 [6][13]。令表可能之類別集合，則詞彙之資訊獲利值以式 2.3 表示：

log ⁄ log ⁄

P ⁄ log ⁄ 式 2.3

其中表類別在訓練樣本中出現之機率。則表詞彙在訓練樣本中出現之機率。 ⁄ 表當詞彙出現時，該文件屬於之機率，而

⁄ 則表當詞彙沒出現時，該文件屬於之機率。藉由此法計算每個詞彙之資訊獲利值，並將低於門檻值之詞彙從特徵集合中刪除。

(24)

卡方統計 ( -statistic, CHI) 測量特徵與類別間獨立程度[6][13]，其關係可以自由度為 1 之卡方分配判斷極端值。以特徵與類別為雙向列聯表之維度思考。 A 表詞彙與類別共同出現之次數，B 表詞彙出現但類別沒有出現之次數，C 表詞彙沒有出但類別出現之次數， D 表詞彙與類別

皆沒出現之次數，N 表文件總數，則卡方統計值可以式 2.4 表示：

, N AD BC

A C B D A B C D 式 2.4

與交互訊息相似，當卡方值為 0 時表詞彙與類別兩者獨立。式 2.5 與表詞彙之卡方期望值，與式 2.6 意義上相似。

, 式 2.5

max , 式 2.6

卡方值在相同類別時可比較詞彙間頻率之差異性。然由於卡方分配之特性，

低詞頻之詞彙之卡方值亦不能表現其重要性。

表 1 特徵選取方法

特徵選取法數學函數表示式

文件頻率門檻 (DF) |

資訊獲利 (IG) _log _⁄ _log _⁄

P ⁄ log ⁄

卡方統計值 (CHI) _,

資料來源：本研究整理

(25)

分類方法應用

分類方法應用係指分類器 (classifier) 之學習與預測。分類過程中扮演分類決策角色即為分類器。其決策規則來自於對訓練樣本之學習。表分類狀態值 (categorization status value) ，對於類別之分類器，以作為分類器之輸入，依應用型態不同有硬式與排序兩種輸出。硬式輸出為 : D T, F 表文件是否屬於該類別。而排序輸出則採 : D 0,1 為介於零到一之數值，藉由這些數值將文件對於該類別依大小排序。

分類方法依據模型建構理論不同分為四種類別，分別為以統計理論為基礎、

以幾何距離計算為基礎、以決策樹模型為基礎與以類神經網路模型為基礎等。統計理論分類根據特徵頻率統計相關指標，如機率與樣本分配。常見的模型建構方式為線性回歸模型、貝式機率分類器與關連規則等。距離分類基於幾何學之概念，

將其概念應用於多維度之特徵空間，根據文件之特徵值對應至座標軸系統，並以各種理論計算而得之距離進行分類，常用之距離公式為歐式距離。k 最接近鄰居法屬於幾何距離分類器。決策樹模型為典型之分類理論，發展的分類演算法亦相當豐富，常見的分類演算法如 C4.5 與 CART 被廣泛應用於各種分類問題上，如市場需求分析預測與智慧型決策系統。類神經網路模型應用人類神經元的概念，輸入層相當於神經元之樹突，輸出層則相當於神經原之軸突，介於輸入與輸出間相當於神經元結構的處理層，即為模型建構核心，此處通常應用非線性函數進行運算，

並將分類結果輸出。

分類器之間並無絕對的優劣關係，不同的分類器有各自適用的情境與資料。

然而進行文件分類必須注意適配不足與適配過度的問題，以確保分類效果的穩定性。

(26)

分類效果評估

在典型的資訊檢索系統中，分類結果的評估主要以準確率 (precision) 及召回率 (recall) 為基本指標。圖 1 中整個橢圓表文件集合，垂直線將文件集合切割成確實相關與確實不相關兩部分。另外水平線亦將集合分隔成與預測相關與預測不相關兩部分。兩線交集將文件集合分成四個部分，分別為「確實相關且預測相關」、

「確實相關但預測不相關」、「確實不相關但預測相關」與「確實不相關且預測不相關」。

圖 1 資訊檢索結果資料來源：本研究整理

表 2 以二元列聯表將此四部分標示，表中之 TP、TN、FP 與 FN 為此四部分之文件數目，n 為文件總數。則準確率與召回率以式 2.7 與式 2.8 表示：

表 2 資訊檢索列聯表

確實相關確實不相關

預測相關 TP FP TP+FP

預測不相關 TN FN TN+FN

TP+TN FP+FN TP+FP+TN+FN=n

(27)

準確率 precision 確實相關且預測相關預測相關

TP

TP FP 式 2.7

召回率 recall 確實相關且預測相關相關確實相關

TP

TP TN 式 2.8 另外 F 測量值則是準確率與召回率之調和平均數，其一般式如式 2.9 所示：

1 準確率召回率

準確率召回率式 2.9

其中當值為 1 時，稱之為平衡 F 測量值，常以或表示之。

2.3 分類器

決策樹

人工智慧透過機器學習方式建立模型，以供未來預測與決策使用，決策樹則是其中一套方法。決策樹為一樹狀結構之分類模型，根節點 (root node) 與內部節點 (internal node) 針對決策問項伴隨一組決策規則，藉此判斷問項屬於哪個分支。

葉節點 (leaf node) 則為最後決策結果，在文件分類決策中即是代表各類別。圖 2 為簡化之決策樹模型示意圖。

圖 2 決策樹示意圖

資料來源：Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, 2000/08.

(28)

決策樹除了容易使用外，效率也是主要考量之一，另外各決策點之規則明瞭易懂，以及決策樹大小與目標資料大小並沒有絕對相關性都是應用決策樹進行分類的優點。然決策樹缺點在於對連續值類型資料敏感度較低，以及忽略特徵之間相關性。

常見之決策樹演算法有 ID3、C4.5、C5.0、CART、CHAID 與 QUEST 等。ID3 演算法由 Quinlan 於 1975 年提出，其基本概念源自於資訊理論中的資訊熵

(information entropy)，資訊熵衡量一組資料的亂度，而資訊獲益 (information gain) 則表示各特徵可從整體資料獲得決策程度。ID3 演算法提供了以資訊獲益為特徵選取的方法，其演算法可概括分為三個步驟如下所示：

1. 計算訓練樣本中所有尚未使用特徵之資訊熵。

2. 選擇資訊獲益量最大之特徵建構決策點。

3. 將此特徵從未使用特徵集合移除，回第一步驟直到所有特徵皆被移除。

然 ID3 無法處理具有遺失值與連續值之特徵，C4.5 則改善了 ID3 演算法幾項缺點，包含對於訓練資料中遺失值與連續值的處理、可推論決策規則與測試階段可刪除效率不彰之決策分支。對於含遺失值之資料採忽略該特徵作法。連續值資料處理則是以切割值域範圍作為區間。C5.0 則又針對 C4.5 進行修改。C5.0 為 C4.5 之商業版本，在決策規則推導上比 C4.5 更迅速且所需記憶體較低，另外決策樹之建構也比 C4.5 小且迅速。

(29)

CART 以分類與回歸模型建構決策樹，在經由測試資料進行修剪。CART 亦具有 C4.5 針對 ID3 修改的幾項特點。CHAID 為 Gordon V. Kass 於 1980 年提出，準確率與 CART 相近，但在選取特徵分支之方法不同。CART 主要以資訊熵或吉尼係數 (Gini Coefficient) 選取分支，而 CHAID 完全以卡方統計檢定進行選取。

QUEST 則以 CART 演算法為基礎進行修改，主要差異在於處理遺失值方式與以非偏差特徵選擇為預設。

綜合上述所述，決策樹演算法主要跟分為以資訊熵為主與以統計檢定法為主兩種。然而除了 ID3、C4.5 與 C5.0 之間有明顯之效能差異外，與其他如 CART、

CHAID 或 QUEST 等效能端視資料特性而定。

貝式分類器

貝式分類器基本理論為貝式機率。其分類推論透過訓練樣本得到各類別機率，

藉此預測測試文件之類別[2]。貝式分類器必須假設特徵與特徵之間並無相關性，

亦即各特徵之出現屬獨立事件，因此該分類器又可稱之為「獨立特徵分類模型」。

給定訓練資料可得各類別之機率、各特徵之機率與當資料屬於某類別時該特徵之事前機率 | ，透過貝式定理可推估得知當資料在出現某特徵時該類別之事後機率 | 。藉此計算目標資料出現某特徵時屬於該類別之機率 | 以達成分類預測。式 2.10 表貝式分類器所應用之貝式定理：

| ∑ | (式 2.10)

(30)

貝式分類器對於具有遺失值之資料採取忽略法，對於訓練資料的使用上僅需讀取一次，且簡單容易使用。缺點在於特徵與特徵之間並不一定是獨立，且對於連續性質之資料進行範圍切割方法計算機率會對結果有顯著差異，而較適用於離散型資料。

支持向量機

支持向量機[11]源自於統計理論，該法由 Joachims 於 1998 年提出，常使用於統計分類與回歸分析。支持向量機的核心概念為將結構風險最小化 (structural risk minimization) [8][10][11]。針對機器學習法中，建構模型時會遇到的「低適配」與

「過度適配」的議題。結構風險最小化簡單來說即是在此兩極端中取得平衡，以建構最佳模型。支持向量機將文件之特徵向量投射至比特徵維度更高維度之空間中，試圖找出超平面ψ使得正向與負向效果之文件得以分離。下列二圖為概念示意圖，圖 3 為簡易的支持向量機示意圖，圖中紅色與藍色表不同分類之文件，支持向量機將此輸入空間投射至更高維度空間，尋找圖中綠色之超平面ψ以區隔正向與負向效果。

圖 3 支持向量機分類示意圖

資料來源：Norikazu Takahashi, Efficient Learning Algorithms for Support Vector Machines

(31)

支持向量機模型建構可分為線性與非線性。線性支持向量機主要針對可以線性方法處理與區隔的資料，而非線性則適用於資料分佈較為複雜且為非線性能區隔。[8]中提到，支持向量機之所以適用於文件分類在於具備四項特性。首先對於特徵空間維度過高的問題，支持向量機具有避免過度配適機制，透過極限概念的使用，可以降低處理特徵空間的高維度。其次為特徵建構後，文件中大部分的特徵都是相關且含有相當資訊的，相較於其他分類器以資訊含量排序後捨棄部分特徵的特性，支持向量機可有效組合特徵，以取得較佳的分類效果。第三點由於文件特徵向量包含許多特徵維度數值為零的特徵值，即在特徵空間中的特徵向量相當稀疏，在結構風險最小化理論中以理論與實證解釋支持向量機適用於概念密集但實例稀疏的情境。最後由於文件分類議題通常可應用線性法區隔，[7]文獻中，

支持向量機在線性區隔的分類效果相當優異，因此支持向量機適用於大量文件的分類。

(32)

3. 研究方法

3.1 研究問題

符號說明

表 3 為本研究之基本符號說明，各符號之意涵與本研究設定之值域將於下列各點介紹：

表 3 符號說明

符號定義與說明

表文件集合。

表文件集合之類別集合。

Φ 表本研究使用之分類器。

表分類之準確率。

表分類之召回率。

表測量值。

1 表信心水準，表錯誤的機率。

表特徵選取方法。

表文件欄位。

(1). 文件集合

以表文件集合，即為本研究使用之期刊論文文集。與依序表示訓練資料集合與測試資料集合。與 分別表示經過第 t 次隨 機抽樣切割之訓練資料與測試資料集合，其中 1, … , | |，本研究中

| | 10。

(33)

(2). 文件集合之類別集合

以表類別集合，係指本研究期刊論文文集之類別，表個別類別。其中 1, … , | |，本研究中| | 7，行銷, 太空, 數學, 網路, 財金, 資管, 機械。

(3). 分類器

以 Φ 表分類器集合。 Φ 表個別分類器，其中 1, … , |Φ|，本研究中

|Φ| 4，Φ 決策樹, 貝式, 支持向量機, 抽樣分配分類器。

(4). 分類效果之準確率 、召回率與 F 測量值

以表分類之準確率，表召回率，表 F 測量值。表分類器 Φ 之分類準確率，表分類器 Φ 之分類召回率，表分類器 Φ 之分類 F 測量值。

(5). 信心水準

以 1 表抽樣分配估計信心區間之信心水準， 1 表個別信心水準，

其中 1, … , | |，本研究中| | 3。 0.01, 0.05, 0.1 。

(6). 特徵選取方法

以表特徵選取方法，。表不同的選取方法，其中 1, … , | |，本研究中| | 2。特徵權重TFIDF 權重值, 特徵比例 TRIDF 權重值。

(7). 文章欄位

以表文章欄位集合。表個別欄位，其中 1, … , | |，本研究中| | 4。

標題, 摘要, 關鍵字, 全部採記。

(34)

問題說明

(1). 問題一：檢定特徵權重方法中，特徵比例與特徵頻率分類效果差異

本問題探討當特徵權重方法不同時，分類效果之間是否顯著差異。針對文件 集合 D 之特徵空間 S，令 表特徵選取之方法，以此法選取之特徵空間為。對於分類器 Φ 之分類效果之準確率之間，召回率之間以及之間是否顯著差異。

(2). 問題二：檢定期刊論文之文章欄位分類效果之差異

本問題探討文章欄位是否對於分類效果有顯著差異。表文章欄位並以該欄位當文章內容並建構文件之特徵向量。分類器 Φ 依此特徵向量分類而得分類效果之準確率之間、召回率之間以及之間是否顯著差異。

(3). 問題三：檢定各分類器之分類效果之差異程度？

本問題探討分類器對於期刊論文之分類效果之優劣。令 Φ 表分類器個體，

當以不同分類器進行分類時，所得到之分類效果之準確率為，召回率為，F 值為。利用統計假設檢定驗證當分類器不同時是否分類效果有所差異。

(4). 問題四：檢定信心水準對抽樣分配分類器效果之差異性

本問題探討信心水準對於抽樣分配分類器在分類效果上的影響。Φ 表信心水準為 1 α 之抽樣分配分類器。其分類準確率為，召回率為，F 測量值為。藉由統計檢定不同信心水準 1 α 時，分類效果之間、

之間以及之間是否顯著差異。並依此結果排序，挑選分類效果最佳之信心水準 1 α 作為抽樣分配分類器之信心水準。

(35)

3.2 研究流程

下圖為本研究之流程示意圖，各步驟中可能又包含數個次步驟，以下將針對這些步驟進一步說明：

圖 4 研究流程資料來源：本研究整理

(1) 資料收集

本研究依研究目的收集以英文期刊論文，選擇七種不同領域之期刊論文為資料來源，以期刊種類代表其類別，依據本研究之目的，針對每篇文章僅擷取「標題」、「關鍵字」與「摘要」三個欄位內容作為研究對象。基於計算便利，本研究於各類別挑選兩百篇文章當作實驗對象。

(2) 分類方法研究

針對文件分類領域探索各種分類理論之優缺點與分類程序，瞭解分類器運作原理與演算法，並根據個別演算法之特性與優缺點，並參照部分文獻之研究結果與實機測試結果進行評估，進行分類器之選擇。

(36)

(3) 實驗設計

此階段根據研究目的與問題定義進行實驗設計，並以統計理論作為資料分析方法。各組實驗皆以相同訓練資料與測試資料為研究對象，相關細節將於後續章節敘述。

(4) 實驗模擬

針對研究提出之問題進行實機模擬測試，系統環境以個人電腦為平台，實作以 Java 語言進行演算法之撰寫進行各功能實作。以實驗模擬所得數據作為參數調整之依據，待確認符合研究目的與實驗設計後，即對目標資料進行測試，以得可靠數據進行分析。

(5) 分類結果評估

確認實驗設計確實反映研究假設與方法後，即針對目標資料進行實驗。實驗結果評估方式則採典型資訊檢索使用之「準確率」、「召回率」與「F 測量值」為主。

每組實驗結果評估皆以十次試驗之平均值代表集中趨勢，並以標準差標示其離異程度以供參考。

(37)

3.3 分類方法

前處理與文件特徵建構

期刊論文文件前處理的部分，本研究使用 Microsoft 定義之停用字規則，隨後以 Porter 演算法進行詞幹還原，特徵建構部分先以文件門檻值縮減特徵維度，此階段先經特徵詞彙統計後，刪除次數低於門檻值之特徵維度以降低計算成本。

特徵建構將文件以索引向量形式呈現，向量建構時必須考量向量值之設定，

特徵頻率最為常見。特徵頻率代表特徵在文件中出現之頻率。

TF-IDF 為最常使用之特徵權重方法[6]，其基本假設有兩點，首先為當特徵頻率在文件中出現之頻率越高，則代表特徵越能代表文件。第二點為若特徵在越多文件中出現，則代表該特徵被普遍使用，不具有分類資訊。式 3.1 為 TF-IDF 計算公式，其中 , 為特徵頻率在文件中出現之頻率，

| | 為文件集合之文件數目，為特徵出現在文件集合中的文件數。

, log ^{| |} 式 3.1

由於不同文件擁有不同的內容長度，以特徵頻率作為索引向量值，對於內容較少之文件可能會造成進行特徵選時捨棄含有資訊之特徵。因此本研究以特徵在該文件所佔有之比例為向量值探討此假設是否成立。式 3.2 表特徵比例向量值公式，

其中表特徵在文件中出現之次數。

, ∑^{| |} 式 3.2

(38)

抽樣分配分類器

抽樣分配分類器為本研究基於抽樣分配與歐式距離設計之分類器，此分類器係指根據特徵之樣本分配計算其平均值與標準差，根據中央極限定理，當樣本數大於等於 30 時，其特徵分配情形可視為抽樣分配，因此可藉由信賴水準的設定尋找母體之信賴區間。對於文件分類而言，訓練資料相當於抽樣樣本，分類器藉由訓練資料學習各特徵與類別的對應關係。下圖為概念示意圖，黑色斜線圓表訓練資料，方形灰色區域則表示研究所使用資料，訓練資料僅為實驗資料之子集合，

相當於抽樣樣本。

圖 5 訓練資料與實驗資料關係資料來源：本研究繪製

對於文件而言，特徵之特徵值符合抽樣分配。藉由計算之特徵值平均數與標準差並設定分配信賴水準後即可找出實驗資料對於特徵之信賴區間，藉此推估屬於類別之文件中，包含特徵之平均數，如圖所示：

(39)

圖 6 抽樣分配與信賴區間資料來源：本研究繪製

特徵空間中，特徵皆可找出該維度之信賴區間 ，若特徵空間包含 L 個維度，則表示可找到 L 組信賴區間。對於文件 而言，由於維度縮減的關係，

特徵比例總和將小於等於 1 ，由信賴區間可建立 1 組限制式。另一方面根據樣本可計算各特徵比例之平均值，針對類別可計算出中心點為。藉由歐式距離 (Euclidean distance) 可計算文件與類別之間的離異程度，如式 3.4 所示：

| |

式 3.4

歐式距離值越大表示文件與類別越不相似。透過信賴區間與總和之 1 組限制式，求距離之極值。依信賴區間設定之限制式為一連續區間，距離極小值為 0，即文件中心點與類別中心完全符合。令距離之極大值為，其意涵為樣本中心點與母體中心點差異程度極大。透過可進一步進行分類。若文件

與類別之中心點之歐式距離為，當時，表示文件屬於類別之機率相對較高。而當時，則表文件屬於類別

之機率相對較低。

(40)

圖 7 以二維特徵作為範例，對於 x 與 x 兩特徵維度，藉由設定信賴水準可找到個別信賴區間，另外兩特徵比例總和必須小於等於 1，藉此可找到圖中灰色區塊集合。灰色區中心點表樣本中心，藍色點表與離異程度極大之母體中心。以為中心，以為距離可得特徵空間中之子集合空間，若文件與樣本中心距離小於等於，則文件屬於該類別，如圖中之點。若文件與樣本中心距離大於，如，則文件不屬於該類別。

圖 7 抽樣分配分類器示意圖資料來源：本研究繪製

針對應用方式不同，以距離作為分類依據之方式可彈性調整。若為單一標記分類情況較為複雜，當文件與兩個類別中心之距離小於該類別距離極大值時，則表示文件同時與兩個類別相似，基於單一標記原則採距離較近者為類別。下圖 8 (a) 表文件同時距離小於類別 c 與 c ，此時以文件至類別中心距離小者為類別。

圖 4 (b) 表文件到類別 c 與 c 中心點距離相等，即，此時可將文件歸類於其中一類別，或是以類別範圍密度視為機率比較後歸類。

(41)

圖 8 兩特徵維度交集資料來源：本研究繪製

而當文件與所有類別中心之距離均大於各類別距離之極大值時，則以文件與類別中心之距離減去類別中心極大值為考量距離，即文件至類別範圍之最小距離，其意涵為文件與類別最靠近之距離，如下圖 9 (a) 之所示，此時以該距離小者為類別推薦。圖 5 (b) 表文件至兩類別範圍距離相同，即，此時則以至類別中心與之距離小者為類別。

圖 9 兩特徵維度空集資料來源：本研究繪製

若為多標記分類情況較為單純，以距離絕對大小進行分類，若文件同時小於兩個以上的類別距離極大值，則表文件可同時歸屬於兩類別，另外亦表示此兩類別在部分維度上不具鑑別力；若文件與各類別中心距離皆大於極大值，表此文件可能不屬於類別集合中之任一類別，此時可採建立新類別或以距離小者為推薦類別。

(42)

4. 實驗結果與分析

4.1 實驗設計

本節敘述本研究之實驗設計，根據研究問題設定三組實驗，實驗對象為本研究收集之期刊論文文集。本研究以隨機抽樣將文件集合切割成訓練資料與測試資料。基於分類結果可靠度的考量，本研究將對文件集合進行隨機抽樣 10 次，相同方法在不同抽樣樣本測試下之結果假設為常態分配，並記錄各實驗結果以供後續分析。實驗結果以準確率、召回率與 F 測量值計算。每組實驗操作變數皆為一項，

以探討該因素對分類之影響程度為主，並降低過多變數造成混淆與分析不易。

(1). 實驗一：特徵權重方法效果差異之檢定

本實驗目的在於研究特徵向量維度對分類效果之影響，藉由特徵權重方法設定的不同，研究當使用特徵比例代替特徵頻率進入 TFIDF 計算權重時效果較佳。

表 4 特徵權重方法檢定實驗

實驗目的 z 檢定特徵權重方法分類結果的差異。

操作變數 z 特徵權重方法。

實驗對象 z 全部欄位之期刊論文，使用貝式機率分類器分類。

相依變數 z 準確率、召回率與測量值。

實驗步驟 1. 設定特徵權重方法。

2. 分類器 Φ 對訓練資料學習分類規則。

3. 分類器 Φ 對測試資料進行分類，紀錄其分類效果(準確率、召回率與 F 測量值)。

4. 重複步驟 2-3，直到 t = 10。

(43)

(2). 實驗二：文章欄位分類效果差異之檢定

期刊論文為半結構化之文件，具有部分固定格式與欄位。本實驗目的在於探討期刊論文文集欄位中所包含之資訊是否對於分類有顯著的差異。

表 5 期刊論文欄位效果實驗

實驗目的檢定期刊論文欄位分類效果之差異。

操作變數文章欄位。

實驗對象以特徵比例為向量之期刊論文文件，並以貝式機率分類器進行分類。

相依變數準確率、召回率與測量值。

實驗步驟 1. 選定文章欄位。

4. 重複步驟 2-3，直到 t = 10。

(44)

(3). 實驗三：信心水準對抽樣分配分類器效果差異檢定

本實驗藉由實際測試數據，檢驗信心水準設定之不同對於抽樣分配分類器分類效果是否有顯著影響。

表 6 抽樣分配分類器信心水準實驗

實驗目的檢定在不同信心水準之抽樣分配分類器分類效果差異。

操作變數信心水準 α 。

實驗對象採記全部欄位之期刊論文，並以特徵比例為特徵權重方法。

實驗步驟 1. 設定信心水準 α 。

備註 Φ 表抽樣分配分類器。

(45)

(4). 實驗四：各分類器之分類效果差異檢定

分類器為分類決策者，不同的分類器有其適用的情境。藉由本實驗實機進行模擬，以數據結果分析適用於期刊論文分類之分類器。

表 6 分類器分類效果實驗

實驗目的檢定不同分類器分類效果之差異程度。

操作變數分類器 Φ。

實驗對象以特徵比例為特徵向量之期刊論文文件，採記全部欄位。

實驗步驟 1. 選定分類器 Φ 。

4. 重複步驟 2-3，直到 t = 10。

分析方法統計 T 分配進行假設檢定。

(46)

4.2 特徵權重方法分類效果差異檢定

實驗結果

本實驗操作變數為特徵權重方法，特徵次數, 特徵比例。本實驗採記全部欄位作為文章內容，並以貝式機率分類器進行分類。

(1). 特徵權重方法為特徵次數之 TFIDF 時：

當以特徵次數為權重計算方式時，其分類準確率平均值為 65.8%，值域分佈在 50%到 80%之間，標準差為 0.068，極大值為 82.5%。召回率的部分平均值為 59%，

值域分佈在 50%到 80%之間，標準差為 0.097，極大值為 82.3%。F 值為準確率與召回率之調和平均數，平均數為 59%，標準差 0.097，極大值為 82.4%。

圖 10 特徵次數權重分類結果資料來源：本研究繪製

表 7 特徵次數權重之分類統計值準確率召回率 F 值平均數 0.658 0.590 0.590 標準差 0.068 0.097 0.097 極大值 0.825 0.823 0.824

(47)

(2). 特徵權重方法為特徵比例之 TFIDF 時：

以特徵比例為權重計算方式時，其分類準確率平均值為 85.6%，值域分佈在 84%到 88%之間，標準差為 0.01，極大值為 87.9%。召回率的部分平均值為 85.2%，

值域分佈在 83%到 87%之間，標準差為 0.011，極大值為 87.7%。F 值平均數為 85.2%，

標準差 0.011，極大值為 87.7%。

圖 11 特徵比例權重分類結果

資料來源：本研究繪製

表 8 特徵比例權重之分類統計值

準確率召回率 F 值

平均數 0.856 0.852 0.852 標準差 0.01 0.011 0.011 極大值 0.879 0.877 0.877

(48)

實驗分析

實驗一以貝式機率分類器測試特徵權重方法是否對分類效果有顯著影響，亦即利用統計檢定在特徵權重方法不同的情況下，分類效果是否顯著差異。根據 4.1 實驗數據，將以特徵次數與特徵比例為權重方式之分類效果平均值以下表呈現。

表 9 特徵次數與特徵比例權重法之分類效果比較

特徵次數特徵比例準確率平均 0.658 0.856 召回率平均 0.590 0.852 F 值平均 0.590 0.852

(1). 特徵次數與特徵比例之準確率比較：

圖 12 特徵次數與特徵比例權重法之準確率比較資料來源：本研究繪製

根據實驗模擬之數據，令特徵比例權重方法母體之準確率為，特徵次數權重方法母體準確率為，則假設檢定為：

(49)

0

： 0 特徵比例準確率較特徵次數準確率高

：特徵比例準確率與特徵次數準確率無差異

以 t 檢定進行分析，計算得 t 值為 17.203 大於臨界值 1.833，因此拒絕虛無假設，即特徵比例之準確率確實高於特徵次數之準確率。

(2). 特徵次數與特徵比例之召回率比較：

圖 13 特徵次數與特徵比例權重法之召回率比較資料來源：本研究繪製

令特徵比例權重方法母體之召回率為，特徵次數權重方法母體召回率為，則假設檢定為：

： 0 特徵比例召回率與特徵次數召回率無差異

： 0 特徵比例召回率較特徵次數召回率高

以 t 檢定進行分析，計算得 t 值為 15.436 大於臨界值 1.833，因此拒絕虛無假設，即特徵比例之召回率確實高於特徵次數之召回率。

(50)

(3). 特徵次數與特徵比例之 F 值比較：

圖 14 特徵次數與特徵比例權重法之 F 值比較資料來源：本研究繪製

令特徵比例權重方法母體之 F 值為，特徵次數權重方法母體準確率為，則假設檢定為：

： 0 特徵比例 F 值與特徵次數 F 值無差異

： 0 特徵比例 F 值較特徵次數 F 值高

以 t 檢定進行分析，計算得 t 值為 15.689 大於臨界值 1.833，因此拒絕虛無假設，即特徵比例之 F 值確實高於特徵次數之 F 值。

(51)

小結與討論

(1). 小結

根據上述統計假設檢定的結果，發現特徵比例權重方法在分類準確率、召回率與 F 值皆顯著大於特徵次數權重方法，因此以特徵比例權重值建構文件特徵向量在分類上獲得較佳的效果。

(2). 討論

特徵權重方法實驗結果如預期，以特徵比例分類效果較佳，其分類準確率平均值，證實以特徵比例進行權重可避免文章長度不同造成以特徵次數比較失衡的問題。

(52)

4.3 文章欄位分類效果差異檢定

實驗結果

本實驗操作變數為文章欄位，藉由以各欄位建構特徵向量，利用本研究使用貝式分類器進行分類。檢視這些欄位對於分類效果是否有顯著差異。

(1). 為標題時：

以標題欄位為特徵建構來源時，其分類準確率平均值為 81.8%，值域分佈在 78%到 87%之間，標準差為 0.027，極大值為 86.5%。召回率的部分平均值為 80.6%，

標準差 0.028，極大值為 85.6%。

圖 15 標題欄位之分類結果資料來源：本研究繪製表 10 標題欄位分類之統計值

平均數 0.818 0.806 0.806

標準差 0.027 0.027 0.028

極大值 0.865 0.854 0.856

(53)

(2). 為摘要時：

以摘要欄位為特徵建構來源時，其分類準確率平均值為 85.2%，值域分佈在 80%到 90%之間，標準差為 0.026，極大值為 89.9%。召回率的部分平均值為 85%，

標準差 0.027，極大值為 89.7%。

圖 16 摘要欄位之分類結果資料來源：本研究繪製

表 11 摘要欄位分類之統計值

平均數 0.852 0.85 0.849

標準差 0.026 0.027 0.027

極大值 0.899 0.897 0.897

(54)

(3). 為關鍵字時：

以關鍵字欄位為特徵建構來源時，其分類準確率平均值為 81.3%，值域分佈在 74%到 86%之間，標準差為 0.038，極大值為 85.5%。召回率的部分平均值為 78.7%，

標準差 0.067，極大值為 85.1%

圖 17 關鍵字欄位之分類結果資料來源：本研究繪製

表 12 關鍵字分類之統計值

平均數 0.813 0.787 0.79

標準差 0.038 0.071 0.067

極大值 0.855 0.851 0.851

(4). 為全部採記時：

同實驗一之特徵比例權重之分類效果。

(55)

實驗分析

實驗二目的在探討期刊論文之文章欄位對於分類上所能提供之分類資訊是否有顯著差異。

表 13 文章欄位之分類效果比較

標題摘要關鍵字全部

準確率平均 0.818 0.852 0.813 0.856 召回率平均 0.806 0.85 0.787 0.852

F 值平均 0.806 0.849 0.79 0.852

(1). 標題、摘要、關鍵字與全部採記之準確率

圖 18 文章欄位分類準確率比較資料來源

令標題欄位分類準確率為，摘要欄位分類準確率為，關鍵字欄位分類準確率為，全部欄位分類準確率為。則假設檢定為：

：本研究繪製

(56)

檢一全部欄位

：全部欄位分類準確率與摘要欄位分類準確率無差異

定：與摘要欄位

0

： 0 全部欄位分類準確率較摘要欄位分類準確率高

以 t 檢定進行分析，計算得 t 值為 0.229 小於臨界值 1.812，因此不拒絕虛無假設，亦即採記全部欄位之分類準確率並未較採記摘要欄位之分類準確率高。

檢二摘要欄位

：摘要欄位分類準確率與標題欄位分類準確率無差異

定：與標題欄位

0

： 0 摘要欄位分類準確率較標題欄位分類準確率高

以 t 檢定進行分析，計算得 t 值為 2.59 大於臨界值 1.745，因此拒絕虛無假設，

即採記摘要欄位之分類準確率高於標題欄位分類之準確率。

檢三摘要欄位

：摘要欄位分類準確率與關鍵字欄位分類準確率無差異

定：與關鍵字欄位

0

： 0 摘要欄位分類準確率較關鍵字欄位分類準確率高

以 t 檢定進行分析，計算得 t 值為 2.922 大於臨界值 1.753，因此拒絕虛無假設，

即採記摘要欄位之分類準確率高於標題欄位分類之準確率。

檢四標題欄位

：標題欄位分類準確率與關鍵字欄位分類準確率無差異

0

： 0 標題欄位分類準確率較關鍵字欄位分類準確率高

以 t 檢定進行分析，計算得 t 值為 0.698 小於臨界值 1.753，因此不拒絕虛無假設，即採記標題欄位之分類準確率與關鍵字欄位之分類準確率無顯著差異。

(57)

(2). 標題、摘要、關鍵字與全部採記之召回率

圖 19 文章欄位分類召回率比較資料來源：本研究繪製

令標題欄位分類召回率為，摘要欄位分類召回率為，關鍵字欄位分類召回率為，全部欄位分類召回率為。則假設檢定為：

檢一全部欄位

：全部欄位分類召回率與摘要欄位分類召回率無差異

0

： 0 全部欄位分類召回率較摘要欄位分類召回率高

以 t 檢定進行分析，計算得 t 值為 0.154 小於臨界值 1.812，因此不拒絕虛無假設，即採記全部欄位之分類召回率與採記摘要欄位之分類召回率無顯著差異。

(58)

檢二摘要欄位

：摘要欄位分類召回率與標題欄位分類召回率無差異

0

： 0 摘要欄位分類召回率較標題欄位分類召回率高

以 t 檢定進行分析，計算得 t 值為 3.254 大於臨界值 1.746，故拒絕虛無假設，

即採記摘要欄位分類召回率較標題欄位分類召回率高。

檢三摘要欄位

：摘要欄位分類召回率與關鍵字欄位分類召回率無差異

0

： 0 摘要欄位分類召回率較關鍵字欄位分類召回率高

即採記摘要欄位分類召回率較關鍵字欄位高。

檢四標題欄位

：標題欄位分類召回率與關鍵字欄位分類召回率無差異

0

： 0 標題欄位分類召回率較關鍵字欄位分類召回率高

以 t 檢定進行分析，計算得 t 值為 0.988 小於臨界值 1.812，因此不拒絕虛無假設，即採記標題欄位之分類召回率與關鍵字欄位分類召回率無顯著差異。

(59)

(3). 標題、摘要、關鍵字與全部採記之 F 值

圖 20 文章欄位分類 F 值比較資料來源：本研究繪製

令標題欄位分類 F 值為，摘要欄位分類 F 值為，關鍵字欄位分類 F 值為，全部欄位分類 F 值為。則假設檢定為：

檢一全部欄位

：全部欄位分類 F 值與摘要欄位分類 F 值無差異

0

： 0 全部欄位分類 F 值較摘要欄位分類 F 值高

以 t 檢定進行分析，計算得 t 值為 0.176 小於臨界值 1.795，因此不拒絕虛無假設，即採記全部欄位進行分類之 F 值與摘要欄位分類 F 值無顯著差異。

檢二摘要欄位

：摘要欄位分類 F 值與標題欄位分類 F 值無差異

0

： 0 摘要欄位分類 F 值較標題欄位分類 F 值高

即採記摘要欄位進行分類之 F 值高於標題欄位分類 F 值。

(60)

檢三摘要欄位

：摘要欄位分類 F 值與關鍵字欄位分類 F 值無差異

0

： 0 摘要欄位分類 F 值較關鍵字欄位分類 F 值高

經 t 檢定計算得 t 值為 2.647 大於臨界值 1.796，故拒絕虛無假設，即摘要欄位分類 F 值高於關鍵字。

檢四標題欄位

：標題欄位分類 F 值與關鍵字欄位分類 F 值無差異

0

： 0 標題欄位分類 F 值較關鍵字欄位分類 F 值高

經 t 檢定計算得 t 值為 0.933 小於臨界值 1.796，因此不拒絕虛無假設，即標題欄位分類 F 值與關鍵字欄位 F 值並無顯著差異。

小結與討論

(1). 小結

藉由假設檢定的結果，發現進行分類時，採記全部欄位與僅採記摘要欄位時，

分類效果並無顯著差異，而摘要欄位分類效果顯著優於標題欄位與關鍵字欄位。

標題欄位與關鍵字欄位之分類效果並無顯著差異。因此，以摘要欄位進行分類可獲得較佳之分類效果。

(2). 討論

根據實驗結果顯示，期刊論文之摘要欄位相較於標題與關鍵字欄位之分類效果較佳。推測此現象之原因在於摘要欄位擁有較多鑑別力較佳之特徵。單就分類準確率來看，即便是效果較差之標題欄位與關鍵字欄位可達到 80%以上的水準。

召回率與 F 值也都有 75%~80%的水準。就分類效果來說三者個欄位皆具有一定分類資訊。而採記全部欄位與採記摘要欄位在效果上並無顯著差異，分類則可以摘

國 立 中 央 大 學

國 立 中 央 大 學

資 訊 管 理 研 究 所 碩 士 論 文

以統計分析探討文件分類程序對期刊論文分 類效果之影響

研 究 生：賴昆佑

指導教授：薛義誠 博士

中 華 民 國 九 十 六 年 六 月

國立中央大學圖書館 碩博士論文電子檔授權書

Abstract

Journal papers provide professional domain knowledge. Nevertheless, emerging of information overloading causes considerable cost of time.

Application of text categorization technology could help users to retrieve domain journal papers efficiently. Four phases of text categorization process are “text pre-processing”, “document feature construction”,

, feature ratio performs well significantly than feature frequency. 2

, fields of abstract are more effective than titles and keywords of journal papers, and there are no difference between the latter two. 3

, Support vector machines are most effective, then naïve-bayes, decision trees and sampling distribution classifier in order. And 4

, text categorization of journal papers is feasible. Additionally, analysis and recommendation of sampling distribution classifier are also proposed for the future study.

Keywords: text categorization, classifiers, journal papers classification,

hypothesis test.

1. 序論

2. 文獻探討

3. 研究方法

3.1 研究問題

4. 實驗結果與分析

國立中央大學

國立中央大學

資訊管理研究所碩士論文

以統計分析探討文件分類程序對期刊論文分類效果之影響

研究生：賴昆佑

指導教授：薛義誠博士

中華民國九十六年六月

國立中央大學圖書館碩博士論文電子檔授權書