國 立 中 央 大 學
資 訊 管 理 研 究 所 碩 士 論 文
以統計分析探討文件分類程序對期刊論文分 類效果之影響
______________________________________________________________
研 究 生:賴昆佑
指導教授:薛義誠 博士
中 華 民 國 九 十 六 年 六 月
國立中央大學圖書館 碩博士論文電子檔授權書
本授權書所授權之論文全文電子檔(不包含紙本、詳備註 1 說明),為本人於國立中 央大學,撰寫之碩/博士學位論文。(以下請擇一勾選)
( ○ )同意 (立即開放)
( )同意 (一年後開放),原因是:
( )同意 (二年後開放),原因是:
( )不同意,原因是:
以非專屬、無償授權國立中央大學圖書館與國家圖書館,基於推動「資源共享、
互惠合作」之理念,於回饋社會與學術研究之目的,得不限地域、時間與次數,
以紙本、微縮、光碟及其它各種方法將上列論文收錄、重製、公開陳列、與發行,
或再授權他人以各種方法重製與利用,並得將數位化之上列論文與論文電子檔以 上載網路方式,提供讀者基於個人非營利性質之線上檢索、閱覽、下載或列印。
研究生簽名: 賴 昆 佑 學號: 944203023
論文名稱: 以統計分析探討文件分類程序對期刊論文分類效果之影響 指導教授姓名: 薛 義 誠 教授
系所 : 資 訊 管 理 所 博士班 █碩士班 日期:民國 96 年 07 月 10 日
備註:
1. 本授權書之授權範圍僅限電子檔,紙本論文部分依著作權法第 15 條第 3 款之規定,採推 定原則即預設同意圖書館得公開上架閱覽,如您有申請專利或投稿等考量,不同意紙本上 架陳列,須另行加填聲明書,詳細說明與紙本聲明書請至 http://blog.lib.ncu.edu.tw/plog/ 碩 博士論文專區查閱下載。
2. 本授權書請填寫並親筆簽名後,裝訂於各紙本論文封面後之次頁(全文電子檔內之授權書
簽名,可用電腦打字代替)。
3. 請加印一份單張之授權書,填寫並親筆簽名後,於辦理離校時交圖書館(以統一代轉寄給 國家圖書館)。
4. 讀者基於個人非營利性質之線上檢索、閱覽、下載或列印上列論文,應依著作權法相關規 定辦理。
摘要
期刊論文提供專業領域知識,然資訊超載造成檢索時間成本浪費,應用文件 分類技術可讓使用者迅速取得相關領域之期刊論文。文件分類程序包含「前處理」、
「文件特徵建構」、「分類方法應用」與「分類結果評估」等四個階段。針對期刊 論文之分類效果,本研究以統計假設檢定探討期刊論文分類程序中,特徵權重方 法、文章欄位差異與應用不同分類器對分類效果之影響,並與本研究設計之抽樣 分配分類器進行比較。由實驗模擬與統計假設檢定分析顯示,第一,以特徵比例 作為特徵權重方法分類效果顯著優於特徵頻率。第二,文章欄位以「摘要」之分 類效果最佳,優於標題與關鍵字,後兩者則無顯著差異。第三,期刊論文分類以 支持向量機分類效果最佳,其次為貝式機率分類器、決策樹以及抽樣分配分類器。
第四,應用文件分類技術將期刊論文分類之方法可行。另外針對抽樣分配分類器 部分,亦提出分析結果與建議,以提升未來研究所需。
關鍵字:文件分類,分類器,期刊論文分類,統計檢定。
Abstract
Journal papers provide professional domain knowledge. Nevertheless, emerging of information overloading causes considerable cost of time.
Application of text categorization technology could help users to retrieve domain journal papers efficiently. Four phases of text categorization process are “text pre-processing”, “document feature construction”,
“applying classification methods” and “evaluation”. This research probes for the effectiveness of: feature weighting, fields of articles and classifiers during the process of journal papers categorization, and also applied sampling distribution classifier within the process. The hypothesis test analysis shows that: 1
st, feature ratio performs well significantly than feature frequency. 2
nd, fields of abstract are more effective than titles and keywords of journal papers, and there are no difference between the latter two. 3
rd, Support vector machines are most effective, then naïve-bayes, decision trees and sampling distribution classifier in order. And 4
th, text categorization of journal papers is feasible. Additionally, analysis and recommendation of sampling distribution classifier are also proposed for the future study.
Keywords: text categorization, classifiers, journal papers classification,
hypothesis test.
誌謝
在中央大學求學六年,轉眼間已經到了尾聲。除了資訊管理領域專業知識學 習與論文研究外,最重要的是學習「獨立」與「合群」。獨立的部分,指求知過程 中的獨立思考與批判。而合群係指與周遭的人群跟事物相處。或許現在尚未臻至 完美,但相信我仍能持續努力追求真善美的境界。此刻,即將告別學生生涯的我 五味雜陳於心頭。除了高興求學過程順利外,也感到些許惆悵與一絲難過。即將 離開培育自己六年的中央大學,即將告別校園的老師與長輩,在此獻上我最殷切 的祝福與最誠摯的感謝:
感謝敬愛的薛義誠老師,在您繁忙之時仍抽空指導學生,讓本研究得以順利 完成。系主任陳彥良老師,感謝您六年來的指導,毋論是在資料與檔案結構與商 業智慧課程,專題研究以至學位口試,您都細心地給予指導。郭建明學長感謝您 平時的指導,並在百忙之中抽空從南部北上擔任口試委員。資管系的老師們,感 謝你們耐心地傳道、授業與解惑,使學生能更進一步接受磨練,讓自己成長。資 管系辦的嚴小姐、趙小姐、邱先生與惠敏,感謝你們這段時間以來的幫忙,謝謝。
註冊組的長輩們,謝謝大家這段時間以來的照顧。小惠姊就像是我的親姊姊 一樣照顧我。依菱姐感謝你平常耐心聽我吐苦水與忍受我的無聊笑話。錦鄉老大 即便是兩個孩子的媽,依然保持二十歲姑娘的純真,感謝你花時間跟我互相吐槽 取樂,你永遠是註冊組之花。玉琴、志銘、碧華、怡俐與雲琴大人,感謝你們這 段時間以來的關照。註冊組是我在中央的家,你們就是我的家人,真的非常感謝 大家這段時間的照顧。
信宏、有為跟拉拉庫奇,感謝你們平常難笑的笑話跟無聊的蠢事,讓我碩士 生活增添一些樂趣。好屌的克拉馬學長與昱芬賢伉儷跟屌學長,感謝你們這段時 間的照顧。感謝凱耀每天熬夜讓我半夜有人可以一起無聊。毓賢、俊宇、小胖、
欣峻、威智、口桀、秋婷、小公主、柏廷依潔賢伉儷、清焱、莉文、俊豪、俊皓、
子軒、明豪純甄賢伉儷、哈比人玉霞、小紅、昆龍、小綠、哲民與俊融、老丈等,
希望未來有機會大家能聚首,感謝大家這兩年來的照顧,謝謝。
大學的同學們,能夠認識你們真的是很幸福的事情。書宇小帥哥祝福你在博 士學程順利。敬珽祝福你交大畢業後的人生能夠一帆風順。AQ跟無聊添也希望 你們未來留學的計畫順利成功。宗霖大師從交大畢業後也能找到想作的事情、伯 翰在清大請好好努力,之後創業之路能過關斬將。神豆從政大畢業後也能找到待 遇很好的工作。佩君在交大也能夠過得充實順利。還有很多很多大學同學們未來 一切順利,謝謝你們。資管系系壘的學弟們,這幾年打球打得很愉快,謝謝你們。
祝福你們除了在球技上有所突破外,在資管專業上也能步步高昇。
在此特別感謝我的好朋友于綺,從高中認識到現在已經八年,這段時間感謝 妳的關懷與勉勵。雖然平常妳都笑我黑,不過我知道只是開玩笑的,就像我笑妳 憨一樣。非常謝謝妳,希望妳在國防求學過程順利,未來到英國或美國留學的計 畫順利。
最後感謝培育我的中央大學,以及所有幫助過我的人,謝謝你們。
賴昆佑 2007/7/10
目錄
摘要 ... v
Absrtact ... vi
目錄 ... ix
1 序論 ... 1
1.1 研究背景與動機 ... 1
1.2 研究目的 ... 3
1.3 論文架構 ... 5
2. 文獻探討 ... 6
2.1 文字探勘與機器學習 ... 6
2.2 文件分類 ... 10
2.3 分類器 ... 16
3. 研究方法 ... 21
3.1 研究問題 ... 21
3.2 研究流程 ... 24
3.3 分類方法 ... 26
4. 實驗結果與分析 ... 31
4.1 實驗設計 ... 31
4.2 特徵權重方法分類效果差異檢定 ... 35
4.3 文章欄位分類效果差異檢定 ... 41
4.4 抽樣分配分類器之信心水準分類效果差異檢定 ... 50
4.5 分類器分類效果差異檢定 ... 58
5. 結論與建議 ... 65
5.1 結論 ... 65
5.2 研究限制 ... 66
5.3 未來研究方向 ... 67
參考文獻 ... 68
圖目錄
圖 1 資訊檢索結果 ... 15
圖 2 決策樹示意圖 ... 16
圖 3 支持向量機分類示意圖 ... 19
圖 4 研究流程 ... 24
圖 5 訓練資料與實驗資料關係 ... 27
圖 6 抽樣分配與信賴區間 ... 28
圖 7 抽樣分配分類器示意圖 ... 29
圖 8 兩特徵維度交集 ... 30
圖 9 兩特徵維度空集 ... 30
圖 10 特徵次數權重分類結果 ... 35
圖 11 特徵比例權重分類結果 ... 36
圖 12 特徵次數與特徵比例權重法之準確率比較 ... 37
圖 13 特徵次數與特徵比例權重法之召回率比較 ... 38
圖 14 特徵次數與特徵比例權重法之F值比較 ... 39
圖 15 標題欄位之分類結果 ... 41
圖 16 摘要欄位之分類結果 ... 42
圖 17 關鍵字欄位之分類結果 ... 43
圖 18 文章欄位分類準確率比較 ... 44
圖 19 文章欄位分類召回率比較 ... 46
圖 20 文章欄位分類F值比較 ... 48
圖 21 抽樣分配分類器於信心水準為 90%之分類效果 ... 50
圖 22 抽樣分配分類器於信心水準為 95%之分類效果 ... 51
圖 23 抽樣分配分類器於信心水準為 99%之分類效果 ... 52
圖 24 不同信心水準下抽樣分配分類準確率比較 ... 53
圖 25 不同信心水準下抽樣分配分類召回率比較 ... 55
圖 26 不同信心水準下分類F值 ... 56
圖 27 決策樹分類效果 ... 58
圖 28 支持向量機之分類效果 ... 59
圖 29 不同分類器之分類準確率比較 ... 60
圖 30 不同分類器之分類召回率比較 ... 61
圖 31 不同分類器之分類F值比較 ... 63
表目錄
表 1 特徵選取方法 ... 13
表 2 資訊檢索列聯表 ... 15
表 3 符號說明 ... 21
表 4 特徵權重方法檢定實驗 ... 31
表 5 期刊論文欄位效果實驗 ... 32
表 6 分類器分類效果實驗 ... 34
表 7 特徵次數權重之分類統計值 ... 35
表 8 特徵比例權重之分類統計值 ... 36
表 9 特徵次數與特徵比例權重法之分類效果比較 ... 37
表 10 標題欄位分類之統計值 ... 41
表 11 摘要欄位分類之統計值 ... 42
表 12 關鍵字分類之統計值 ... 43
表 13 文章欄位之分類效果比較 ... 44
表 14 抽樣分配分類器於信心水準為 90%之分類統計值 ... 50
表 15 抽樣分配分類器於信心水準為 95%之分類統計值 ... 51
表 16 抽樣分配分類器於信心水準為 99%之分類統計值 ... 52
表 17 不同信心水準下,抽樣分配分類器效果比較 ... 53
表 18 決策樹分類統計值 ... 58
表 19 支持向量機分類統計值 ... 59
表 20 各種分類器分類效果之比較 ... 60
1. 序論
1.1 研究背景與動機
知識經濟時代來臨,使用者利用搜尋引擎、資料庫與入口網站檢索資訊並學 習。然資訊超載的問題迫使使用者需從大量文件中過濾文件是否與其檢索意圖相 關,造成可觀的時間成本。專業領域文件之文件分類,如期刊論文。不僅可提供 使用者有效的資訊檢索工具,避免人工分類標準不一,亦可讓使用者以最節省時 間成本方式瞭解並學習該領域之知識。
文件分類透過演算法將文件自動指定至事先定義之類別。文件分類程序主要 包含「前處理」、「文件特徵建構」、「分類方法應用」與「分類結果評估」等四個 階段。前處理將文件轉換成適當的格式以供分析。文件特徵建構將各文件重要的 特徵以量化指標標記,作為該文件內容之代表。接著透過各分類方法之模型建構,
計算各文件與類別或文件與文件之間之相似度,決定是否將文件歸屬於該類別。
最後則是對於分類效果進行評估。
分類器在文件分類程序中扮演影響關鍵角色,其核心概念以統計理論與機器 學習為主,透過事前分類好的文件作為訓練資料,學習各類別文件所包含的特徵,
並依此建構分類模型與規則,進而應用於新進文件分類之預測。常見分類器主要 可分為四種模型架構,分別為以統計理論為基礎、以幾何距離與向量模型為基礎、
以決策樹模型為基礎以及以類神經網路模式為基礎等四種[3]。決策樹、貝氏機率 分類器與支持向量機皆歸屬於此四類。為因應不同資料與情況之分類,各模型架 構又可衍生許多計算模型。不同架構有其優缺點與適用情境,分類前必須檢視資 料欄位與內容量等性質,才能達到分類目的。
本研究針對期刊論文之分類效果,以統計假設檢定探討期刊論文,以便瞭解 其分類程序之運作原理。進一步提出研究假設,藉由實驗模擬之數據分析驗證分 類程序對期刊論文分類之影響。並以研究結果為基礎提出提升期刊論文分類效果 之建議。
1.2 研究目的
本研究主旨在於探討文件分類程序對期刊論文文件分類效果之影響。依據主 旨將本研究劃分成數點研究議題,藉此設定研究目標與定義問題,並以實驗模擬 確認各種假設成立與否,並根據結果分析提出期刊論文分類效果提升之建議。以 下兩點為研究目的:
1. 「分析文件分類程序中,特徵權重方法、文章欄位差異與分類器對期刊論文 分類效果之影響。」
2. 「分析實驗結果並提出提升期刊論文分類效果之建議。」
本研究著重於三個分類程序構面因素的探討,分別為期刊論文資料特性,特 徵建構方法與分類器。探討議題如下:
(1). 「檢定特徵權重計算方法為特徵比例與特徵頻率時分類效果之差異」
藉由實驗分析,檢定特徵權重計算方法的為特徵比例與特徵頻率時分類效果 之間的差異程度,並提出建議以供未來研究參考。
(2). 「檢定期刊論文欄位差異造成的分類效果差異」
多數的期刊論文屬半結構性文件,具有部分固定欄位。本研究將使用這些固 定欄位的內容進行分類,檢定期刊論文欄位差異造成的分類效果差異程度,並依 此提出建議。
(3). 「檢定不同分類器之分類效果差異」
分類器理論不同,適用情境與資料型態也有所差異。本研究以統計檢定比較
(4). 「檢定抽樣分配分類器與其他分類器之分類效果的差異程度。」
本研究以抽樣分配模型為基礎,搭配歐式距離設計分類器。為瞭解此分類器 實用程度,本研究將以期刊論文進行實驗模擬,檢測此分類器與其他分類器分類 效果的差異程度。
1.3 論文架構
以下為本篇論文之架構。第二章為文獻探討。2.1 為文字探勘與機器學習之介 紹。2.2 針對文件分類之定義與其過程進行探討,包含特徵建構、分類方法與效果 評估。2.3 進一步探討決策樹、貝式分類器、支持向量機與三種分類法之適用情境。
第三章為研究方法。3.1 說明本研究依據研究目的所設定之研究問題定義與說 明。3.2 研究流程敘述本研究各主要步驟詳細過程。3.3 描述研究採用之分類方法 與過程。
第四章為結果與分析。4.1 為實驗設計,說明針對研究問題設計之實驗步驟與 方法。4.2 為使用不同特徵權重方法之實驗結果、分析與討論。4.3 為期刊論文欄 位實驗結果、分析與討論。4.4 為抽樣分配分類器信心水準實驗結果、分析與討論。
4.5 為分類器效果之實驗結果、分析與討論。
第五章為本研究之結論與建議,5.1 闡述本研究之結論與研究發現。5.2 說明 研究限制。5.3 則針對本研究所採行之方法與研究目的等進行建議。
2. 文獻探討
2.1 文字探勘與機器學習
文字探勘
文字探勘 (text mining) 針對文字資料進行處理,透過各種量化技巧,如統計 計量與資訊理論等,輔以人工智慧理論,試圖找出隱含、有趣且有助於決策之樣 式。其應用領域相當廣泛,如知識管理[15][16]、資訊安全[14]、資訊檢索[17]、自 然語言處理[18]與語意網路[19]等。
文字探勘與資料探勘的相同點在於兩者核心概念皆為找出隱含有用的樣式與 知識。而相異點在於前者所處理的對象以文字為主,後者則處理以數值為主的資 料。文字不像數值具有單位統一性質,使用上較自由不受限制,因此文字探勘必 須面對幾點挑戰,首先最重要的一點是文字特性的量化,藉由量化後的特性找出 各文件之間的相關性,然文字文件結構通常屬於非結構或半結構化,如何訂定結 構性量化的指標為文件探勘最首要的考量。其次為文件撰寫通常跟作者本身習慣 與背景有相當程度的關聯性,即便針對相同事件也會有不同的敘述,如何將這些 差異性降低是文件探勘必須考量的一點。第三點是文字資料亦受限於語言限制,
然文件並不一定侷限於以同一種語言撰寫,文字間可能夾雜常見但屬於不同語言 的詞彙,如何將文字準確地辨識同樣扮演重要的環節。
現行文字探勘技術其中一環為處理分類議題,透過分類技術將大量文件區分 成許多小群組,以便使用者檢索之需求。一般而言文字探勘分類技術可劃分成下 列兩種形式,分別為「群集」(clustering) 與「分類」(categorization),兩者特性與 意義不同,適用情境亦有所差異:
(1). 群集
群集法將文件集合切割成不同的小群集,透過這些群集找出屬於該群集的主 題與特性。主要原則為相同群集內文件必須具有高內聚力,群集與群集之間則必 須維持低偶合力,藉此有效區隔群集。分群法試圖找出各群集的「樣式」 (pattern),
目前樣式辨認較為常見的演算法有 k 平均法 (k-means)、最小生成樹 (Minimal Spanning Tree) [22][26]、k 最接近鄰居法 (k nearest neighbor, k-NN)、基因演算法 [23][24][25]與階層分群[21]等。
(2). 分類
分類法與群集法不同的一點在於分類法進行分類時必須給定事先定義好的類 別集合。透過各類別中的文件子集合,辨別屬於該類別的樣式與特性。由於分類 法中類別集合為事先定義,而群聚法則是依群聚特性演變自動產生,因此分類法 在類別擴展上需要人工或搭配群聚法。另一方面因為類別集合為事先定義,分類 法可透過訓練資料強化類別樣式之辨識力,藉此提升分類結果之準確率。
機器學習
機器學習 (machine learning) 為人工智慧的子領域,其主要概念在於發展能讓 計算機自我學習的演算法與演算技巧,應用理論以計算機科學與統計學為主。因 此,機器學習法常使用於資料探勘、文字探勘、資訊檢索、自然語言處理與搜尋 引擎設計等領域。
機器學習可分成演繹與歸納兩種型態。歸納式機器學習法透過大量訓練資料 萃取相關資訊與規則,與文字探勘與資料探勘型態與應用方式較為相近。然所有 的歸納方法都存在推論偏差 (inductive bias) [12],此偏差說明任何歸納決策過程都 必須確認假設前提成立,亦即必須假設歸納過程中所考量的決策規則與現象本身 具有關連性,而且也僅考量這些決策規則。舉例而言,假設某人發現地面是濕的,
透過資料得知是由於前晚下雨造成的地面濕了這個現象。在此例情境中建立的規 則為:若「下雨」則「地面濕」。然此推論過程因為歸納偏差造成兩項缺點,第一 點必須假設只有下雨可以造成地面濕的現象,然或許另外一筆資料所得的決策規 則包含下雨與人為因素造成地面濕。因此歸納式機器學習可能會有解釋力薄弱的 現象,即所謂的「適配不足」(under-fitting) 的現象。第二個缺點在於累積大量資 料進行歸納式機器學習後,規則考慮面向過於複雜且狹隘,接續上述範例,機器 學習後的推論規則為:若「下雨」或「泰國人灑水」造成「地面濕」的現象。事 實上泰國人灑水主要是因為潑水節,並非僅有泰國人會造成地面濕的現象。此現 象則說明「適配過度」(over-fitting) 的現象,即推論規則不具一般性,而僅適用於 某些特定資料。機器學習法必須仰賴規模較大的資料量與適當的決策規則修減以 維持一般性。
機器學習主要概念在於塑造分類規則的建構者,在文件分類中,若文件資料 代表性過低或雜訊太高會造成分類規則不具代表性,亦即所分類出來的結果準確 率會降低。因此透過機器學習進行之文件分類通常會將文件集合切割成兩組,一 組為訓練資料 (training data),另一組則為測試資料 (test data)。訓練資料必須是確 定類別,透過應用機器學習演算法找出各類別的特性,並訂定分類規則。測試資 料則是用來評估透過機器學習而得之分類規則有效性與正確性。雖然訓練資料與 測試資料兩者的比例並無硬性規定,基於決策規則必須具備相當程度的解釋力,
通常訓練資料量會大於測試資料量。甚至到達兩倍或三倍的比例。
2.2 文件分類
文件分類之基本定義
針對文件分類可以矩陣 A 表示其意涵,令 D 表文件集合,C 表類別集合,則 目標方程式以式 2.1 表示:
Φ , 式 2.1
一般將 Φ , 稱之為分類器[4][5],其中 , … | | 表類別集 合,而 表有限或無限的文件集合。當目標方程式 Φ , T 時,表文件 屬於 c 類別。文件分類中,類別僅為符號象徵,不具有任何與分類相關之資訊。
應用目的之差異對文件分類將有不同之方法與觀點。常見的分類有「單一標 記」與「多標記」分類、「硬式」與「排序」分類以及「文件主軸」與「類別主軸」
三種[4][5]。單一標記與多標記之差異在於前者進行分類時,僅有唯一一個類別被 指定到每份文件,後者則可被指定任何數量之類別。
分類器使用可分為以文件主軸或類別主軸。文件主軸係指將所有文件
給予類別標籤 ,亦即針對每一份文件至少必須指定一個類別標籤。類別主 軸導向則是將類別 為主體,判斷文件 是否歸屬於該類別,而
可被指定至一個以上之類別。
完全自動分類之應用必須給定文件與類別絕對之關係,即 , , 但若針對部分自動分類之應用則給定文件與類別一相對之關係,亦即排序值,藉 由此排序值可供決策者判斷哪些類別標籤適合指定給該文件。
前處理
進行文件分類前,必須針對文件進行前處理轉換成可分析之格式。典型的前 處理包含移除文件標籤、去除停用字與詞幹還原 (word stemming) 。移除文件標籤 將與文件內容不相關之標籤移除,如 html 語法標籤。第二階段為去除停用字,停 用字代表使用頻率高但不帶特別資訊的詞彙,例如英文的代名詞與連接詞等等。
停用字清單會因語言不同而有所差異。詞幹還原又稱字根化,功用在於還原因型 態學產生詞類型態變化之詞彙,諸如名詞之單複數與動詞之時態變化等。常見之 詞幹還原演算法有 Porter 與雪球演算法[20],根據[1]研究顯示,Porter 演算法相 較於其他詞幹還原之演算法效率較佳,本研究以該演算法進行詞幹還原。
文件特徵建構
文件特徵 (feature) 為文件之代表,文件特徵建構常見方法為關鍵字選取。藉 由數個關鍵字代表文件,使用者可比對關鍵字檢索文件。特徵建構將文件以向量 形式表示,透過特徵與文件對應關係可得一矩陣 A ,矩陣元素 則表示該特徵 在該文件中出現之權重。
A 式 2.2
權重量化常見方式為詞彙頻率 (term frequency) ,即 值為詞彙在文件中 出現之頻率。 TF-IDF 則將逆向文件頻率 (inverse document frequency) 納入考量 [9]。亦有文獻以文件內容長度為量化法。資訊熵 (information entropy) 函數以資訊 理論為基礎發展而來,相較於前述方法較為精密複雜,但其效果也相對較佳。
維度縮減為特徵建構相當重要的議題,基於效能與穩定性之考量,進行適度 的維度縮減可增進分類效率[13]。維度縮減主要以特徵選取 (feature selection) 為主。
下列舉出三種常見之特徵選取法,分別是「文件頻率門檻」、「資訊獲利」與「卡 方統計」。以下將針對此三種方法進行敘述。
文件頻率門檻 (document frequency threshold, DF) 計算所有樣本文件中特徵 出現之頻率,並將低於門檻值之特徵從特徵空間中排除[6][13]。其假設前提為罕見 詞彙可能代表該詞彙較不具資訊意涵或對整體效能之影響力過小,對分類不具貢 獻度。目前發展之特徵選取方法中,以此法最為簡單有效率,對於大量樣本及分 類集合具有較佳之效能,但此法通常是伴隨其他特徵選取方法一起使用。
資訊獲利 (information gain, IG) 由 Quinlan 於 1979 年提出,藉由測量樣本特 徵在文件中出現與否計算其資訊位元數值並用以預測分類 [6][13]。令 表 可能之類別集合,則詞彙 之資訊獲利值以式 2.3 表示:
log ⁄ log ⁄
P ⁄ log ⁄ 式 2.3
其中 表類別 在訓練樣本中出現之機率。 則表詞彙 在訓練樣 本中出現之機率。 ⁄ 表當詞彙 出現時,該文件屬於 之機率,而
⁄ 則表當詞彙 沒出現時,該文件屬於 之機率。藉由此法計算每個詞 彙之資訊獲利值,並將低於門檻值之詞彙從特徵集合中刪除。
卡方統計 ( -statistic, CHI) 測量特徵 與類別 間獨立程度[6][13],其關 係可以自由度為 1 之卡方分配判斷極端值。以特徵與類別為雙向列聯表之維度思 考。 A 表詞彙 與類別 共同出現之次數,B 表詞彙 出現但類別 沒有 出現之次數,C 表詞彙 沒有出但類別 出現之次數, D 表詞彙 與類別
皆沒出現之次數,N 表文件總數,則卡方統計值可以式 2.4 表示:
, N AD BC
A C B D A B C D 式 2.4
與交互訊息相似,當卡方值為 0 時表詞彙 與類別 兩者獨立。式 2.5 與表詞 彙 之卡方期望值,與式 2.6 意義上相似。
, 式 2.5
max , 式 2.6
卡方值在相同類別時可比較詞彙間頻率之差異性。然由於卡方分配之特性,
低詞頻之詞彙之卡方值亦不能表現其重要性。
表 1 特徵選取方法
特徵選取法 數學函數表示式
文件頻率門檻 (DF) |
資訊獲利 (IG) log ⁄ log ⁄
P ⁄ log ⁄
卡方統計值 (CHI) ,
資料來源:本研究整理
分類方法應用
分類方法應用係指分類器 (classifier) 之學習與預測。分類過程中扮演分類決 策角色即為分類器。其決策規則來自於對訓練樣本之學習。 表分類狀態值 (categorization status value) ,對於 類別之分類器,以 作為分類器 之輸入,依應用型態不同有硬式與排序兩種輸出。硬式輸出為 : D T, F 表 文件是否屬於該類別。而排序輸出則採 : D 0,1 為介於零到一之數值,藉 由這些數值將文件對於該類別依大小排序。
分類方法依據模型建構理論不同分為四種類別,分別為以統計理論為基礎、
以幾何距離計算為基礎、以決策樹模型為基礎與以類神經網路模型為基礎等。統 計理論分類根據特徵頻率統計相關指標,如機率與樣本分配。常見的模型建構方 式為線性回歸模型、貝式機率分類器與關連規則等。距離分類基於幾何學之概念,
將其概念應用於多維度之特徵空間,根據文件之特徵值對應至座標軸系統,並以 各種理論計算而得之距離進行分類,常用之距離公式為歐式距離。k 最接近鄰居法 屬於幾何距離分類器。決策樹模型為典型之分類理論,發展的分類演算法亦相當 豐富,常見的分類演算法如 C4.5 與 CART 被廣泛應用於各種分類問題上,如市場 需求分析預測與智慧型決策系統。類神經網路模型應用人類神經元的概念,輸入 層相當於神經元之樹突,輸出層則相當於神經原之軸突,介於輸入與輸出間相當 於神經元結構的處理層,即為模型建構核心,此處通常應用非線性函數進行運算,
並將分類結果輸出。
分類器之間並無絕對的優劣關係,不同的分類器有各自適用的情境與資料。
然而進行文件分類必須注意適配不足與適配過度的問題,以確保分類效果的穩定 性。
分類效果評估
在典型的資訊檢索系統中,分類結果的評估主要以準確率 (precision) 及召回 率 (recall) 為基本指標。圖 1 中整個橢圓表文件集合,垂直線將文件集合切割成確 實相關與確實不相關兩部分。另外水平線亦將集合分隔成與預測相關與預測不相 關兩部分。兩線交集將文件集合分成四個部分,分別為「確實相關且預測相關」、
「確實相關但預測不相關」、「確實不相關但預測相關」與「確實不相關且預測不 相關」。
圖 1 資訊檢索結果 資料來源:本研究整理
表 2 以二元列聯表將此四部分標示,表中之 TP、TN、FP 與 FN 為此四部分之文件 數目,n 為文件總數。則準確率與召回率以式 2.7 與式 2.8 表示:
表 2 資訊檢索列聯表
確實相關 確實不相關
預測相關 TP FP TP+FP
預測不相關 TN FN TN+FN
TP+TN FP+FN TP+FP+TN+FN=n
資料來源:本研究整理
準確率 precision 確實相關且預測相關 預測相關
TP
TP FP 式 2.7
召回率 recall 確實相關且預測相關相關 確實相關
TP
TP TN 式 2.8 另外 F 測量值則是準確率與召回率之調和平均數,其一般式如式 2.9 所示:
1 準確率 召回率
準確率 召回率 式 2.9
其中當 值為 1 時,稱之為平衡 F 測量值,常以 或 表示之。
2.3 分類器
決策樹
人工智慧透過機器學習方式建立模型,以供未來預測與決策使用,決策樹則 是其中一套方法。決策樹為一樹狀結構之分類模型,根節點 (root node) 與內部節 點 (internal node) 針對決策問項伴隨一組決策規則,藉此判斷問項屬於哪個分支。
葉節點 (leaf node) 則為最後決策結果,在文件分類決策中即是代表各類別。圖 2 為簡化之決策樹模型示意圖。
圖 2 決策樹示意圖
資料來源:Jiawei Han and Micheline Kamber, “Data Mining: Concepts and Techniques”, 2000/08.
決策樹除了容易使用外,效率也是主要考量之一,另外各決策點之規則明瞭 易懂,以及決策樹大小與目標資料大小並沒有絕對相關性都是應用決策樹進行分 類的優點。然決策樹缺點在於對連續值類型資料敏感度較低,以及忽略特徵之間 相關性。
常見之決策樹演算法有 ID3、C4.5、C5.0、CART、CHAID 與 QUEST 等。ID3 演算法由 Quinlan 於 1975 年提出,其基本概念源自於資訊理論中的資訊熵
(information entropy),資訊熵衡量一組資料的亂度,而資訊獲益 (information gain) 則表示各特徵可從整體資料獲得決策程度。ID3 演算法提供了以資訊獲益為特徵選 取的方法,其演算法可概括分為三個步驟如下所示:
1. 計算訓練樣本中所有尚未使用特徵之資訊熵。
2. 選擇資訊獲益量最大之特徵建構決策點。
3. 將此特徵從未使用特徵集合移除,回第一步驟直到所有特徵皆被移除。
然 ID3 無法處理具有遺失值與連續值之特徵,C4.5 則改善了 ID3 演算法幾項 缺點,包含對於訓練資料中遺失值與連續值的處理、可推論決策規則與測試階段 可刪除效率不彰之決策分支。對於含遺失值之資料採忽略該特徵作法。連續值資 料處理則是以切割值域範圍作為區間。C5.0 則又針對 C4.5 進行修改。C5.0 為 C4.5 之商業版本,在決策規則推導上比 C4.5 更迅速且所需記憶體較低,另外決策樹之 建構也比 C4.5 小且迅速。
CART 以分類與回歸模型建構決策樹,在經由測試資料進行修剪。CART 亦具 有 C4.5 針對 ID3 修改的幾項特點。CHAID 為 Gordon V. Kass 於 1980 年提出,準 確率與 CART 相近,但在選取特徵分支之方法不同。CART 主要以資訊熵或吉尼 係數 (Gini Coefficient) 選取分支,而 CHAID 完全以卡方統計檢定進行選取。
QUEST 則以 CART 演算法為基礎進行修改,主要差異在於處理遺失值方式與以非 偏差特徵選擇為預設。
綜合上述所述,決策樹演算法主要跟分為以資訊熵為主與以統計檢定法為主 兩種。然而除了 ID3、C4.5 與 C5.0 之間有明顯之效能差異外,與其他如 CART、
CHAID 或 QUEST 等效能端視資料特性而定。
貝式分類器
貝式分類器基本理論為貝式機率。其分類推論透過訓練樣本得到各類別機率,
藉此預測測試文件之類別[2]。貝式分類器必須假設特徵與特徵之間並無相關性,
亦即各特徵之出現屬獨立事件,因此該分類器又可稱之為「獨立特徵分類模型」。
給定訓練資料 可得各類別之機率 、各特徵之機率 與當資料 屬於某類別時該特徵之事前機率 | ,透過貝式定理可推估得知當資料在出 現某特徵時該類別之事後機率 | 。藉此計算目標資料出現某特徵時屬於該 類別之機率 | 以達成分類預測。式 2.10 表貝式分類器所應用之貝式定理:
| ∑ | (式 2.10)
貝式分類器對於具有遺失值之資料採取忽略法,對於訓練資料的使用上僅需 讀取一次,且簡單容易使用。缺點在於特徵與特徵之間並不一定是獨立,且對於 連續性質之資料進行範圍切割方法計算機率會對結果有顯著差異,而較適用於離 散型資料。
支持向量機
支持向量機[11]源自於統計理論,該法由 Joachims 於 1998 年提出,常使用於 統計分類與回歸分析。支持向量機的核心概念為將結構風險最小化 (structural risk minimization) [8][10][11]。針對機器學習法中,建構模型時會遇到的「低適配」與
「過度適配」的議題。結構風險最小化簡單來說即是在此兩極端中取得平衡,以 建構最佳模型。支持向量機將文件之特徵向量投射至比特徵維度更高維度之空間 中,試圖找出超平面ψ使得正向與負向效果之文件得以分離。下列二圖為概念示 意圖,圖 3 為簡易的支持向量機示意圖,圖中紅色與藍色表不同分類之文件,支 持向量機將此輸入空間投射至更高維度空間,尋找圖中綠色之超平面ψ以區隔正 向與負向效果。
圖 3 支持向量機分類示意圖
資料來源:Norikazu Takahashi, Efficient Learning Algorithms for Support Vector Machines
支持向量機模型建構可分為線性與非線性。線性支持向量機主要針對可以線 性方法處理與區隔的資料,而非線性則適用於資料分佈較為複雜且為非線性能區 隔。[8]中提到,支持向量機之所以適用於文件分類在於具備四項特性。首先對於 特徵空間維度過高的問題,支持向量機具有避免過度配適機制,透過極限概念的 使用,可以降低處理特徵空間的高維度。其次為特徵建構後,文件中大部分的特 徵都是相關且含有相當資訊的,相較於其他分類器以資訊含量排序後捨棄部分特 徵的特性,支持向量機可有效組合特徵,以取得較佳的分類效果。第三點由於文 件特徵向量包含許多特徵維度數值為零的特徵值,即在特徵空間中的特徵向量相 當稀疏,在結構風險最小化理論中以理論與實證解釋支持向量機適用於概念密集 但實例稀疏的情境。最後由於文件分類議題通常可應用線性法區隔,[7]文獻中,
支持向量機在線性區隔的分類效果相當優異,因此支持向量機適用於大量文件的 分類。
3. 研究方法
3.1 研究問題
符號說明
表 3 為本研究之基本符號說明,各符號之意涵與本研究設定之值域將於下列 各點介紹:
表 3 符號說明
符號 定義與說明
表文件集合。
表文件集合之類別集合。
Φ 表本研究使用之分類器。
表分類之準確率。
表分類之召回率。
表 測量值。
1 表信心水準, 表錯誤的機率。
表特徵選取方法。
表文件欄位。
資料來源:本研究整理
(1). 文件集合
以 表文件集合,即為本研究使用之期刊論文文集。 與 依 序表示訓練資料集合與測試資料集合。 與 分別表示經過第 t 次隨 機抽樣切割 之訓練資料與測試資料集合,其中 1, … , | |,本研究中
| | 10。
(2). 文件集合之類別集合
以 表類別集合,係指本研究期刊論文文集之類別, 表個別類別。其中 1, … , | |,本研究中| | 7, 行銷, 太空, 數學, 網路, 財金, 資管, 機械 。
(3). 分類器
以 Φ 表分類器集合。 Φ 表個別分類器,其中 1, … , |Φ|,本研究中
|Φ| 4,Φ 決策樹, 貝式, 支持向量機, 抽樣分配分類器 。
(4). 分類效果之準確率 、召回率 與 F 測量值
以 表分類之準確率, 表召回率, 表 F 測量值。 表分類器 Φ 之 分類準確率, 表分類器 Φ 之分類召回率, 表分類器 Φ 之分類 F 測量值。
(5). 信心水準
以 1 表抽樣分配估計信心區間之信心水準, 1 表個別信心水準,
其中 1, … , | |,本研究中| | 3。 0.01, 0.05, 0.1 。
(6). 特徵選取方法
以 表特徵選取方法,。 表不同的選取方法,其中 1, … , | |,本研 究中| | 2。 特徵權重TFIDF 權重值, 特徵比例 TRIDF 權重值 。
(7). 文章欄位
以 表文章欄位集合。 表個別欄位,其中 1, … , | |,本研究中| | 4。
標題, 摘要, 關鍵字, 全部採記 。
問題說明
(1). 問題一:檢定特徵權重方法中,特徵比例與特徵頻率分類效果差異
本問題探討當特徵權重方法不同時,分類效果之間是否顯著差異。針對文件 集合 D 之特徵空間 S,令 表特徵選取之方法,以此法選取之特徵空間為 。 對於分類器 Φ 之分類效果之準確率 之間,召回率 之間以及 之間 是否顯著差異。
(2). 問題二:檢定期刊論文之文章欄位分類效果之差異
本問題探討文章欄位是否對於分類效果有顯著差異。 表文章欄位並以該欄 位當文章內容並建構文件之特徵向量。分類器 Φ 依此特徵向量分類而得分類效 果之準確率 之間、召回率 之間以及 之間是否顯著差異。
(3). 問題三:檢定各分類器之分類效果之差異程度?
本問題探討分類器對於期刊論文之分類效果之優劣。令 Φ 表分類器個體,
當以不同分類器進行分類時,所得到之分類效果之準確率為 ,召回率為 ,F 值為 。利用統計假設檢定驗證當分類器不同時是否分類效果有所差異。
(4). 問題四:檢定信心水準對抽樣分配分類器效果之差異性
本問題探討信心水準對於抽樣分配分類器在分類效果上的影響。Φ 表信心 水準為 1 α 之抽樣分配分類器。其分類準確率為 ,召回率為 ,F 測 量值為 。藉由統計檢定不同信心水準 1 α 時,分類效果 之間、
之間以及 之間是否顯著差異。並依此結果排序,挑選分類效果最佳之信心水 準 1 α 作為抽樣分配分類器之信心水準。
3.2 研究流程
下圖為本研究之流程示意圖,各步驟中可能又包含數個次步驟,以下將針對 這些步驟進一步說明:
圖 4 研究流程 資料來源:本研究整理
(1) 資料收集
本研究依研究目的收集以英文期刊論文,選擇七種不同領域之期刊論文為資 料來源,以期刊種類代表其類別,依據本研究之目的,針對每篇文章僅擷取「標 題」、「關鍵字」與「摘要」三個欄位內容作為研究對象。基於計算便利,本研究 於各類別挑選兩百篇文章當作實驗對象。
(2) 分類方法研究
針對文件分類領域探索各種分類理論之優缺點與分類程序,瞭解分類器運作 原理與演算法,並根據個別演算法之特性與優缺點,並參照部分文獻之研究結果 與實機測試結果進行評估,進行分類器之選擇。
(3) 實驗設計
此階段根據研究目的與問題定義進行實驗設計,並以統計理論作為資料分析 方法。各組實驗皆以相同訓練資料與測試資料為研究對象,相關細節將於後續章 節敘述。
(4) 實驗模擬
針對研究提出之問題進行實機模擬測試,系統環境以個人電腦為平台,實作 以 Java 語言進行演算法之撰寫進行各功能實作。以實驗模擬所得數據作為參數調 整之依據,待確認符合研究目的與實驗設計後,即對目標資料進行測試,以得可 靠數據進行分析。
(5) 分類結果評估
確認實驗設計確實反映研究假設與方法後,即針對目標資料進行實驗。實驗 結果評估方式則採典型資訊檢索使用之「準確率」、「召回率」與「F 測量值」為主。
每組實驗結果評估皆以十次試驗之平均值代表集中趨勢,並以標準差標示其離異 程度以供參考。
3.3 分類方法
前處理與文件特徵建構
期刊論文文件前處理的部分,本研究使用 Microsoft 定義之停用字規則,隨後 以 Porter 演算法進行詞幹還原,特徵建構部分先以文件門檻值縮減特徵維度,此 階段先經特徵詞彙統計後,刪除次數低於門檻值之特徵維度以降低計算成本。
特徵建構將文件以索引向量形式呈現,向量建構時必須考量向量值之設定,
特徵頻率最為常見。特徵頻率代表特徵 在文件 中出現之頻率。
TF-IDF 為最常使用之特徵權重方法[6],其基本假設有兩點,首先為當特徵頻 率 在文件 中出現之頻率越高,則代表特徵 越能代表文件 。第二點為 若特徵 在越多文件中出現,則代表該特徵被普遍使用,不具有分類資訊。式 3.1 為 TF-IDF 計算公式,其中 , 為特徵 頻率在文件 中出現之頻率,
| | 為文件集合 之文件數目, 為特徵 出現在文件集合中的文件數。
, log | | 式 3.1
由於不同文件擁有不同的內容長度,以特徵頻率作為索引向量值,對於內容 較少之文件可能會造成進行特徵選時捨棄含有資訊之特徵。因此本研究以特徵在 該文件所佔有之比例為向量值探討此假設是否成立。式 3.2 表特徵比例向量值公式,
其中 表特徵在文件中出現之次數。
, ∑| | 式 3.2
抽樣分配分類器
抽樣分配分類器為本研究基於抽樣分配與歐式距離設計之分類器,此分類器 係指根據特徵之樣本分配計算其平均值與標準差,根據中央極限定理,當樣本數 大於等於 30 時,其特徵分配情形可視為抽樣分配,因此可藉由信賴水準的設定尋 找母體之信賴區間。對於文件分類而言,訓練資料相當於抽樣樣本,分類器藉由 訓練資料學習各特徵與類別的對應關係。下圖為概念示意圖,黑色斜線圓表訓練 資料,方形灰色區域則表示研究所使用資料,訓練資料僅為實驗資料之子集合,
相當於抽樣樣本。
圖 5 訓練資料與實驗資料關係 資料來源:本研究繪製
對於文件 而言,特徵 之特徵值符合抽樣分配。藉由計算 之特徵值平均數與標準差並設定分配信賴水準後即可找出實驗資料對於特徵 之信賴區間 ,藉此推估屬於類別 之文件中,包含特徵 之平均數 , 如圖所示:
圖 6 抽樣分配與信賴區間 資料來源:本研究繪製
特徵空間中,特徵 皆可找出該維度之信賴區間 ,若特徵空間包含 L 個維度,則表示可找到 L 組信賴區間。對於文件 而言,由於維度縮減的關係,
特徵比例總和將小於等於 1 ,由信賴區間可建立 1 組限制式。另一方面根據 樣本可計算各特徵比例之平均值 ,針對類別 可計算出中心點為 。藉由歐 式距離 (Euclidean distance) 可計算文件與類別之間的離異程度,如式 3.4 所示:
| |
式 3.4
歐式距離值越大表示文件與類別越不相似。透過信賴區間與總和之 1 組 限制式,求距離 之極值。依信賴區間設定之限制式為一連續區間,距離 極 小值為 0,即文件中心點與類別中心完全符合。令距離之極大值為 ,其意涵 為樣本中心點與母體中心點差異程度極大。透過 可進一步進行分類。若文件
與類別 之中心點 之歐式距離為 ,當 時,表示文 件 屬於類別 之機率相對較高。而當 時,則表文件 屬於類別
之機率相對較低。
圖 7 以二維特徵作為範例,對於 x 與 x 兩特徵維度,藉由設定信賴水準可 找到個別信賴區間,另外兩特徵比例總和必須小於等於 1,藉此可找到圖中灰色區 塊集合。灰色區中心點 表樣本中心,藍色點 表與 離異程度極大之母 體中心。以 為中心,以 為距離可得特徵空間中之子集合空間,若文件 與樣本中心距離小於等於 ,則文件屬於該類別,如圖中之點 。若文件與樣 本中心距離大於 ,如 ,則文件不屬於該類別。
圖 7 抽樣分配分類器示意圖 資料來源:本研究繪製
針對應用方式不同,以距離作為分類依據之方式可彈性調整。若為單一標記 分類情況較為複雜,當文件與兩個類別中心之距離小於該類別距離極大值時,則 表示文件同時與兩個類別相似,基於單一標記原則採距離較近者為類別。下圖 8 (a) 表文件 同時距離小於類別 c 與 c ,此時以文件至類別中心距離小者為類別。
圖 4 (b) 表文件 到類別 c 與 c 中心點距離相等,即 ,此時可將文件 歸類於其中一類別,或是以類別範圍密度視為機率比較後歸類。
圖 8 兩特徵維度交集 資料來源:本研究繪製
而當文件與所有類別中心之距離均大於各類別距離之極大值時,則以文件與 類別中心之距離減去類別中心極大值為考量距離,即文件 至類別範圍之最小距 離,其意涵為文件與類別最靠近之距離,如下圖 9 (a) 之 所示,此時以該距離 小者為類別推薦。圖 5 (b) 表文件 至兩類別範圍距離相同,即 ,此 時則以 至類別中心 與 之距離小者為類別。
圖 9 兩特徵維度空集 資料來源:本研究繪製
若為多標記分類情況較為單純,以距離絕對大小進行分類,若文件同時小於 兩個以上的類別距離極大值,則表文件可同時歸屬於兩類別,另外亦表示此兩類 別在部分維度上不具鑑別力;若文件與各類別中心距離皆大於極大值,表此文件 可能不屬於類別集合中之任一類別,此時可採建立新類別或以距離小者為推薦類 別。
4. 實驗結果與分析
4.1 實驗設計
本節敘述本研究之實驗設計,根據研究問題設定三組實驗,實驗對象為本研 究收集之期刊論文文集。本研究以隨機抽樣將文件集合切割成訓練資料與測試資 料。基於分類結果可靠度的考量,本研究將對文件集合進行隨機抽樣 10 次,相同 方法在不同抽樣樣本測試下之結果假設為常態分配,並記錄各實驗結果以供後續 分析。實驗結果以準確率、召回率與 F 測量值計算。每組實驗操作變數皆為一項,
以探討該因素對分類之影響程度為主,並降低過多變數造成混淆與分析不易。
(1). 實驗一:特徵權重方法效果差異之檢定
本實驗目的在於研究特徵向量維度對分類效果之影響,藉由特徵權重方法設 定的不同,研究當使用特徵比例代替特徵頻率進入 TFIDF 計算權重時效果較佳。
表 4 特徵權重方法檢定實驗
實驗目的 z 檢定特徵權重方法分類結果的差異。
操作變數 z 特徵權重方法 。
實驗對象 z 全部欄位之期刊論文,使用貝式機率分類器分類。
相依變數 z 準確率、召回率與 測量值。
實驗步驟 1. 設定特徵權重方法 。
2. 分類器 Φ 對訓練資料 學習分類規則。
3. 分類器 Φ 對測試資料 進行分類,紀錄其分 類效果(準確率、召回率與 F 測量值)。
4. 重複步驟 2-3,直到 t = 10。
資料來源:本研究整理
(2). 實驗二:文章欄位分類效果差異之檢定
期刊論文為半結構化之文件,具有部分固定格式與欄位。本實驗目的在於探 討期刊論文文集欄位中所包含之資訊是否對於分類有顯著的差異。
表 5 期刊論文欄位效果實驗
實驗目的 檢定期刊論文欄位分類效果之差異。
操作變數 文章欄位 。
實驗對象 以特徵比例為向量之期刊論文文件,並以貝式機率分類器 進行分類。
相依變數 準確率、召回率與 測量值。
實驗步驟 1. 選定文章欄位 。
2. 分類器 Φ 對訓練資料 學習分類規則。
3. 分類器 Φ 對測試資料 進行分類,紀錄其分 類效果(準確率、召回率與 F 測量值)。
4. 重複步驟 2-3,直到 t = 10。
資料來源:本研究整理
(3). 實驗三:信心水準對抽樣分配分類器效果差異檢定
本實驗藉由實際測試數據,檢驗信心水準設定之不同對於抽樣分配分類器分 類效果是否有顯著影響。
表 6 抽樣分配分類器信心水準實驗
實驗目的 檢定在不同信心水準之抽樣分配分類器分類效果差異。
操作變數 信心水準 α 。
實驗對象 採記全部欄位之期刊論文,並以特徵比例為特徵權重方 法。
相依變數 準確率、召回率與 測量值。
實驗步驟 1. 設定信心水準 α 。
2. 分類器 Φ 對訓練資料 學習分類規則。
3. 分類器 Φ 對測試資料 進行分類,紀錄其 分類效果(準確率、召回率與 F 測量值)。
備註 Φ 表抽樣分配分類器。
資料來源:本研究整理
(4). 實驗四:各分類器之分類效果差異檢定
分類器為分類決策者,不同的分類器有其適用的情境。藉由本實驗實機進行 模擬,以數據結果分析適用於期刊論文分類之分類器。
表 6 分類器分類效果實驗
實驗目的 檢定不同分類器分類效果之差異程度。
操作變數 分類器 Φ。
實驗對象 以特徵比例為特徵向量之期刊論文文件,採記全部欄位。
相依變數 準確率、召回率與 測量值。
實驗步驟 1. 選定分類器 Φ 。
2. 分類器 Φ 對訓練資料 學習分類規則。
3. 分類器 Φ 對測試資料 進行分類,紀錄其分 類效果(準確率、召回率與 F 測量值)。
4. 重複步驟 2-3,直到 t = 10。
分析方法 統計 T 分配進行假設檢定。
資料來源:本研究整理
4.2 特徵權重方法分類效果差異檢定
實驗結果
本實驗操作變數為特徵權重方法 , 特徵次數, 特徵比例 。本實驗採 記全部欄位作為文章內容,並以貝式機率分類器進行分類。
(1). 特徵權重方法為特徵次數之 TFIDF 時:
當以特徵次數為權重計算方式時,其分類準確率平均值為 65.8%,值域分佈在 50%到 80%之間,標準差為 0.068,極大值為 82.5%。召回率的部分平均值為 59%,
值域分佈在 50%到 80%之間,標準差為 0.097,極大值為 82.3%。F 值為準確率與 召回率之調和平均數,平均數為 59%,標準差 0.097,極大值為 82.4%。
圖 10 特徵次數權重分類結果 資料來源:本研究繪製
表 7 特徵次數權重之分類統計值 準確率 召回率 F 值 平均數 0.658 0.590 0.590 標準差 0.068 0.097 0.097 極大值 0.825 0.823 0.824
資料來源:本研究整理
(2). 特徵權重方法為特徵比例之 TFIDF 時:
以特徵比例為權重計算方式時,其分類準確率平均值為 85.6%,值域分佈在 84%到 88%之間,標準差為 0.01,極大值為 87.9%。召回率的部分平均值為 85.2%,
值域分佈在 83%到 87%之間,標準差為 0.011,極大值為 87.7%。F 值平均數為 85.2%,
標準差 0.011,極大值為 87.7%。
圖 11 特徵比例權重分類結果
資料來源:本研究繪製
表 8 特徵比例權重之分類統計值
準確率 召回率 F 值
平均數 0.856 0.852 0.852 標準差 0.01 0.011 0.011 極大值 0.879 0.877 0.877
資料來源:本研究整理
實驗分析
實驗一以貝式機率分類器測試特徵權重方法是否對分類效果有顯著影響,亦 即利用統計檢定在特徵權重方法不同的情況下,分類效果是否顯著差異。根據 4.1 實驗數據,將以特徵次數與特徵比例為權重方式之分類效果平均值以下表呈現。
表 9 特徵次數與特徵比例權重法之分類效果比較
特徵次數 特徵比例 準確率平均 0.658 0.856 召回率平均 0.590 0.852 F 值平均 0.590 0.852
資料來源:本研究整理
(1). 特徵次數與特徵比例之準確率比較:
圖 12 特徵次數與特徵比例權重法之準確率比較 資料來源:本研究繪製
根據實驗模擬之數據,令特徵比例權重方法母體之準確率為 ,特徵次數權 重方法母體準確率為 ,則假設檢定為:
0
: 0 特徵比例準確率較特徵次數準確率高
: 特徵比例準確率與特徵次數準確率無差異
以 t 檢定進行分析,計算得 t 值為 17.203 大於臨界值 1.833,因此拒絕虛無假 設 ,即特徵比例之準確率確實高於特徵次數之準確率。
(2). 特徵次數與特徵比例之召回率比較:
圖 13 特徵次數與特徵比例權重法之召回率比較 資料來源:本研究繪製
令特徵比例權重方法母體之召回率為 ,特徵次數權重方法母體召回率為 , 則假設檢定為:
: 0 特徵比例召回率與特徵次數召回率無差異
: 0 特徵比例召回率較特徵次數召回率高
以 t 檢定進行分析,計算得 t 值為 15.436 大於臨界值 1.833,因此拒絕虛無假 設 ,即特徵比例之召回率確實高於特徵次數之召回率。
(3). 特徵次數與特徵比例之 F 值比較:
圖 14 特徵次數與特徵比例權重法之 F 值比較 資料來源:本研究繪製
令特徵比例權重方法母體之 F 值為 ,特徵次數權重方法母體準確率為 , 則假設檢定為:
: 0 特徵比例 F 值與特徵次數 F 值無差異
: 0 特徵比例 F 值較特徵次數 F 值高
以 t 檢定進行分析,計算得 t 值為 15.689 大於臨界值 1.833,因此拒絕虛無假 設 ,即特徵比例之 F 值確實高於特徵次數之 F 值。
小結與討論
(1). 小結
根據上述統計假設檢定的結果,發現特徵比例權重方法在分類準確率、召回 率與 F 值皆顯著大於特徵次數權重方法,因此以特徵比例權重值建構文件特徵向 量在分類上獲得較佳的效果。
(2). 討論
特徵權重方法實驗結果如預期,以特徵比例分類效果較佳,其分類準確率平 均值,證實以特徵比例進行權重可避免文章長度不同造成以特徵次數比較失衡的 問題。
4.3 文章欄位分類效果差異檢定
實驗結果
本實驗操作變數為文章欄位 ,藉由以各欄位建構特徵向量,利用本研究使 用貝式分類器進行分類。檢視這些欄位對於分類效果是否有顯著差異。
(1). 為標題時:
以標題欄位為特徵建構來源時,其分類準確率平均值為 81.8%,值域分佈在 78%到 87%之間,標準差為 0.027,極大值為 86.5%。召回率的部分平均值為 80.6%,
值域分佈在 78%到 86%之間,標準差為 0.027,極大值為 85.4%。F 值平均數為 80.6%,
標準差 0.028,極大值為 85.6%。
圖 15 標題欄位之分類結果 資料來源:本研究繪製 表 10 標題欄位分類之統計值
準確率 召回率 F 值
平均數 0.818 0.806 0.806
標準差 0.027 0.027 0.028
極大值 0.865 0.854 0.856
(2). 為摘要時:
以摘要欄位為特徵建構來源時,其分類準確率平均值為 85.2%,值域分佈在 80%到 90%之間,標準差為 0.026,極大值為 89.9%。召回率的部分平均值為 85%,
值域分佈在 80%到 90%之間,標準差為 0.027,極大值為 89.7%。F 值平均數為 84.9%,
標準差 0.027,極大值為 89.7%。
圖 16 摘要欄位之分類結果 資料來源:本研究繪製
表 11 摘要欄位分類之統計值
準確率 召回率 F 值
平均數 0.852 0.85 0.849
標準差 0.026 0.027 0.027
極大值 0.899 0.897 0.897
資料來源:本研究整理
(3). 為關鍵字時:
以關鍵字欄位為特徵建構來源時,其分類準確率平均值為 81.3%,值域分佈在 74%到 86%之間,標準差為 0.038,極大值為 85.5%。召回率的部分平均值為 78.7%,
值域分佈在 60%到 86%之間,標準差為 0.071,極大值為 85.1%。F 值平均數為 79.6%,
標準差 0.067,極大值為 85.1%
圖 17 關鍵字欄位之分類結果 資料來源:本研究繪製
表 12 關鍵字分類之統計值
準確率 召回率 F 值
平均數 0.813 0.787 0.79
標準差 0.038 0.071 0.067
極大值 0.855 0.851 0.851
資料來源:本研究整理
(4). 為全部採記時:
同實驗一之特徵比例權重之分類效果。
實驗分析
實驗二目的在探討期刊論文之文章欄位對於分類上所能提供之分類資訊是否 有顯著差異。
表 13 文章欄位之分類效果比較
標題 摘要 關鍵字 全部
準確率平均 0.818 0.852 0.813 0.856 召回率平均 0.806 0.85 0.787 0.852
F 值平均 0.806 0.849 0.79 0.852
資料來源:本研究整理
(1). 標題、摘要、關鍵字與全部採記之準確率
圖 18 文章欄位分類準確率比較 資料來源
令標題欄位分類準確率為 ,摘要欄位分類準確率為 ,關鍵字欄位分類準 確率為 ,全部欄位分類準確率為 。則假設檢定為:
:本研究繪製
檢 一 全部欄位
: 全部欄位分類準確率與摘要欄位分類準確率無差異
定 : 與摘要欄位
0
: 0 全部欄位分類準確率較摘要欄位分類準確率高
以 t 檢定進行分析,計算得 t 值為 0.229 小於臨界值 1.812,因此不拒絕虛無假 設,亦即採記全部欄位之分類準確率並未較採記摘要欄位之分類準確率高。
檢 二 摘要欄位
: 摘要欄位分類準確率與標題欄位分類準確率無差異
定 : 與標題欄位
0
: 0 摘要欄位分類準確率較標題欄位分類準確率高
以 t 檢定進行分析,計算得 t 值為 2.59 大於臨界值 1.745,因此拒絕虛無假設,
即採記摘要欄位之分類準確率高於標題欄位分類之準確率。
檢 三 摘要欄位
: 摘要欄位分類準確率與關鍵字欄位分類準確率無差異
定 : 與關鍵字欄位
0
: 0 摘要欄位分類準確率較關鍵字欄位分類準確率高
以 t 檢定進行分析,計算得 t 值為 2.922 大於臨界值 1.753,因此拒絕虛無假設,
即採記摘要欄位之分類準確率高於標題欄位分類之準確率。
檢 四 標題欄位
: 標題欄位分類準確率與關鍵字欄位分類準確率無差異
定 : 與關鍵字欄位
0
: 0 標題欄位分類準確率較關鍵字欄位分類準確率高
以 t 檢定進行分析,計算得 t 值為 0.698 小於臨界值 1.753,因此不拒絕虛無假 設,即採記標題欄位之分類準確率與關鍵字欄位之分類準確率無顯著差異。
(2). 標題、摘要、關鍵字與全部採記之召回率
圖 19 文章欄位分類召回率比較 資料來源:本研究繪製
令標題欄位分類召回率為 ,摘要欄位分類召回率為 ,關鍵字欄位分類召 回率為 ,全部欄位分類召回率為 。則假設檢定為:
檢 一 全部欄位
: 全部欄位分類召回率與摘要欄位分類召回率無差異
定 : 與摘要欄位
0
: 0 全部欄位分類召回率較摘要欄位分類召回率高
以 t 檢定進行分析,計算得 t 值為 0.154 小於臨界值 1.812,因此不拒絕虛無假 設,即採記全部欄位之分類召回率與採記摘要欄位之分類召回率無顯著差異。
檢 二 摘要欄位
: 摘要欄位分類召回率與標題欄位分類召回率無差異
定 : 與標題欄位
0
: 0 摘要欄位分類召回率較標題欄位分類召回率高
以 t 檢定進行分析,計算得 t 值為 3.254 大於臨界值 1.746,故拒絕虛無假設,
即採記摘要欄位分類召回率較標題欄位分類召回率高。
檢 三 摘要欄位
: 摘要欄位分類召回率與關鍵字欄位分類召回率無差異
定 : 與關鍵字欄位
0
: 0 摘要欄位分類召回率較關鍵字欄位分類召回率高
以 t 檢定進行分析,計算得 t 值為 2.641 大於臨界值 1.812,故拒絕虛無假設,
即採記摘要欄位分類召回率較關鍵字欄位高。
檢 四 標題欄位
: 標題欄位分類召回率與關鍵字欄位分類召回率無差異
定 : 與關鍵字欄位
0
: 0 標題欄位分類召回率較關鍵字欄位分類召回率高
以 t 檢定進行分析,計算得 t 值為 0.988 小於臨界值 1.812,因此不拒絕虛無假 設,即採記標題欄位之分類召回率與關鍵字欄位分類召回率無顯著差異。
(3). 標題、摘要、關鍵字與全部採記之 F 值
圖 20 文章欄位分類 F 值比較 資料來源:本研究繪製
令標題欄位分類 F 值為 ,摘要欄位分類 F 值為 ,關鍵字欄位分類 F 值為 , 全部欄位分類 F 值為 。則假設檢定為:
檢 一 全部欄位
: 全部欄位分類 F 值與摘要欄位分類 F 值無差異
定 : 與摘要欄位
0
: 0 全部欄位分類 F 值較摘要欄位分類 F 值高
以 t 檢定進行分析,計算得 t 值為 0.176 小於臨界值 1.795,因此不拒絕虛無假 設,即採記全部欄位進行分類之 F 值與摘要欄位分類 F 值無顯著差異。
檢 二 摘要欄位
: 摘要欄位分類 F 值與標題欄位分類 F 值無差異
定 : 與標題欄位
0
: 0 摘要欄位分類 F 值較標題欄位分類 F 值高
以 t 檢定進行分析,計算得 t 值為 3.147 大於臨界值 1.746,故拒絕虛無假設,
即採記摘要欄位進行分類之 F 值高於標題欄位分類 F 值。
檢 三 摘要欄位
: 摘要欄位分類 F 值與關鍵字欄位分類 F 值無差異
定 : 與關鍵字欄位
0
: 0 摘要欄位分類 F 值較關鍵字欄位分類 F 值高
經 t 檢定計算得 t 值為 2.647 大於臨界值 1.796,故拒絕虛無假設,即摘要欄位 分類 F 值高於關鍵字。
檢 四 標題欄位
: 標題欄位分類 F 值與關鍵字欄位分類 F 值無差異
定 : 與關鍵字欄位
0
: 0 標題欄位分類 F 值較關鍵字欄位分類 F 值高
經 t 檢定計算得 t 值為 0.933 小於臨界值 1.796,因此不拒絕虛無假設,即標題 欄位分類 F 值與關鍵字欄位 F 值並無顯著差異。
小結與討論
(1). 小結
藉由假設檢定的結果,發現進行分類時,採記全部欄位與僅採記摘要欄位時,
分類效果並無顯著差異,而摘要欄位分類效果顯著優於標題欄位與關鍵字欄位。
標題欄位與關鍵字欄位之分類效果並無顯著差異。因此,以摘要欄位進行分類可 獲得較佳之分類效果。
(2). 討論
根據實驗結果顯示,期刊論文之摘要欄位相較於標題與關鍵字欄位之分類效 果較佳。推測此現象之原因在於摘要欄位擁有較多鑑別力較佳之特徵。單就分類 準確率來看,即便是效果較差之標題欄位與關鍵字欄位可達到 80%以上的水準。
召回率與 F 值也都有 75%~80%的水準。就分類效果來說三者個欄位皆具有一定分 類資訊。而採記全部欄位與採記摘要欄位在效果上並無顯著差異,分類則可以摘