第三章 研究方法

3.2 文件資料

3.2.1 Inspec 文件集

本研究使用的文件資料係取用自 Inspec on Disc 中收集整理的摘要資料。Inspec on Disc 收錄了許多與自然科學及工程相關的文獻摘要資料,本研究選用了 1989 年至 1999 年期間電腦科學相關文獻摘要資料 (Abstracts of Computer Science Selections)。本 論文將以 Inspec 文件集稱之。在此 Inspec 文件集中,共有 34281 份文件資料。其分 類架構為三階層式,第一階有五個類別,第二階有 43 個類別,其中兩個第二階的類別

又細分為數個第三階的類別。此 Inspec 文件集的分類架構示意圖如圖 3-1 所示,完整 的分類內容與說明則如表 3-1 所示。本研究僅考慮單階層的分類架構,而且使用第二 階的分類類別。部分第二階的類別雖又細分為數個第三階的類別,因為僅為少數情況,

而非一般性的情況,因此在本研究中,將那些第三階的類別全部併入其所隸屬的第二階 類別中,不再予以細分。

因為本研究在探討運用 LSI 與傳統向量空間法在文件自動分類上的效果,因此為 了簡化所處理的分類問題,僅考慮單一類別的情況,也就是說,只考慮每份文件只能隸 屬單一個類別,而不能同時隸屬多個不同的類別。

依此準則,本研究先從 Inspec 文件集中選出只隸屬於單一類別的文件,至於隸屬 多個類別的文件則捨棄不用。為了確保每個類別中有足夠的文件數量,不致因文件數過 少而影響分類效果,本研究將所含文件數量不足十篇的類別也捨棄,僅選取至少含有十 份文件的類別。經此篩選出的類別共有 38 個,而選用的文件數量為 13827。所選 38 類 別各擁有的文件數量如表 3-2 所示。

原始的 Inspec 文件資料共有 11 個檔案,每一年的資料各為一個檔案。每份文件 除了文件編號以及實際的內容外,還包括了許多輔助性資料,例如文件類型、標題、作 者、期刊或研討會名稱、出版者、類別、關鍵字等資訊。本研究先對 Inspec 文件資料 進行前處理,將每份文件儲存為單一的檔案,如此有利於後續各項實驗步驟的進行。另 外本研究也將各文件中大部分的輔助性資料移除,只保留文件編號、文件標題與實際的 文件內容。文件編號單獨位於文件中的第一行,文件標題位於第二行,文件內容則位於 文件標題之後。

D2000 D4000

D1000 D3000 D5000 5 Categories

43 Categories

7 Categories

圖 3-1 本研究所用文件資料集 Inspec on Disc 的分類架構示意圖。

表 3-1 Inspec 文件集的分類架構。

類別編號 說明

D1000 General & Management aspects of Information Technology (inc. contracts, planning)

D1010 IT consultancy services D1030 IT training requirements

D1040 Human aspects of IT (inc. ergonomics, health hazards, home working) D1050 Legal requirements of IT (inc. liability, regulation, taxation)

D1060 Security aspects of IT (inc. computer crime) D2000 Applications of Information Technology

D2010 Business and professional IT applications (inc. desktop publishing, expert systems, word processing)

D2020 Design and graphics IT applications D2030 Education and training IT applications D2040 Emergency services IT applications D2045 Farming and horticultural IT applications D2050 Financial applications of IT

D2050B IT in accounting

D2050E IT in banking (inc. smart cards)

D2050F IT in financial markets (inc. commodities, foreign exchange, stock markets) D2050G IT in insurance

D2060 Health care applications of IT

D2070 Industrial and manufacturing applications of IT (inc. CIM, FMS, MAP) D2080 Information services and database systems in IT

D2090 Leisure industry, travel and transport applications of IT D2105 Media-TV, radio, press applications of IT

D2110 Personnel applications of IT

D2115 Property market and building industry applications of IT

D2120 Public administration and law applications of IT (inc. government)

D2130 Public utilities’ applications of IT (inc. electricity, gas and water suppliers) D2140 Marketing, retailing and distribution applications of IT (inc. EFTPOS, smart


表 3-1 (續) Inspec 文件集的分類架構。

類別編號 說明

D3000 General Information Technology systems and equipment D3010 Copiers and copy boards for business automation

D3020 Furniture and office environment for business automation D3025 Mailroom systems for business automation

D3030 Microform equipment for business automation

D3035 Monitoring and alarm systems for business automation

D3045 Records management systems for business automation (inc. document image processing, shredders)

D3050 Video systems for business automation

D3060 Voice equipment, dictation for business automation

D4000 Office automation-communications (inc. general communication industry topics, telecommunication networks)

D4010 Television systems for office automation D4020 Electronic mail systems for office automation D4040 Facsimile systems for office automation

D4045 Mobile communications systems for office automation (inc. cellular radio and telephones, radiopaging)

D4060 Teleconferencing systems for office automation D4070 Telephone systems for office automation D4080 Telex for office automation

D4090 Viewdata and teletext for office automation (inc. ٛideotext)

D5000 Office automation – computing (inc. general computing industry topics) D5010 Computers and work stations for office automation

D5010B Portable computers for office automation

D5010D Computer selection guides for office automation D5010G Terminals for office automation

D5020 Computer networks and intercomputer communications in office automation D5030 Printers and other peripherals for office automation

D5040 Supplies, stationery and storage media for office automation

D5050 Word processing equipment for office automation (inc. desktop publishing)

表 3-2 Inspec 文件集所選 38 類別各擁有的文件數量。

分類號 文件數 分類號 文件數 分類號 文件數 分類號 文件數 分類號 文件數 D1010 20 D2050 3650 D2120 161 D3045 383 D4070 277 D1030 62 D2060 489 D2130 40 D3050 15 D5010 1429 D1040 174 D2070 494 D2140 919 D3060 75 D5020 902 D1050 35 D2080 444 D3010 273 D4010 16 D5030 496 D1060 641 D2090 149 D3020 200 D4020 75 D5040 190 D2010 670 D2105 184 D3025 66 D4040 262 D5050 115 D2020 274 D2110 96 D3030 255 D4045 79

D2030 105 D2115 75 D3035 144 D4060 123

經前處理後的文件,內含字數最多的文件含有 304 個字,最少的則含有 12 個字。

每份文件平均含有 81.6 個字。

本研究依循傳統 IR 的方法,將文件區分成訓練文件 (training documents) 與測試 文件 (testing documents),利用訓練文件找出各類別文件的特徵與分類演算法相關的參 數,然後將建構好的分類法用於測試文件,比較其測試後的分類類別與原本正確的分類 類別,經統計後計算分類的正確率。本研究係以隨機方式,選取各類別中 80% 的文件 (共有 11075 份文件) 作為訓練文件,將剩餘的 20% 文件 (共有 2752 份文件) 作為測 試文件。為求研究的結果具有統計上更高的可性度,本研究對相同的文件集選取了兩組 不同的分割方式,也就是兩組不同的訓練與測試文件,分別進行相同的分類處理,並比 較兩者之間的差異。

3.2.2 字根的處理


形容詞與副詞等不同詞性,或是動詞的不同時態等。在傳統 IR 的研究中,為了更精確 掌握不同變形的字詞所具有相同的文意,通常會先對字詞進行字根的處理,也就是說,

將具有相同字根 (stem) 的字視為相同的字。

在 Dumais 等人關發表的 LSI 首篇文獻中,作者表示 LSI 並不直接使用字詞的外 在形式,而是掌握字詞的內涵,可以發掘文件中潛在的語意,因此利用 LSI 處理的文 件,可以無需進行字根的處理。但在其他 LSI 相關的研究中,似乎對此問題進行過深

入的探討,且大部分的 LSI 研究仍會適度地使用字根演算法。

本研究的目的在比較 LSI 法與傳統向量空間法對於文件分類的效果,傳統向量空 間法直接利用字詞的外在形式,因此字根的處理有其必要性。為了兼顧傳統向量空間法 語 LSI 兩者的特性與其對於字根處理的一般原則,本研究對於文件的剖析都進行字根 的處理。

本研究使用的字根處理方法是 M. F. Porter 所提出的「字尾移除演算法」(algorithm for suffix stripping) [39],也就是一般 IR 領域所熟知的 Porter 字根演算法 (Porter’s stemming algorithm)。可進行 Porter 字根處理的程式一般也稱為 Porter’s stemmer。本研 究使用了官方網站所提供的 Perl 版本軟體 [40],進行文件字根的前置處理。
