第三章 研究方法
3.1 語料處理
語料分為維基百科內文及著作篇名。我們利用維基百科內文建立詞彙對各研 究領域的重要性並透過向量空間表示,在將著作篇名中的詞彙對應至向量空間並 計算著作篇名與各領域的相識度。維基百科內文及著作篇名中充斥著許多不重要 或具相同意義的詞彙,因此我們對語料進行過濾及詞幹處理。
維基百科是近年來快速發展的超文字系統,也可以解讀為屬於人類知識的網 路系統。維基百科透過使用者編輯各個不同領域的專業知識,漸漸地成為具有豐 富內文的語料。藉由此具有詳盡描述與維護的語料中,我們利用維基百科在電腦 科學領域中的描述及介紹作為分類的依據。維基百科對資訊工程領域分成十三大
類,再將十三大類分為六十八小類。如圖 3 所示。我們擷取維基百科2中對這六
十八類的描述,如圖 4 所示。維基百科中對各類別的描述包含定義、問題、
發展、延伸議題...等。
圖 3:維基百科資訊科學分類
8
圖 4:維基百科內文
我們收集台灣大學、清華大學、交通大學、成功大學、中央大學、中央研究 院,每位資訊領域研究者(共 266 位),我們從各研究者個人網頁中擷取歷年著作 篇名(共 16,981 篇),如圖 5 所示。
圖 5:個人著作篇名
著作篇名及研究領域由數個名詞片語或單字詞組成,為了有效找出著作篇名 與研究領域所屬類別。我們將語料分別利用單字詞及名詞片語對領域類別進行實 驗。
9
3.1.1 單字詞
我們收集六十八篇維基百科內文,其中包含 102,652 個詞彙,扣除重複詞彙 共有 10,781 個詞彙,以及 16,981 著作篇名,其中包含 159,088 個詞彙,扣除掉 重複詞彙共有 13,078 個詞彙。收集語料數據如表 2 所示。由於語料中包含許多 無意義或是具有相同詞義的詞彙。所以,我們對收集的語料,進行前置處理,其 中包含過濾語料中不重要的詞彙,以及針對詞彙的詞幹擷取。其流程如圖 6 所 示。
表 2:收集語料統計
圖 6:單字詞前處理流程圖
過濾器目的在於去除語料中不重要的詞彙,例如:連接詞(and)、輕動詞(be)...
等。我們使用 Stopwords3資料庫(共 571 個詞彙)過濾掉通用詞彙。最後六十八篇 維基百科內文,其中包含 101,917 個詞彙,扣除重複詞彙共有 10,739 個詞彙,以 及 16,981 著作篇名,其中包含 118,926 個詞彙,扣除掉重複詞彙共有 13,368 個 詞彙。過濾結果如表 3 所示。
表 3:過濾器處理結果
3 ftp://ftp.s.cornell.edu/pub/smart/english.stop
類別 詞彙個數 詞彙不重複個數
維基百科內文(68 篇) 102,652 10,781
著作篇名(16,981 篇) 159,088 13,078
類別 詞彙個數 詞彙不重複個數
維基百科內文(68 篇) 101,917 10,739 著作篇名
維基百科內文
Stopwords3 Stemming
10
詞幹處理目的在對於針對不同詞彙但其詞幹所表示是相同的詞彙。例 如:stemming、stemmer、stemmed 三個詞彙的詞幹都是 stem。經過詞幹處理後都 會被表示為詞幹。我們使用 Porter stemming algorithm[Porter,1980]處理詞幹問題。
最後六十八篇維基百科內文,其中包含 101,917 個詞彙,扣除重複詞彙共有 10,672 個詞彙,以及 16,981 著作篇名,其中包含 118,926 個詞彙,扣除掉重複詞彙共有 10,126 個詞彙。詞幹處理結果如表 4 所示。
表 4:詞幹處理結果
經由前置處理後,我們收集六十八篇維基百科內文,其中將 102,652 個詞彙 中取出 101,917 個詞彙,扣除原本 0.7%的詞彙量,另外在不重複詞彙中將 10,781 個詞彙中取出 10,672 個詞彙,扣除原本 1.0%的詞彙量。另外在 16,981 著作篇名,
其中將 159,088 個詞彙中取出 118,926 個詞彙,扣除原本 25.2%的詞彙量,另外 在不重複詞彙中將 13,078 個詞彙中取出 10,126 個詞彙,扣除原本 22.6%的詞彙 量。單字詞前置處理結果如表 5 所示。
表 5:單字詞前置處理結果
類別 處理前 處理後
維基百科 詞彙個數 102,652 101,917
詞彙不重複個數 10,781 10,672
著作篇名 詞彙個數 159,088 118,926
詞彙不重複個數 13,078 10,126
最後,經由前置處理後,有 52.49%的著作篇名,詞彙個數介於六至八個字。
每篇著作篇名包含的詞彙個數如表 6 所示。
表 6:著作篇名的詞彙個數
詞彙個數 著作篇名篇數(比例)
≦4 444(0.03%)
5 1,375(8.10%)
6 2,555(15.05%)
7 3,265(19.23%)
8 3,092(18.21%)
9 2,509(14.78%)
著作篇名(16,981 篇) 118,926 13,368
類別 詞彙個數 詞彙不重複個數
維基百科內文(68 篇) 101,917 10,672 著作篇名(16,981 篇) 118,926 10,126
11
10 1,677(9.88%)
11 1,051(5.98%)
≧12 1,049(6.18%)
3.1.2 名詞片語
我們將維基百科內文、論文著作篇名,利用 Stanford parser4取出句子中的名 詞片語。經由 Stanford parser 的詞性標記、樹狀結構,從中取出(NP)。
例:Intent Boundary Detection in Search Query Logs.
從上述的樹狀結構中,我們取出兩個名詞片語 Intent Boundary Detection 以及 Search Query Logs。
我們將六十八篇維基百科內文以及著作篇名,從中取出所有名詞片語。最後 結果如表 7 所示。
表 7:名詞片語統計
每篇著作篇名,經由 Stanford parser 取出名詞片語後。有超過七成的著作篇 名含有三或四個名詞片語。每篇著作篇名包含的名詞片語個數如表 8 所示。
4 http://nlp.stanford.edu/software/lex-parser.shtml
類別 名詞片語個數 名詞片語不重複個數
維基百科內文 49,324 25,697
著作篇名 66,777 31,273
詞性標記:Intent/NNP Boundary/NNP Detection/NNP in/IN Search/NNP Query/NNP Logs/NNPS ./.
12