語料處理

第三章研究方法

3.1 語料處理

語料分為維基百科內文及著作篇名。我們利用維基百科內文建立詞彙對各研究領域的重要性並透過向量空間表示，在將著作篇名中的詞彙對應至向量空間並計算著作篇名與各領域的相識度。維基百科內文及著作篇名中充斥著許多不重要或具相同意義的詞彙，因此我們對語料進行過濾及詞幹處理。

維基百科是近年來快速發展的超文字系統，也可以解讀為屬於人類知識的網路系統。維基百科透過使用者編輯各個不同領域的專業知識，漸漸地成為具有豐富內文的語料。藉由此具有詳盡描述與維護的語料中，我們利用維基百科在電腦科學領域中的描述及介紹作為分類的依據。維基百科對資訊工程領域分成十三大

類，再將十三大類分為六十八小類。如圖 3 所示。我們擷取維基百科²中對這六

十八類的描述，如圖 4 所示。維基百科中對各類別的描述包含定義、問題、

發展、延伸議題...等。

圖 3:維基百科資訊科學分類

圖 4:維基百科內文

我們收集台灣大學、清華大學、交通大學、成功大學、中央大學、中央研究院，每位資訊領域研究者(共 266 位)，我們從各研究者個人網頁中擷取歷年著作篇名(共 16,981 篇)，如圖 5 所示。

圖 5:個人著作篇名

著作篇名及研究領域由數個名詞片語或單字詞組成，為了有效找出著作篇名與研究領域所屬類別。我們將語料分別利用單字詞及名詞片語對領域類別進行實驗。

3.1.1 單字詞

我們收集六十八篇維基百科內文，其中包含 102,652 個詞彙，扣除重複詞彙共有 10,781 個詞彙，以及 16,981 著作篇名，其中包含 159,088 個詞彙，扣除掉重複詞彙共有 13,078 個詞彙。收集語料數據如表 2 所示。由於語料中包含許多無意義或是具有相同詞義的詞彙。所以，我們對收集的語料，進行前置處理，其中包含過濾語料中不重要的詞彙，以及針對詞彙的詞幹擷取。其流程如圖 6 所示。

表 2:收集語料統計

圖 6:單字詞前處理流程圖

過濾器目的在於去除語料中不重要的詞彙，例如:連接詞(and)、輕動詞(be)...

等。我們使用 Stopwords³資料庫(共 571 個詞彙)過濾掉通用詞彙。最後六十八篇維基百科內文，其中包含 101,917 個詞彙，扣除重複詞彙共有 10,739 個詞彙，以及 16,981 著作篇名，其中包含 118,926 個詞彙，扣除掉重複詞彙共有 13,368 個詞彙。過濾結果如表 3 所示。

表 3:過濾器處理結果

3 ftp://ftp.s.cornell.edu/pub/smart/english.stop

類別詞彙個數詞彙不重複個數

維基百科內文(68 篇) 102,652 10,781

著作篇名(16,981 篇) 159,088 13,078

類別詞彙個數詞彙不重複個數

維基百科內文(68 篇) 101,917 10,739 著作篇名

維基百科內文

Stopwords³ Stemming

詞幹處理目的在對於針對不同詞彙但其詞幹所表示是相同的詞彙。例如:stemming、stemmer、stemmed 三個詞彙的詞幹都是 stem。經過詞幹處理後都會被表示為詞幹。我們使用 Porter stemming algorithm[Porter,1980]處理詞幹問題。

最後六十八篇維基百科內文，其中包含 101,917 個詞彙，扣除重複詞彙共有 10,672 個詞彙，以及 16,981 著作篇名，其中包含 118,926 個詞彙，扣除掉重複詞彙共有 10,126 個詞彙。詞幹處理結果如表 4 所示。

表 4:詞幹處理結果

經由前置處理後，我們收集六十八篇維基百科內文，其中將 102,652 個詞彙中取出 101,917 個詞彙，扣除原本 0.7%的詞彙量，另外在不重複詞彙中將 10,781 個詞彙中取出 10,672 個詞彙，扣除原本 1.0%的詞彙量。另外在 16,981 著作篇名，

其中將 159,088 個詞彙中取出 118,926 個詞彙，扣除原本 25.2%的詞彙量，另外在不重複詞彙中將 13,078 個詞彙中取出 10,126 個詞彙，扣除原本 22.6%的詞彙量。單字詞前置處理結果如表 5 所示。

表 5:單字詞前置處理結果

類別處理前處理後

維基百科詞彙個數 102,652 101,917

詞彙不重複個數 10,781 10,672

著作篇名詞彙個數 159,088 118,926

詞彙不重複個數 13,078 10,126

最後，經由前置處理後，有 52.49%的著作篇名，詞彙個數介於六至八個字。

每篇著作篇名包含的詞彙個數如表 6 所示。

表 6:著作篇名的詞彙個數

詞彙個數著作篇名篇數(比例)

≦4 444(0.03%)

5 1,375(8.10%)

6 2,555(15.05%)

7 3,265(19.23%)

8 3,092(18.21%)

9 2,509(14.78%)

著作篇名(16,981 篇) 118,926 13,368

類別詞彙個數詞彙不重複個數

維基百科內文(68 篇) 101,917 10,672 著作篇名(16,981 篇) 118,926 10,126

10 1,677(9.88%)

11 1,051(5.98%)

≧12 1,049(6.18%)

3.1.2 名詞片語

我們將維基百科內文、論文著作篇名，利用 Stanford parser⁴取出句子中的名詞片語。經由 Stanford parser 的詞性標記、樹狀結構，從中取出(NP)。

例:Intent Boundary Detection in Search Query Logs.

從上述的樹狀結構中，我們取出兩個名詞片語 Intent Boundary Detection 以及 Search Query Logs。

我們將六十八篇維基百科內文以及著作篇名，從中取出所有名詞片語。最後結果如表 7 所示。

表 7:名詞片語統計

每篇著作篇名，經由 Stanford parser 取出名詞片語後。有超過七成的著作篇名含有三或四個名詞片語。每篇著作篇名包含的名詞片語個數如表 8 所示。

4 http://nlp.stanford.edu/software/lex-parser.shtml

類別名詞片語個數名詞片語不重複個數

維基百科內文 49,324 25,697

著作篇名 66,777 31,273

詞性標記:Intent/NNP Boundary/NNP Detection/NNP in/IN Search/NNP Query/NNP Logs/NNPS ./.

在文檔中台灣資訊研究者的學術網路 (頁 15-20)

第三章 研究方法

3.1 語料處理

3.1.1 單字詞

3.1.2 名詞片語

第三章研究方法