前置處理 (Preprocessing) - 以SVM與詮釋資料設計書籍分類系統

分類之首要工作在於將雜亂無序的敘述資料，經過整理，成為實驗所需要的資料，

因為若無此項程序，則系統較不易處理資料，且易造成分類成效不彰之結果，因此，

資料前置處理便顯得格外重要。本系統所進行之前置處理包含斷詞切字、詞性標示、

去除標點符號、去除非動詞名詞的單字詞、去除停用字等步驟，如圖 3-2。

圖 3-2 前置處理流程圖

3.2.1. 斷詞切字 (Tokenization)

斷詞切字的目的在於從文字資料中擷取出含有語意的詞鍵。中文書寫系統的一大特色，就是書寫單位「字(Character)」，對應至語言單位的「詞素(Morpheme)」--比「詞 (Word)」還小的單位。然而「詞彙」又是自然語言處理的一個基本單位，因此需要將文件作正確的斷詞，取得含有語意的詞彙，往後的工作才得以進行。然而中文詞的結構，有單字詞、多字詞等多種不同的型態，且中文文件中只有字的界線，詞與詞的界線不明；不像英文，英文詞通常除了極少數的片語(Phrase)外，極大多數都是一個詞 (Word)，就是一個意義單位(Meaning Unit)，因此中文處理起來較英文困難。

自動斷詞大多利用詞典中收錄的詞和文本做比對，找出可能包含的詞，由於存在歧義的切分結果，因此多數的中文分詞程式多著重討論如何解決分詞歧義的問題，而較少討論如何處理詞典中未收錄的詞出現的問題(新詞如何辨認)。

本論文採用中央研究院中文詞知識庫小組(Chinese Knowledge Information Processing Group, CKIP)¹²所研發之中文斷詞系統(包含未知詞擷取與標記)¹³。由於中文詞集是一個開放集合，不存在任何一個詞典或方法可以盡列所有的中文詞，當處理不同領域的文件時，領域相關的特殊詞彙或專有名詞，常常造成斷詞系統因為參考詞彙的不足而產生錯誤的切分。為了解決這個問題，最有效的方法是補充領域詞典，加強詞彙的搜集。因此新的詞彙或關鍵詞的自動抽取成為斷詞的先期準備步驟。領域關鍵詞彙多出現在該領域的文件中而少出現在其它領域，因此抽取關鍵詞時多利用此特性。高頻的關鍵詞比較容易抽取，少數低頻的新詞不容易事先搜集，必須線上辨識。

構詞律(Morphological Rule)、詞素、詞彙及詞彙共現訊息，為線上新詞辨識依據。中研院的中文斷詞系統系統提供了一個解決方案，可以自動抽取新詞建立領域用詞或線上即時斷詞功能，為一具有新詞辨識能力並附加詞類標記功能之中文斷詞系統。此一

12 中文詞知識庫小組(CKIP) http://rocling.iis.sinica.edu.tw/CKIP/

13 中文斷詞系統 http://ckipsvr.iis.sinica.edu.tw/

系統包含一個約拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞(Bigram)類頻率等資料。分詞依據為此一詞彙庫及定量詞(Quantifier)、重疊詞(Reiterative)等構詞規律及線上辨識的新詞，並解決分詞歧義問題。

本論文採用此系統之線上斷詞服務，使用一 API 呼叫，資料的交換方式採用 XML，經由 TCP Socket 連線傳送驗證資訊及文本至伺服器，伺服器經過處理後經由原連線傳回結果。

3.2.2. 詞性判斷 (Part of Speech, POS)

本論文所採用之斷詞系統除斷詞功能外，亦可指定輸出簡化之詞類標記。此系統的線上斷詞處理採用中央研究院資訊科學所詞庫小組所編列的中研院平衡語料庫詞類標記集之「簡化詞類」進而對照精簡成「精簡詞類」列表，詳見附錄一。

經由斷詞系統處理過的文件以 XML 格式傳回結果，對每個擷取出來的詞以括弧標示詞性，每個詞之間以全形空白隔開。

哈佛大學的宗教符號學教授羅柏‧蘭登到巴黎出差的深夜，突然接到一通緊急電話，通知他羅浮宮年高德邵的館長遭人謀殺，就在博物館內，屍體旁邊留下了一個令人困惑的密碼。蘭登與法國美女密碼專家 Sophie Neveu 在整理分析謎團的過程中，驚訝地發現在達文西的作品中藏有一連串的線索。這些線索人人可見，卻被畫家巧妙地偽裝，加以隱藏。

圖 3-3 前置處理實例 — 原文¹⁴

將圖 3-3 的原文輸入 CKIP 中文斷詞系統之後，進行斷詞處理並標示詞類，輸出結果如圖 3-4 所示。

14 摘錄自博客來網路書店《達文西密碼》內容簡介

哈佛(N) 大學(N) 的(T) 宗教(N) 符號(N) 學(Vt) 教授(N) 羅柏‧蘭登(N) 到(Vt) 巴黎(N)

哈佛(N) 大學(N) 宗教(N) 符號(N) 學(Vt) 教授(N) 羅柏‧蘭登(N) 到(Vt) 巴黎(N) 出差(Vi) 前置處理中需要先過濾掉，以達到清理雜訊的目的。本系統參考Oracle Text Reference¹⁵

15 Orcal Text Reference

http://www.utexas.edu/its/unix/reference/oracledocs/v92/B10501_01/text.920/a96518/astopsup.htm#45728

並加以補強，設置繁體中文的停用字一覽表，共90 個停用字。停用字的擇定一來不可太寬鬆，以免降低分類的成效，但又不能太少，以免遺漏重要的資訊，亦會影響分類結果。圖 3-6 為部分停用字的範例。

目前由於因此他們可能沒有希望有關不過可以如果對於因為是否但是相當其中其他雖然我們包括必須以上之後所以以及許多最近至於一般不是不能而且引起如何除了不少最後就是分別加強甚至繼續另外共同只有了解根據已經過去所有不會以來任何一直不同進入並不據了解現在只是需要原因只要否則並未什麼如此不要 …

圖 3-6 停用字範例

將圖 3-5 初步去除標點符號與非名詞、動詞之單字詞的結果，配合停用字一覽表可進一步將圖 3-3 之原文精簡為圖 3-7。

哈佛(N) 大學(N) 宗教(N) 符號(N) 學(Vt) 教授(N) 羅柏‧蘭登(N) 到(Vt) 巴黎(N) 出差(Vi)

在文檔中以SVM與詮釋資料設計書籍分類系統 (頁 43-49)