特徵淬取 - 應用文本探勘技術於公開來源情報分析

一般而言，文件是由自然語言書寫而成，人們的想法與意見透過文字來表達，

然而自然語言文件內容並不容易由電腦直接進行處理，故必須從文件內容中淬取

出重要的特徵(feature)集合來代替原始文件，並將其轉換為向量型式，透過特徵辨別之方法，將自然語言文件標示適當之主題。經由此步驟，可以使系統較容易處理資料；反之，若缺少此步驟，則系統在處理資料上較為不易，且可能導致分群、分類成效不彰。故此步驟之目的在於方便我們將所蒐集之文本資料轉換為適合後續分群與分類訓練使用。以下將所需使用之程序進行說明：

A. 斷詞(segmentation)：

文件本身是由許多的文字與詞彙組合而成，在自然語言(natural language)當中，許多描述式的詞彙對文件本身的涵義並無太大的影響；文件若無經過適當的處理，便無法將文件導入分類、分群演算法中加以應用，且處理程序若不恰當，

亦會造成分類、分群的效果不佳。為實現文件分類、分群之工作，需透過斷詞與斷句的程序，將文件拆解成文字、詞彙或關鍵字的集合，並剔除對文章涵義較薄弱的文字，如無意義的符號與文字，再利用剩餘的詞彙作為文件的特徵進行文件類別之辨別。文件特徵之萃取就是文件經由斷詞步驟將文件拆解成關鍵字之集合，

並初步剔除無意義的符號與文字。

此步驟將原始文件中以字元為基礎之表示法轉換為以字詞(word)為基礎之表示法。拉丁語系之文件(如英文)，字詞和字詞之間通常存在著分隔符號(如標點符號與空白字元)，因此，斷詞較為容易。本研究只針對單一語言文件進行處理，

在此以目標語言英文為例。因已存在許多可用斷詞程式，這部份基本上採取公開原碼程式進行。本研究將使用 Stanford Natural Language Processing Group 所提供的 Stanford Log-linear Part-Of-Speech Tagger[33]軟體進行斷詞。

B. 字詞處理：

文件經由上述斷詞程序後所產生的字詞集合，可以用來代替原始文件，然而這些字詞並非皆同等重要的，有些字詞與該文件之意涵無顯著相關性，部分字詞甚至不具意義；另一方面，過多的字詞將導致分類、分群之演算法效率不彰，故必須選擇較具代表性的字詞做為文件的特徵，以簡化文件之表達與後續之處理，

經過篩選後所餘之字詞，我們也稱之為關鍵字(keyword)。

傳統上，英文關鍵字之選擇包含幾個主要的步驟：停用字去除(stopword elimination)、關鍵字選取(keyword selection)、字根還原(stemming)等。首先，在停用字去除上，停用字是指一些不具太多涵義而又經常出現的字，例如冠詞、介系詞與連接詞等。本研究將採用標準之 Brown corpus 之停用詞集來剔除文件中之停用詞。其次，為關鍵字選取，文件中的語句通常由不同詞性之字詞構成，其中名詞被認為是具有最多意涵之詞性，故要進一步簡化關鍵字之數量時，通常會選擇名詞做為關鍵字。本研究將使用 Stanford Natural Language Processing Group 所提供的 Stanford Log-linear Part-Of-Speech Tagger[33]來進行詞性標記，並選擇名詞做為關鍵字。最後，字根還原部分，由於英文字詞通常會因數量、時態、詞性等因素，而附加某些字首或字尾，透過字根還原程序可以將這些字首、字根去除，使其還原為字根。本研究將採用著名之 Porter 字根還原演算法[34]進行字根還原。

透過上述之標準字詞處理程序，可以簡化英文文件之表達，並降低關鍵字之數量，亦即字彙集(vocabulary)之大小。

C. 文件向量化：

文件簡化為關鍵字後，必須將其轉化為一向量以供後續程序使用。本研究將採用由 Salton[35]等人提出之向量空間模型(vector space model, VSM)進行轉換。

向量空間模型為目前廣為使用且受大部分研究者接受之方式，藉由關鍵字與文件組合成之「關鍵字—文件」矩陣(term-document matrix)，可利於機器方便閱讀並 加快系統之執行效能。圖 3-2 為一個具有 i 個關鍵字與 j 份文件之「關鍵字—文 件」矩陣。其中 w_ij為關鍵字 i 在文件 j 中的權重值。

 document frequency, idf)，是衡量一個詞語普遍重要性的度量。

 

T t_i

 

多資料分群方法，如常用之 k-means、k-nearest neighbors 等。本研究將選擇自我 組織圖(self-organizing map)作為關聯性分析之方法，原因為其具有頗佳的分群效能，且能將高維度資料間之拓樸關係呈現於二維的平面上。這點有利於我們去發掘資料間之關聯。

A. 自我組織圖訓練

自我組織圖演算法由 Kohonen[36]在 1982 所提出，為一種非監督式學習網路模式。其能將文件分佈以視覺化方式呈現，把需要分析的文件進行自我組織圖訓

在文檔中應用文本探勘技術於公開來源情報分析 (頁 20-24)