• 沒有找到結果。

一般而言,文件是由自然語言書寫而成,人們的想法與意見透過文字來表達,

然而自然語言文件內容並不容易由電腦直接進行處理,故必須從文件內容中淬取

出重要的特徵(feature)集合來代替原始文件,並將其轉換為向量型式,透過特徵 辨別之方法,將自然語言文件標示適當之主題。經由此步驟,可以使系統較容易 處理資料;反之,若缺少此步驟,則系統在處理資料上較為不易,且可能導致分 群、分類成效不彰。故此步驟之目的在於方便我們將所蒐集之文本資料轉換為適 合後續分群與分類訓練使用。以下將所需使用之程序進行說明:

A. 斷詞(segmentation):

文件本身是由許多的文字與詞彙組合而成,在自然語言(natural language)當 中,許多描述式的詞彙對文件本身的涵義並無太大的影響;文件若無經過適當的 處理,便無法將文件導入分類、分群演算法中加以應用,且處理程序若不恰當,

亦會造成分類、分群的效果不佳。為實現文件分類、分群之工作,需透過斷詞與 斷句的程序,將文件拆解成文字、詞彙或關鍵字的集合,並剔除對文章涵義較薄 弱的文字,如無意義的符號與文字,再利用剩餘的詞彙作為文件的特徵進行文件 類別之辨別。文件特徵之萃取就是文件經由斷詞步驟將文件拆解成關鍵字之集合,

並初步剔除無意義的符號與文字。

此步驟將原始文件中以字元為基礎之表示法轉換為以字詞(word)為基礎之 表示法。拉丁語系之文件(如英文),字詞和字詞之間通常存在著分隔符號(如標點 符號與空白字元),因此,斷詞較為容易。本研究只針對單一語言文件進行處理,

在此以目標語言英文為例。因已存在許多可用斷詞程式,這部份基本上採取公開 原碼程式進行。本研究將使用 Stanford Natural Language Processing Group 所提供 的 Stanford Log-linear Part-Of-Speech Tagger[33]軟體進行斷詞。

B. 字詞處理:

文件經由上述斷詞程序後所產生的字詞集合,可以用來代替原始文件,然而 這些字詞並非皆同等重要的,有些字詞與該文件之意涵無顯著相關性,部分字詞 甚至不具意義;另一方面,過多的字詞將導致分類、分群之演算法效率不彰,故 必須選擇較具代表性的字詞做為文件的特徵,以簡化文件之表達與後續之處理,

經過篩選後所餘之字詞,我們也稱之為關鍵字(keyword)。

傳統上,英文關鍵字之選擇包含幾個主要的步驟:停用字去除(stopword elimination)、關鍵字選取(keyword selection)、字根還原(stemming)等。首先,在 停用字去除上,停用字是指一些不具太多涵義而又經常出現的字,例如冠詞、介 系詞與連接詞等。本研究將採用標準之 Brown corpus 之停用詞集來剔除文件中 之停用詞。其次,為關鍵字選取,文件中的語句通常由不同詞性之字詞構成,其 中名詞被認為是具有最多意涵之詞性,故要進一步簡化關鍵字之數量時,通常會 選擇名詞做為關鍵字。本研究將使用 Stanford Natural Language Processing Group 所提供的 Stanford Log-linear Part-Of-Speech Tagger[33]來進行詞性標記,並選擇 名詞做為關鍵字。最後,字根還原部分,由於英文字詞通常會因數量、時態、詞 性等因素,而附加某些字首或字尾,透過字根還原程序可以將這些字首、字根去 除,使其還原為字根。本研究將採用著名之 Porter 字根還原演算法[34]進行字根 還原。

透過上述之標準字詞處理程序,可以簡化英文文件之表達,並降低關鍵字之 數量,亦即字彙集(vocabulary)之大小。

C. 文件向量化:

文件簡化為關鍵字後,必須將其轉化為一向量以供後續程序使用。本研究將 採用由 Salton[35]等人提出之向量空間模型(vector space model, VSM)進行轉換。

向量空間模型為目前廣為使用且受大部分研究者接受之方式,藉由關鍵字與文件 組合成之「關鍵字—文件」矩陣(term-document matrix),可利於機器方便閱讀並 加快系統之執行效能。圖 3-2 為一個具有 i 個關鍵字與 j 份文件之「關鍵字—文 件」矩陣。其中 wij為關鍵字 i 在文件 j 中的權重值。

 document frequency, idf),是衡量一個詞語普遍重要性的度量。

 

T ti

 

多資料分群方法,如常用之 k-means、k-nearest neighbors 等。本研究將選擇自我 組織圖(self-organizing map)作為關聯性分析之方法,原因為其具有頗佳的分群效 能,且能將高維度資料間之拓樸關係呈現於二維的平面上。這點有利於我們去發 掘資料間之關聯。

A. 自我組織圖訓練

自我組織圖演算法由 Kohonen[36]在 1982 所提出,為一種非監督式學習網路 模式。其能將文件分佈以視覺化方式呈現,把需要分析的文件進行自我組織圖訓

相關文件