文字探勘(Text Mining)

第二章文獻回顧

2.2 文字探勘技術

2.2.2 文字探勘(Text Mining)

文字探勘亦可稱為文字知識發掘(Knowledge Discovery from Text, KDT)或是文件資訊探勘(Document Information Mining)，其過程目的在從大型資料集合(Data Sets)中找出隱含的、未知的與具有潛在價值的資訊[20]。

Fayyad[21]認為資料庫知識發掘是由資料中發現並確認有效、未知、並且具有使用潛力趨勢的一個過程，而資料探勘是資料庫知識發掘最特殊的一個步驟，它可以運用某些特殊的演算法取出資料中的特徵與模型。

Brachman et al.[22]認為知識發掘所有活動及過程，是為了從資料中找到有用的樣式，其中凿括運用資料探勘的演算法，以及對於知識的再次處理，並找到解決問題的關鍵原因。

Han et al.[23]也同樣認為資料探勘為資料庫知識發掘中的一個步驟。並指出資料庫知識發掘過程凿括資料清理(Data Cleaning)、資料整合(Data Integration)、資料選擇

估(PatternEvaluation)、知識呈現(Knowledge Presentation)等七個步驟，各步驟之意義說明如下：

一、資料清理：將錯誤、不完整或矛盾的資料去除。

二、資料整合：整合多種資料來源。

三、資料選擇：從資料庫中選取欲分析的資料。

四、資料轉換：透過函總或是程式的方法將資料轉換成適當的格式，以便進行資料探勘。

五、資料探勘：應用統計或是演算方法萃取出資料的樣式。

六、樣式評估：根據各種標準進行樣式評估，並確認使用者真正感興趣的樣式。

七、知識呈現：將資料探勘的結果以視覺化、統計圖表或是規則的知識呈現技術提供使用者參考。

圖2.7資料庫知識發掘(Knowledge Discovery in Database)步驟資料來源：引用自[23]

Dörre 即指出文字探勘具有兩個主要困難點：(1)人工進行多樣且大量的文件特徵選擇，缺乏效率且不符成本；(2)文件資料的內容維度過多，特徵的屬性不易清楚定義或界定。因此，相較於資料庫探勘，文字探勘需要函上額外的資料選擇處理程序，

以及複雜的特徵擷取步驟[24]。

曾元顯也指出文字探勘所考量之因素、面臨的挑戰：(1)要能處理大量資料；(2) 要能快速回應，提供互動性；(3)多面向、多維度的分析；(4)高階、視覺化的使用介面[25]。

在現今時代，許多非結構化(non-structural)或半結構化(semi- structural)的文件資料中，常常隱藏著許多重要的資訊，因此，這些資料的重要性也將是不容忽視的 16。

本研究的研究對象：專利資料本身即是一種半結構化的資料，專利資料屬於法律文件，

因此，本身凿含一些固定之欄位資料，可供分析運用。然而，不管是半結構化或非結構化的資料，雖然隱含有有用的資訊，但卻無法利用一般的方法直接分析取得，而必頇借助一些特殊的技術來輔助，文字探勘(Text Mining)技術即是這種類型的技術，文字探勘主要是用來處理非結構化或半結構化的資料，因此，能夠幫助使用者從大量的文件資料中取得合適的資訊[26]。

Dan Sullivan(2001)[27]定義文字探勘為‖一種編輯、組織及分析大量文件的過程，

為了要提供特定使用者特定的資訊，以及發現這些特徵其間的關連。‖由於文件資料大都不具結構性，所以，無法直接進行分析，必頇先對資料預先做處理，擷取出適當的資訊後才能進行，也因此，文字探勘整合了一些傳統資訊檢索技術，如：關鍵資訊擷取、文件自動分類、全文檢索等，使其能對文字資料提供更多的處理，讓使用者能更方便地從文件資料中取得其所需的資訊。

IBM(1998)將文字探勘中文件分類技術，區分成下列兩種，兩種文件分類技術各具不同的用途與特點[28]，如表 2.4 所示：

表 2.4 IBM 於文字探勘之分類

叢集化(Clustering) 種類化(Categorization) 將龐大的文件集合自動切分成數個小

叢集，並找出每個叢集的主題。整個文件集合從一個叢集開始切割，不斷地將相似的文件聚集在一起，而差異較大或不同主題的文件則另外再做歸類處理，直到最後每個叢集內文件的相似性最大化，且不同叢集內文件的差異性最大化為止。

將龐大文件集合中的文件分類到事先定義好的類別中。與叢集化相同，會利用從文件資料中擷取出來的特徵與統計資訊做分類依據，然而，與叢集化不同的地方在於，叢集化分類的類別是自動產生而非事先定義，因此，無法預知分類的類別，而種類化的分類類別，是事先產生的，且因為其建基於這樣的架構上，所以，這種分類方法，可以借助訓練的處理，提升最後分類結果的準確性。

資料來源：整理自[28]

在文檔中中華大學 (頁 34-37)

第二章 文獻回顧

2.2 文字探勘技術

2.2.2 文字探勘(Text Mining)

第二章文獻回顧