• 沒有找到結果。

文字探勘(Text Mining)

在文檔中 中 華 大 學 (頁 34-37)

第二章 文獻回顧

2.2 文字探勘技術

2.2.2 文字探勘(Text Mining)

文字探勘亦可稱為文字知識發掘(Knowledge Discovery from Text, KDT)或是文件 資訊探勘(Document Information Mining),其過程目的在從大型資料集合(Data Sets)中 找出隱含的、未知的與具有潛在價值的資訊[20]。

Fayyad[21]認為資料庫知識發掘是由資料中發現並確認有效、未知、並且具有使 用潛力趨勢的一個過程,而資料探勘是資料庫知識發掘最特殊的一個步驟,它可以運 用某些特殊的演算法取出資料中的特徵與模型。

Brachman et al.[22]認為知識發掘所有活動及過程,是為了從資料中找到有用的樣 式,其中凿括運用資料探勘的演算法,以及對於知識的再次處理,並找到解決問題的 關鍵原因。

Han et al.[23]也同樣認為資料探勘為資料庫知識發掘中的一個步驟。並指出資料 庫知識發掘過程凿括資料清理(Data Cleaning)、資料整合(Data Integration)、資料選擇

估(PatternEvaluation)、知識呈現(Knowledge Presentation)等七個步驟,各步驟之意義 說明如下:

一、資料清理:將錯誤、不完整或矛盾的資料去除。

二、資料整合:整合多種資料來源。

三、資料選擇:從資料庫中選取欲分析的資料。

四、資料轉換:透過函總或是程式的方法將資料轉換成適當的格式,以便進行資料探 勘。

五、資料探勘:應用統計或是演算方法萃取出資料的樣式。

六、樣式評估:根據各種標準進行樣式評估,並確認使用者真正感興趣的樣式。

七、知識呈現:將資料探勘的結果以視覺化、統計圖表或是規則的知識呈現技術提供 使用者參考。

圖2.7資料庫知識發掘(Knowledge Discovery in Database)步驟 資料來源:引用自[23]

Dörre 即指出文字探勘具有兩個主要困難點:(1)人工進行多樣且大量的文件特徵 選擇,缺乏效率且不符成本;(2)文件資料的內容維度過多,特徵的屬性不易清楚定 義或界定。因此,相較於資料庫探勘,文字探勘需要函上額外的資料選擇處理程序,

以及複雜的特徵擷取步驟[24]。

曾元顯也指出文字探勘所考量之因素、面臨的挑戰:(1)要能處理大量資料;(2) 要能快速回應,提供互動性;(3)多面向、多維度的分析;(4)高階、視覺化的使用介 面[25]。

在現今時代,許多非結構化(non-structural)或半結構化(semi- structural)的文件資 料中,常常隱藏著許多重要的資訊,因此,這些資料的重要性也將是不容忽視的 16。

本研究的研究對象:專利資料本身即是一種半結構化的資料,專利資料屬於法律文件,

因此,本身凿含一些固定之欄位資料,可供分析運用。然而,不管是半結構化或非結 構化的資料,雖然隱含有有用的資訊,但卻無法利用一般的方法直接分析取得,而必 頇借助一些特殊的技術來輔助,文字探勘(Text Mining)技術即是這種類型的技術,文 字探勘主要是用來處理非結構化或半結構化的資料,因此,能夠幫助使用者從大量的 文件資料中取得合適的資訊[26]。

Dan Sullivan(2001)[27]定義文字探勘為‖一種編輯、組織及分析大量文件的過程,

為了要提供特定使用者特定的資訊,以及發現這些特徵其間的關連。‖由於文件資料 大都不具結構性,所以,無法直接進行分析,必頇先對資料預先做處理,擷取出適當 的資訊後才能進行,也因此,文字探勘整合了一些傳統資訊檢索技術,如:關鍵資訊 擷取、文件自動分類、全文檢索等,使其能對文字資料提供更多的處理,讓使用者能 更方便地從文件資料中取得其所需的資訊。

IBM(1998)將文字探勘中文件分類技術,區分成下列兩種,兩種文件分類技術各 具不同的用途與特點[28],如表 2.4 所示:

表 2.4 IBM 於文字探勘之分類

叢集化(Clustering) 種類化(Categorization) 將龐大的文件集合自動切分成數個小

叢集,並找出每個叢集的主題。整個文 件集合從一個叢集開始切割,不斷地將 相似的文件聚集在一起,而差異較大或 不 同 主 題 的 文 件 則 另 外 再 做 歸 類 處 理,直到最後每個叢集內文件的相似性 最大化,且不同叢集內文件的差異性最 大化為止。

將龐大文件集合中的文件分類到事先定義 好的類別中。與叢集化相同,會利用從文件 資料中擷取出來的特徵與統計資訊做分類 依據,然而,與叢集化不同的地方在於,叢 集 化 分 類 的 類 別 是 自 動 產 生 而 非 事 先 定 義,因此,無法預知分類的類別,而種類化 的分類類別,是事先產生的,且因為其建基 於這樣的架構上,所以,這種分類方法,可 以借助訓練的處理,提升最後分類結果的準 確性。

資料來源:整理自[28]

在文檔中 中 華 大 學 (頁 34-37)