文字探勘

第二章文獻探討

第二節、文字探勘

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

部分需要大量草圖與傳達之問題。

第二節、

根據 Sullivan(2001)定義文字探勘為一種編輯、組織及分析大量文件的方法和過程，為了可提供特定使用者特定的資訊，以及發現特定資訊的特徵之間的關聯。文字探勘的技術還包含了不同領域的技術，如資料探勘、資訊檢索、人工智慧、機器學習、統計…等技術，每個技術都是一個專門的領域，且都有成熟的發展。而文字探勘是利用這些技術從非結構或半結構化的文字內容中萃取出未知、

隱含的知識。

2.2.1. 文件表示法

在資訊檢索系統中，文件通常會將文件以最小單位”詞”的集合所組成，因此文件會被做斷字斷詞的處理來得到詞的集合，文件集經訓練後會得到字典檔(所有文件集中文字的集合)。而文件通常由向量 d={w₁, w₂,.., w_n}表示，意旨視為特徵的字詞出現在每篇文件的現象，此種表示法稱為 bag-of-word 或向量空間模型 (Vector Space Medal)。其中w_i表示字典中的字詞在文件中的權重值，其維度為字典檔字詞的總數。

文件集可由字詞文件矩陣表示，其中w_ij表示字典中第 i 個字詞在第 j 篇文件的權重，如圖 2-1 所示：

圖 2-1 文件集向量

[資料來源: Salton and McGill,1983)]

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.2. 斷詞處理

英文的斷詞的工作相較於中文斷詞並沒有那麼複雜。由於英文的詞與詞之間是接存在著空白字源，因此英文文件只需要透過空格符號分隔就能將每個單字斷開(Nei,1996)。但還是會發生兩種狀況，第一是大部份的文件格式中，標點符號會緊接在詞之後，無空白間隔；第二則是縮寫詞的狀況，常見的縮寫詞如 “I” 與

“am” 縮寫成 “I’m”，“is” 與 “not” 縮寫成 “isn’t”。因此斷詞的工作必須將標點符號與其所鄰接的詞分離，並將縮詞拆開。例如句子 “The stock didn’t rise $5.”

經斷詞後成為 “The stock did n’t rise $5 .” (王俊弘,2003)。

而莊怡軒(2011)在研究英文技術文獻中提到，英文文件會遇到的問題，技術名詞與一般詞彙性質不同，不同專業領域有不同的技術名詞，而技術名詞通常含有知識性及專業知識；非專業領域、不熟悉技術名詞用法的人，如果要認知技術名詞的涵義有其困難性。例如，「adaptation level theory(適應水準理論)」這三個英文詞彙，如果閱讀者具有相關的專業背景，就不會把三個詞彙拆開來閱讀。解決的方法則是建立技術名詞表將專利文句中的技術名詞斷詞。相對設計產品的描述文章中也包含了一些製程技術技術名詞，也是必須考量或著迴避的。

2.2.3. 檢索模式

為了檢索與使用者資訊需求相關的文件，資訊檢索系統需要某些方法來表示 (Represent)文件、資訊需求及它們之間的關係，依照此表示方法，可以設計一排序演算法(Ranking Algorithm)產生所檢索結果，以決定任一文件與資訊需求是否相關；不同的表示方法產生不同的資訊檢索模型，而不同的資訊檢索模型有不同的預測模式，以決定哪些文件相關及哪些文件不相關。至目前為止，過去相關文獻已提出許多種資訊檢索模型，其中布林模型(Boolean Model)及向量空間模型

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(Vector Space Model)為最基本的兩種模型。此兩種模型皆視每一文件由一組索引詞彙所組成，索引詞彙可用以索引及摘要(Summarize)該文件的內容，就描述文件內容的功能而言，並非每一索引詞彙都具有相同的重要性，例如，如果一索引詞出現在每一個文件中，則其變成相對地不重要，因為當使用者以該索引詞查詢所有文件時，檢索系統無法有效分辨哪一個文件較相關，因此，不同的索引詞應該有不同的權重(Weight)以表示其在檢索上重要性。依序介紹布林及向量空間模型如下：

(一)布林模式

布林模式是 Heap(1978)所提出，是資訊擷取的模式中最簡單的，主要是以集合理論(set theory)和布林代數(Boolean algebra)為基礎，布林模式是相當直覺的概念，通常能透過一些關鍵詞與邏輯運算元(Logical operators)所組成的交集、聯集布林語句，來表示使用者想檢所的資訊需求。此模式中只示檢索文字是否存在於同一文件，索引字權重以 0 和 1 表示，若其值為 1 表示此字詞存在於文件中，反之則表示字詞不存在於文件中。因此一個布林表示式的查詢能以分離標準形式 (DNF)來呈現。以圖 2-3 為例，一查詢 q= ka∩ ( kb∪ ¬ kc)，其DNF為qdnf=(1,1,1) ∩ (1,1,0) ∩ (1,0,0)，每個元素都是與(k_a, k_b, k_c有關的二元權重向量，若有一文件d_j 其 DNF 為 df=(0,1,0)，表示文件含有字詞kb，但對於 q= ka∩ ( kb∪ ¬ kc)查詢式來說，d_j會被視為不相關的文件。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2-2 布林模式

[資料來源:吳恩典，2007]

布林模式的缺點是使用非 0 則 1 的二分法表示文件，只關心字詞是否有出現於文件中，因此只能區分文件是否相關，字詞於文件中出現的頻率並不會影響文件與查詢的相關程度，因此結果較不準確。

(二)向量模式

圖 2-3 文件於向量模式表示方式

[資料來源:Salton,1975]

向量模式(Salton and Lesk,1968)彌補了布林模式中二元權重的不足而發展，

且能做到布林模式所無法做到的部分比對。向量模式中索引的字詞並非以二元方

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

式表示，且被用來計算使用者查詢系統每篇文件的相似度，計算後以相似度對文件做排序，則表示文章和使用者查詢的相關程度，即使文件只有部分符合使用者查詢，還是會有相似度的值，因此和布林模式相較之下所能擷取的文件集有更大的彈性。

一篇文件可以文件向量表示，d_j=(w_1j, w_3j, w_3j,…, w_tj)，其中w_ij為字詞k_i於文件d_j中的權重，而查詢可表示為q=(w_1q, w_2q, w_3q,…, w_tq)，同樣w_i為字詞k_i於查詢 q 中的權重值，t 則表示系統中索引字詞的總數量。因此每一篇文件d_j及使用者查詢 q 皆會以 t 維向量表示

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中應用文字探勘技術萃取設計概念之研究 - 政大學術集成 (頁 16-21)

文字探勘

第二章 文獻探討

第二節、 文字探勘

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

文字探勘

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

第二節、文字探勘

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學