文字探勘過程

第二章文獻探討

第三節資料探勘與文字探勘

2.3.4 文字探勘過程

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

一，文字要如何量化成我們可以從中找出文件之間相關性的數值，也就是如何轉換成結構量化指標來代表文件；第二，因為資料來源的不同，每個文件中都有屬於作者自己的寫作風格，如何能夠降低資料之間的差異性；第三，

文件中可能包含不同的語言，如何處理這些不同語言也是需要注意的。

2.3.4 文字探勘過程

在我們從文字中要去發掘出我們需要的資料之前有幾個過程需要經歷 的，以下個別說明。

一、斷詞處理

中文與英文的斷詞都有各自的難處。中文斷詞的難處在於中文獨立的字未必是有意義的單位，字詞與字詞間沒有明顯的邊界(喻欣凱，

2008)；而英文斷詞部分，雖然 Nie(1996)表示印歐語系文件在詞與詞之間以空白及其他符號隔開，因此斷詞僅需透過空格或其他符號的分隔便能將每一個單字斷開成為獨立詞彙；但是我們也會遇到類似“demand deposit(活期存款)”的專有名詞，因為單看 demand 為“需求的” 的意思，

而 deposit 為“存款” 的意思，還是得經由看過的人或建立專有名詞庫才會知道兩個字合起來是“活期存款”的意思，而可以斷成專有名詞。

但是本研究不考慮這種狀況發生，因為通常專有名詞都會連在一起出現，因此，如果像是“demand”出現，而英文文章中若要表示“活期存款”意思的話，自然就會把“deposit”接在後面。所以本論文中的斷詞則主要是依照英文詞與詞中間的空白特性與標點符號下去處理的。

二、文件特徵選擇

文件在斷詞處理之後，為了能夠增加效率，減少計算複雜度，通常會先移除文件中不具代表性的詞彙，找出特徵值(Liu & Motoda, 1998)。

在許多種選擇特徵值的方式當中，最常見的挑選方法為 TF-IDF(Term-Frequency ─ Inverse-Document-Frequency)(Salton &

Buckley, 1988)。

1. TF(Term Frequency)代表詞彙頻率。在一份文件當中，TF 代表

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

說一個特定詞彙在該文件當中出現的次數，用以代表這個詞在此文件中重要的程度。越重要的詞彙就會一直反覆出現在文件當中，所以如果詞彙頻率越高的話，也就越能代表文件要表達的概念。

2. IDF(Inverse Document Frequency)代表反向文件頻率。因為當一個詞彙出現的越頻繁的話(在這邊是指出現在一個文件集合當中，有幾件文件出現過此詞彙)，就會顯得它太過普遍而越不重要。

3. TF-IDF 所代表的是將上述兩個所算出來的值相乘。意義是與在文件中出現字詞的次數成正比，但與在所有文件集合中出現的文件數成反比。

三、向量空間模型

為了能夠比較文件之間的相關性，需要將半結構化或非結構化的文件進行處理，處理成能夠比較的表示方式。最常被使用的方法是 Salton(1975)等人所提出的向量空間模型(Vector Space Model, VSM)，主要的概念在於把每個詞彙所計算出來的權重(前面所提到的 TF-IDF 值) 當作代表文章的其中一個特徵值，代表這個詞彙在這篇文章的重要性有多高，而每一個特徵值在空間向量中都代表一個維度，因此當這些權重組合起來成特徵向量(Feature Vector)時，就可以代表一篇文章在空間中的位置。如圖 2-2 所示，在這個三維的空間當中，有三篇文章，W_ij代表在地 i 篇文章 j 個詞的權重值，因為一篇文章中每個詞所算出來的權重是不一樣的，故在空間中的位置亦不相同。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2-2 向量空間模型示意圖 四、文件相似度計算

將文件用向量空間模型表達後，可以藉由各種距離的計算公式來算出文件之間的相似程度，例如尤拉距離(Euclidean distance)、曼哈頓距離(Manhattan distance)。而在空間向量模型當中最常被使用來計算兩文件之間距離的的方式是計算它們向量之間的夾角，若是夾角越小，則代表兩文件越相近；若是夾角越大，則代表兩文件越不相近。

五、分類方法 ─ k 個最近鄰演算法(k-Nearest Neighbor)

T.M. Cover and P.E. Hart 於 1967 年所提出的 k 個最近鄰演算法，到現在還是最常用的分類演算法的其中一個。kNN 的概念為未知類別的資料與「同類型資料的相似度」應該要比「不同類型資料的相似度」高 (陳柏均，2011)。如圖 2-3 所示，如果在二為空間中有三群資料：藍、

綠、橘，而現在有一個點尚未分類(圖中為紅色點)，而我的 k 值如果是 7 的話，也就是我需要去抓取最接近紅色的 7 個點(如圖中灰色虛線所連接的點)，最後去計算這圖中最接近的這 7 個點當中那類的點最多，就把紅點分為該類，此圖的紅點就屬於藍色類，因為 7 個點中有 4 個點都是藍色。

D2=(W21, W22, W23)

D1=(W11, W12, W13)

D3=(W31, W32, W33)

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

圖 2-3 kNN 概念圖步驟大致如下所示：

1. 新進的點與各類的點相互計算出距離。

2. 排列出前 k 個最近的點。

3. 計算哪一類的點最多或是平均距離最小者。(此處有時需要設定大於某門檻值，才可加入類別中，要不然就要成為新的類別。)

在文檔中應用文字探勘技術於英文文章難易度分類 - 政大學術集成 (頁 24-27)

第二章 文獻探討

第三節 資料探勘與文字探勘

2.3.4 文字探勘過程

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

第三節資料探勘與文字探勘

立政治大學

立政治大學

立政治大學

立政治大學