文字探勘

第二章文獻探討

第二節文字探勘

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

因此，從上述相關文獻可得知：團購消費者會受到參考群體的口碑及從眾行為的影響而改變其團購的消費意願。

此外，根據資策會市場情報中心(MIC)調查台灣網友上網購物行為模式(資策會，2007)發現，台灣網友上網購物行為模式以搜尋商品資訊與比價行為最普遍，

且非常多數的網友會瀏覽部落格網誌的商品資訊作為購物決策的參考。

綜上述論點，本研究鎖定網友所撰寫的團購美食網誌為資料來源進行分析，

團購美食網誌為網路口碑傳播的熱門管道，且網友在購物前也會瀏覽其作為購物時的決策參考，因此本研究將透過顧客團購網誌，從顧客的角度來歸納產品特性，

替產品進行分群，使得偏好某特性商品的團購網友可以更容易找到感興趣的商品。

第二節文字探勘

2.2.1 文字探勘定義

部落格網誌為非結構化的資料，其需透過文字探勘的技術來將資訊萃取出來。

巫啟台(2002)提出『文件探勘』(Text Minin)是『從非結構化的文字中發掘出有用的或是有趣的片段、模型、方向、趨勢或規則』。文字探勘試圖從文件資料中找出重要的項目(Term)或片語(Phrase)、項目間的關聯強度(Association Degree)或是分類和推論規則(Classification or Prediction Rule)。文字探勘是針對非結構化 (Non-structured)或半結構化(Semi-structured)的文件資料加以分析，有效率地從大量文字性資料中整理出有用的資訊，以將文件中所隱藏的珍貴知識萃取出來。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.2 斷詞處理

在對文字性資料進行文字探勘前，這些資料必須先經過資料前處理的動作，

而資料前處理的首要步驟，便是對文字性資料進行斷詞處理。印歐語系文件的斷詞處理與中文文件的斷詞處理有很大的不同之處，印歐語系文件在詞與詞之間以空白及其他符號隔開，因此斷詞僅需透過空格或其他符號的分隔便能將每一個單字斷開成為獨立詞彙(Nie，1996)，而中文文件是由字與標點符號以非結構化的方式所組成，單一的字元未必能成為有意義的單位，字詞與字詞間沒有明顯的邊界(喻欣凱，2008)。

中文文件的斷詞方式主要可分為三種：詞庫式斷詞法、統計式斷詞法以及混合式斷詞法，其說明如下：

(一) 詞庫式斷詞法(Chen，1992)

為目前最普遍的斷詞方式，其演算法直覺且較容易實作，主要概念為利用事先建立的詞庫與文件中的詞彙進行比對，以完成斷詞動作。由於斷詞的品質和詞庫的品質有相當大的關係，因此必須時常對詞庫的內容加以維護及更新。

(二) 統計式斷詞法(Sproat，1990)

依據大型的語料庫(corpus)上的統計資訊，以統計資訊的高低來當作斷詞的依據。優點是不受到詞庫大小詞量多寡的限制，缺點在於語料庫是屬於領域相關 (Domain dependent)，因此不同語料庫間的統計資訊不適合互用(Nie，1996)。另一方面，統計式斷詞法有斷詞長度上的限制，其主要著重在二字詞的研究，因此無法完整斷出長辭彙(曾元顯，2002)。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(三) 混合式斷詞法(Nie，1996)

其整合了詞庫式斷詞法及統計式斷詞法。此方式為利用詞庫斷出不同組合的詞彙，然後以字詞的統計資訊，找出最佳的斷詞組合。此法仍需要大型的語料庫提供統計資訊。

中央研究院中文詞知識庫小組(Chinese Knowledge Information Processing Group，CKIP)所開發的中文斷詞系統是採用混合式斷詞法，其將使用者所輸入之文章或句子自動斷詞後在標示出每個詞彙的詞類標記。該系統包含一個約拾萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞，並解決分詞歧義問題。

除了基本詞彙庫外，使用者可依需要附加領域專屬詞庫。詞類標記為選擇性功能，

可附加文本中切分詞的詞類解決詞類歧義並猜測新詞之詞類。分詞系統採用之詞典俱可擴充性，使用者可依據不同領域文件，補充以領域詞典做為分詞之用(中央研究院，2012)。

斷詞服務系統的內部處理採用中央研究院中文詞知識庫小組所編列的中研院平衡語料庫詞類標記集之簡化詞類，而斷詞服務系統採用精簡詞類標記，如下表所示：

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

要從文件中擷取出代表文件的特徵詞彙，可以透過詞彙的出現頻率、出現位置或是詞彙的特性來衡量。一般較常採用的方法為 Salton(1983)所提出的 TF-IDF (Term Frequency–Inverse Document Frequency)字詞權重計算，TF(Term Frequency) 為詞彙頻率，計算特徵詞彙在一篇文件中出現的頻率，數值越高代表該特徵詞彙在文件中越重要。一般來說，文件中的高頻詞彙與文件有相當高之關聯，為文件的重要特徵詞。但如果該高頻詞彙不只在該篇文件中出現頻率很高，且在所有文件中的出現次數都很高，則代表此詞彙太過普遍，不具代表性，為了避免擷取到不具代表性的詞彙，因此除了考慮 TF 值之外，還需考量逆向文件頻率(Inverse Document Frequency，IDF)。逆向文件頻率是以該詞彙出現在其他文件中的次數多寡來衡量，數值越低代表該詞彙越能將某文件與其他文件區別，因此越具代表性。 TF-IDF 為 TF 與 IDF 之平衡指標，同時考慮兩者的特性來衡量詞彙在文件中的重要程度，以挑選出具代表性之重要特徵詞彙。

2.2.4 向量空間模型

在文字探勘的領域中，向量空間模型是目前最廣為使用的資訊檢索模式(戴尚學，2003)。向量空間模型由 Gerard Salton 所提出(Salton，1975)，其目的在於將文件轉化成字詞索引的集合，每個字詞皆給予權重值(Weight)，以表達每個字在文件中的重要程度，而最常用的權重計算方式為前述 TF-IDF 計算。下圖 2-1 為向量空間模型圖，在文件集中，每篇文件以一組向量表示，維度代表關鍵字詞，

而維度的數值則代表該字詞的權重。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

(資料來源：Salton et al，1975) 圖 2-1 向量空間模型

為了便於文件與文件之間特徵詞彙權重值之比較，可將向量空間模型轉成以

「詞彙─文件矩陣」形式來表示文件與詞彙間之關係。如下圖 2-2 所示，每一列代表一篇文章，每一欄代表一個特徵詞彙，而文章與詞彙對應到的元素(W)為權重，即該篇文章某特徵詞彙之權重值。

(資料來源：Salton & Gill，1983) 圖 2-2 詞彙─文件矩陣

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中應用文字探勘分析網路團購商品群集之研究－以美食類商品為例 - 政大學術集成 (頁 15-21)

第二章 文獻探討

第二節 文字探勘

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二節 文字探勘

2.2.1 文字探勘定義

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.2 斷詞處理

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.2.4 向量空間模型

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章文獻探討

第二節文字探勘

立政治大學

第二節文字探勘

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學