文件前置處理

三研究方法

3.2 文件前置處理

資料前置處理(data preprocessing)是在文件內容中淬取重要的特徵集合來替代原始文件，而後透過特徵(feature)辨識的方法，將自然語言文件標示適當的主題類別；若缺少此項步驟，則因包含過多無效文件，而導致分類效果不佳之結果。

本研究將針對社會網路之文字訊息發展適合的前置處理方法，目的在於將原始的文件轉換為一文件向量以供後續分群訓練使用。此轉換之過程包含下列步驟：

3.2.1 斷詞

文件本身是由許多文字與詞彙組合而成，在自然語言(natural language)當中，

許多描述式的詞彙對文件本身的涵義並無太大的影響；如果文件無經過適當的處理，變無法將文件導入分類、分群演算法中加以應用，且如程序處理的不合宜，

將導致分類、分群的效果不佳。為實現分類、分群之工作，需透過斷詞與斷句的程序，將文件拆解成文字、詞彙或關鍵字的集合，並剔除對文章涵義較薄弱的文字，如無意義的文字與符號，再利用剩餘的詞彙作為文章的特徵進行文件類別之

辨識。文章的特徵淬取就是文件經由斷詞的步驟將文件拆解成關鍵字集合，且剔除無意義的符號與文字。

此步驟主要將原始文件中以字元為基礎之表示法轉換為以字詞(word)為基礎之表示法。拉丁語系之文件(如英文)，字詞和字詞之間通常存在著分隔符號(如標點符號或空白字元)，因此，斷詞較為容易。本研究只針對單一語言訊息進行斷詞處理，在此目標語言為英文，因市面上已存在許多可利用之斷詞程式，這部分將採取公開原始碼程式進行。

3.2.2 字詞處理

經過上述斷詞程序後，文件可以其所包含之字詞集合所表示，然而這些字詞的重要性權重並非相等，有些字詞與該文件之涵義並無顯著之相關性，部分字詞甚至不具意涵；另一方面，過多的字詞也將導致分類、分群之演算法效果不彰，

故必須選擇從文件之中挑選較具代表性的字詞作為文件的特徵、以簡化文件之表達與後續之處理，經過篩選過後之字詞，我們也稱之為關鍵字(keyword)。

傳統上，英文關鍵字之選擇包含幾個主要的步驟：停用字的去除(stopword elimination)、關鍵字選取等。首先停用字去除方面，一般在處理文字文件時為了降低關鍵字數量常會將一些不具太多涵義又經常出現的常用字做去除的動作，例如冠詞、介系詞與連接詞等。然而在情緒表達時有些常用字卻包含重要訊息，例如”不”代表否定、”嗎”代表疑問等，將其去除會影響訊息情緒之判斷，故將其保留。本研究將採用標準之 Brown corpus 之停用字集來剔除文件中非隱含情緒之停用詞。

本研究在建構字彙集(vocabulary)時，並不會將文件中所有的字詞進行蒐集。

主要是因為本研究將仰賴關鍵字之情感極性作為分析之基礎，然而一般而言我們無法直接判定字詞之情感極性(polarity)，必須另行定義與判別。文件中的訊息極性通常可由一些不同情緒涵義之字詞所構成，而這些隱含情緒極性的字詞常不侷限於某些特定詞性。故本研究將採用 Hu and Liu[13]等人所提出之全詞性情感詞

彙集來進行詞彙比對，並選擇比對成功之字詞作為關鍵字。利用上述關鍵字詞彙集，可以簡化英文文件之表達，並避免無效關鍵字的干擾，提高字彙集的精確度。

由於社會網路之訊息長度過於簡短，甚至有些文件只包含一個情感關鍵字，

因此為了分群訓練的效果，本研究將採用關鍵字字數大於 2 以上之文件，且同時考慮關鍵字字數大於 3 及大於 4 的文件進行訓練。

3.2.3

訊息文件向量化

將文件簡化為關鍵字集合後，我們必須將其轉化為一向量以供後續程序使用本研究將採用由 Salton[32]等人提出之向量空間模型(vector space model)進行轉換。向量空間模型為目前被引用次數最為頻繁且受大部分研究者所接受之方式，

VSM 是由關鍵字與文件組合而成的「關鍵字－文件」矩陣(term－document matrix)，

可利於機器方便閱讀並加速系統之執行效能。利用查詢語句之向量與「關鍵字－

文件」矩陣運算檢索出像似度高的文件。圖 3-2 為一具有 j 份文件與 i 個關鍵字 之「關鍵字－文件」矩陣。其中 w_ij為關鍵字 i 在 j 文件中的權重值。

圖 3-2 向量空間模型

Salton 等人所提出之文件向量概念，以關鍵字出現的頻率(term frequency, TF) 來衡量該關鍵字於文件中之重要性，並以權重來表達，其計算方式如下：

(3.1) w_ij：代表關鍵字 i 在文件 j 中的權重值

tfij：代表關鍵字 i 在文件 j 中出現之次數

本研究中並未採用 Salton 等人所使用的 tf 及 idf(inverse document frequency) 之權重作法，而使用較單純、只考慮關鍵字之共現(co-occurrence)模型之二元權重(binary weighting)方法。其做法先將每份文件之關鍵字以聯集方式集合成字彙 集 V，再將每份文件之關鍵字依序與 V 作比對。若關鍵字出現於該 V 中，則該文 件向量中相對應的元素給予值 1；反之，若未出現於文件中，則給予值 0，如下 圖 3-3 之所示。如此我們可以將文件 dj轉換為一向量 di。

圖 3-3 二元向量空間模型

在文檔中應用自我組織圖於社會網路文字訊息之情感分析 (頁 19-22)

三 研究方法

3.2 文件前置處理

訊息文件向量化

三研究方法