• 沒有找到結果。

3. 研究方法

3.3 分類方法

前處理與文件特徵建構

期刊論文文件前處理的部分,本研究使用 Microsoft 定義之停用字規則,隨後 以 Porter 演算法進行詞幹還原,特徵建構部分先以文件門檻值縮減特徵維度,此 階段先經特徵詞彙統計後,刪除次數低於門檻值之特徵維度以降低計算成本。

特徵建構將文件以索引向量形式呈現,向量建構時必須考量向量值之設定,

特徵頻率最為常見。特徵頻率代表特徵 在文件 中出現之頻率。

TF-IDF 為最常使用之特徵權重方法[6],其基本假設有兩點,首先為當特徵頻 率 在文件 中出現之頻率越高,則代表特徵 越能代表文件 。第二點為 若特徵 在越多文件中出現,則代表該特徵被普遍使用,不具有分類資訊。式 3.1 為 TF-IDF 計算公式,其中 , 為特徵 頻率在文件 中出現之頻率,

| | 為文件集合 之文件數目, 為特徵 出現在文件集合中的文件數。

, log | | 式 3.1

由於不同文件擁有不同的內容長度,以特徵頻率作為索引向量值,對於內容 較少之文件可能會造成進行特徵選時捨棄含有資訊之特徵。因此本研究以特徵在 該文件所佔有之比例為向量值探討此假設是否成立。式 3.2 表特徵比例向量值公式,

其中 表特徵在文件中出現之次數。

, ∑| | 式 3.2

抽樣分配分類器

抽樣分配分類器為本研究基於抽樣分配與歐式距離設計之分類器,此分類器 係指根據特徵之樣本分配計算其平均值與標準差,根據中央極限定理,當樣本數 大於等於 30 時,其特徵分配情形可視為抽樣分配,因此可藉由信賴水準的設定尋 找母體之信賴區間。對於文件分類而言,訓練資料相當於抽樣樣本,分類器藉由 訓練資料學習各特徵與類別的對應關係。下圖為概念示意圖,黑色斜線圓表訓練 資料,方形灰色區域則表示研究所使用資料,訓練資料僅為實驗資料之子集合,

相當於抽樣樣本。

圖 5 訓練資料與實驗資料關係 資料來源:本研究繪製

對於文件 而言,特徵 之特徵值符合抽樣分配。藉由計算 之特徵值平均數與標準差並設定分配信賴水準後即可找出實驗資料對於特徵 之信賴區間 ,藉此推估屬於類別 之文件中,包含特徵 之平均數 , 如圖所示:

圖 6 抽樣分配與信賴區間 資料來源:本研究繪製

特徵空間中,特徵 皆可找出該維度之信賴區間 ,若特徵空間包含 L 個維度,則表示可找到 L 組信賴區間。對於文件 而言,由於維度縮減的關係,

特徵比例總和將小於等於 1 ,由信賴區間可建立 1 組限制式。另一方面根據 樣本可計算各特徵比例之平均值 ,針對類別 可計算出中心點為 。藉由歐 式距離 (Euclidean distance) 可計算文件與類別之間的離異程度,如式 3.4 所示:

| |

式 3.4

歐式距離值越大表示文件與類別越不相似。透過信賴區間與總和之 1 組 限制式,求距離 之極值。依信賴區間設定之限制式為一連續區間,距離 極 小值為 0,即文件中心點與類別中心完全符合。令距離之極大值為 ,其意涵 為樣本中心點與母體中心點差異程度極大。透過 可進一步進行分類。若文件

與類別 之中心點 之歐式距離為 ,當 時,表示文 件 屬於類別 之機率相對較高。而當 時,則表文件 屬於類別

之機率相對較低。

圖 7 以二維特徵作為範例,對於 x 與 x 兩特徵維度,藉由設定信賴水準可 找到個別信賴區間,另外兩特徵比例總和必須小於等於 1,藉此可找到圖中灰色區 塊集合。灰色區中心點 表樣本中心,藍色點 表與 離異程度極大之母 體中心。以 為中心,以 為距離可得特徵空間中之子集合空間,若文件 與樣本中心距離小於等於 ,則文件屬於該類別,如圖中之點 。若文件與樣 本中心距離大於 ,如 ,則文件不屬於該類別。

圖 7 抽樣分配分類器示意圖 資料來源:本研究繪製

針對應用方式不同,以距離作為分類依據之方式可彈性調整。若為單一標記 分類情況較為複雜,當文件與兩個類別中心之距離小於該類別距離極大值時,則 表示文件同時與兩個類別相似,基於單一標記原則採距離較近者為類別。下圖 8 (a) 表文件 同時距離小於類別 c 與 c ,此時以文件至類別中心距離小者為類別。

圖 4 (b) 表文件 到類別 c 與 c 中心點距離相等,即 ,此時可將文件 歸類於其中一類別,或是以類別範圍密度視為機率比較後歸類。

圖 8 兩特徵維度交集 資料來源:本研究繪製

而當文件與所有類別中心之距離均大於各類別距離之極大值時,則以文件與 類別中心之距離減去類別中心極大值為考量距離,即文件 至類別範圍之最小距 離,其意涵為文件與類別最靠近之距離,如下圖 9 (a) 之 所示,此時以該距離 小者為類別推薦。圖 5 (b) 表文件 至兩類別範圍距離相同,即 ,此 時則以 至類別中心 與 之距離小者為類別。

圖 9 兩特徵維度空集 資料來源:本研究繪製

若為多標記分類情況較為單純,以距離絕對大小進行分類,若文件同時小於 兩個以上的類別距離極大值,則表文件可同時歸屬於兩類別,另外亦表示此兩類 別在部分維度上不具鑑別力;若文件與各類別中心距離皆大於極大值,表此文件 可能不屬於類別集合中之任一類別,此時可採建立新類別或以距離小者為推薦類 別。

相關文件