分類模型特徵擷取

第五章查詢結果標籤階層式架構之建立

5.3 階層式結構之建立

5.3.1 分類模型特徵擷取

在分類模型中，我們共採用了三大類特徵來判斷兩標籤字間是否擁有語意包含關係。可分為 : 共同出現關聯性 (Co_Occurrence) 、相對出現頻率 (Relative

Frequency)、以及出現互斥相關性 (Exclusive_Occurrence)。

<1>. 共同出現關聯性

此特徵以兩個標籤字𝑡₁和𝑡₂在 TDB 中出現在相同一個物件的個數，計算相對於𝑡₁和𝑡₂個別出現物件的總數的比例值，顯示兩個標籤的共同出現關聯性。當包含標籤 t1的資料物件集合和包含標籤 t2的資料物件集合完全相同時，表示兩者的共同出現關聯程度值為最高。因此第一項分類特徵𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒(𝑡₁, 𝑡₂)定義如下:

𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒(𝑡₁, 𝑡₂) = 2 ∗ |𝑂 (𝑡₁) ∩ 𝑂 (𝑡₂)|

|𝑂 (𝑡₁)| + |𝑂 (𝑡₂)| (算式 7)

其中 Obj(t_i)表示以 tⁱ做查詢字找到的資料物件集合，i 為 1 或 2。其值域介於

0 到 1 之間。

[範例 5.2]

假設兩個標籤字詞 t₁與 t₂分別為"pet"與"dog"，並且各自當作查詢字於標籤資源資料庫 TDB 中搜尋，並從系統所回傳的資料物件中統計包含"pet"的物件是否包含"dog"，以及包含"dog"的物件是否包含"pet"，其結果如表 5.3 所示。從中可得知包含"pet"的資料物件個數為 10，包含"dog"的資料物件個數為 8，同時包含"dog"

和"pet"的資料物件個數為 6，代入算式7可得這組標籤字的第一項特徵值:

𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒("do ", "p t") = ^2∗6

1 +8 = 0.67 。

表 5.3 包含標籤字 dog 及包含 pet 資料物件的個數統計

具有較高值，表示標籤 t₁ 會常出現於在包含標籤 t₂ 的資料物件中。但是中包含"pet"的資料物件個數為 10 而包含"dog"的資料物件個數為 8 且同時包含

"dog"和"pet"的資料物件個數為 6，代入算式 8 和 9 可得這兩個標籤字的第二及三

t1的機率與包含標籤 t₁的資料物件中含有標籤 t₂的機率差不多，則標籤 t₂未必為標籤 t₁的子概念。

以範例 5.2 為例，當給定標籤 t₁為"pet"和標籤 t2為"dog"，經系統計算出分類 特徵二和分類特徵三後，代入算式 10 可得這兩個標籤字的第四項特徵值:

𝑅𝑒𝑙_𝑓𝑟𝑒𝑞_𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒("p t", "do ") = | 0.75 - 0.6 | = 0.15

<3>. 出現互斥相關性

此項特徵考慮在含有標籤 t₁的資料物件中沒有出現標籤 t₂之物件數，相較於含有標籤 t₂的資料物件中沒有出現標籤 t₁之物件數的比例值，作為判斷 t₁和 t₂之語意包含關係的分類特徵。因此第五項分類特徵Exclu iv _p rc nt(𝑡₁, 𝑡₂)定義如下:

(算式 11) obj(┐𝑡₂| 𝑡₁)表示 TDB 中包含標籤 t1但不包含標籤 t2的資料物件集合，

obj(┐𝑡₁| 𝑡₂)表示 TDB 中包含標籤 t2但不包含標籤 t1的資料物件集合。當標籤 t₂ 為標籤 t₁的子概念時，包含 t₁的資料物件數應該比包含 t₂的資料物件數多，且因為出現 t₁的物件未必出現 t₂，|obj(┐𝑡₂| 𝑡₁)|有可能大。但出現 t2的物件通常要有 t₁，

|obj(┐𝑡₁| 𝑡₂)|應該小，所以其所得互斥相關性數值應該為大。為了避免分母

|obj(┐𝑡₁| 𝑡₂)|有數值為 0 的情形，所以在分子及分母各加上一常數α，我們將其以

設定為 1。

Exclu iv _ ccurr nc (𝑡₁, 𝑡₂) =|obj(┐𝑡₂| 𝑡₁)| + α

|obj(┐𝑡₁| 𝑡₂)| + α

[範例 5.3]

假設代表標籤字 t₁及 t₂在 TDB 出現物件數，分別為 10 個與 8 個。考慮包含

t1和 t₂的資料物件的三種可能情況，如圖 5.8 中的(一)、(二)、(三)。以下我們針對三種情形套用至我們的公式 11 作計算:

圖(一) : Exclu iv _p rc nt(𝑡₁, 𝑡₂) = ²⁺¹

+1 = 3。

圖(二) : Exclu iv _p rc nt(𝑡₁, 𝑡₂) = ⁷⁺¹

5+1 = 1.33 圖(三) : Exclu iv _p rc nt(𝑡₁, 𝑡₂) = ⁴⁺¹

2+1 = 1.66

在圖(一)中相較於圖(二)及圖(三)可顯示此兩代表標籤的資料物件集合具有包含關係。而圖(二)中兩者最不具有包含關係。圖(三)中 t₂雖然未被 t₁完全包含，

但 t₂仍有大部分被 t₁所包含，此例顯示以上所算出 Exclusive_percent(𝑡₁, 𝑡₂)能顯出兩個標籤 t₁及 t₂對應出現物件集合的包含關係程度。

(一) (二) (三) 圖 5.8 標籤字 t₁、t₂出現互斥相關性之特徵範例

綜合上述所介紹的特徵，對於代表標籤字 t₂是否可加入目前標籤階層式架構的標籤 t₁下時，系統會計算出 5 種特徵值，用以作為後續的標籤字間是否包含關係之分類判斷。以下表 5.5 所示為我們採用的分類模型之特徵整理。

表 5.4 分類模型之特徵清單

特徵編號特徵名稱特徵函式

1 共同出現關聯程度 𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒(𝑡₁, 𝑡₂) 2 相對出現頻率( t1→t2) 𝑟𝑒𝑙_𝑓𝑟𝑒𝑞(𝑡₂|𝑡₁) 3 相對出現頻率( t2→t1) 𝑟𝑒𝑙_𝑓𝑟𝑒𝑞(𝑡₁|𝑡₂)

4 相對出現頻率差 𝑅𝑒𝑙_𝑓𝑟𝑒𝑞_𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒(𝑡₁, 𝑡₂) 5 出現互斥相關性 Exclu iv _ ccurr nc (𝑡₁, 𝑡₂)

在文檔中社群標籤系統中查詢結果標籤階層式組織技術之研究 (頁 44-51)

第五章 查詢結果標籤階層式架構之建立

5.3 階層式結構之建立

5.3.1 分類模型特徵擷取

第五章查詢結果標籤階層式架構之建立