• 沒有找到結果。

第五章 查詢結果標籤階層式架構之建立

5.3 階層式結構之建立

5.3.1 分類模型特徵擷取

在分類模型中,我們共採用了三大類特徵來判斷兩標籤字間是否擁有語意包 含 關 係 。 可 分 為 : 共 同 出 現 關 聯 性 (Co_Occurrence) 、 相 對 出 現 頻 率 (Relative

Frequency)、以及出現互斥相關性 (Exclusive_Occurrence)。

<1>. 共同出現關聯性

此特徵以兩個標籤字𝑡1和𝑡2在 TDB 中出現在相同一個物件的個數,計算相對 於𝑡1和𝑡2個別出現物件的總數的比例值,顯示兩個標籤的共同出現關聯性。當包 含標籤 t1的資料物件集合和包含標籤 t2的資料物件集合完全相同時,表示兩者的 共同出現關聯程度值為最高。因此第一項分類特徵𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒(𝑡1, 𝑡2)定義如下:

𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒(𝑡1, 𝑡2) = 2 ∗ |𝑂 (𝑡1) ∩ 𝑂 (𝑡2)|

|𝑂 (𝑡1)| + |𝑂 (𝑡2)| (算式 7)

其中 Obj(ti)表示以 ti做查詢字找到的資料物件集合,i 為 1 或 2。其值域介於

0 到 1 之間。

[範例 5.2]

假設兩個標籤字詞 t1與 t2分別為"pet"與"dog",並且各自當作查詢字於標籤資 源資料庫 TDB 中搜尋,並從系統所回傳的資料物件中統計包含"pet"的物件是否 包含"dog",以及包含"dog"的物件是否包含"pet",其結果如表 5.3 所示。從中可得 知包含"pet"的資料物件個數為 10,包含"dog"的資料物件個數為 8,同時包含"dog"

和"pet"的資料物件個數為 6,代入算式7可得這組標籤字的第一項特徵值:

𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒("do ", "p t") = 2∗6

1 +8 = 0.67 。

表 5.3 包含標籤字 dog 及包含 pet 資料物件的個數統計

具有 較高值, 表示標 籤 t1 會常 出現於 在 包 含標籤 t2 的資 料物件 中。 但是 中包含"pet"的資料物件個數為 10 而包含"dog"的資料物件個數為 8 且同時包含

"dog"和"pet"的資料物件個數為 6,代入算式 8 和 9 可得這兩個標籤字的第二及三

t1的機率與包含標籤 t1的資料物件中含有標籤 t2的機率差不多,則標籤 t2未必為 標籤 t1的子概念。

以範例 5.2 為例,當給定標籤 t1為"pet"和標籤 t2為"dog",經系統計算出分類 特徵二和分類特徵三後,代入算式 10 可得這兩個標籤字的第四項特徵值:

𝑅𝑒𝑙_𝑓𝑟𝑒𝑞_𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒("p t", "do ") = | 0.75 - 0.6 | = 0.15

<3>. 出現互斥相關性

此項特徵考慮在含有標籤 t1的資料物件中沒有出現標籤 t2之物件數,相較於 含有標籤 t2的資料物件中沒有出現標籤 t1之物件數的比例值,作為判斷 t1和 t2之 語意包含關係的分類特徵。因此第五項分類特徵Exclu iv _p rc nt(𝑡1, 𝑡2)定義如下:

(算式 11) obj(┐𝑡2| 𝑡1)表示 TDB 中包含標籤 t1但不包含標籤 t2的資料物件集合,

obj(┐𝑡1| 𝑡2)表示 TDB 中包含標籤 t2但不包含標籤 t1的資料物件集合。當標籤 t2 為標籤 t1的子概念時,包含 t1的資料物件數應該比包含 t2的資料物件數多,且因 為出現 t1的物件未必出現 t2,|obj(┐𝑡2| 𝑡1)|有可能大。但出現 t2的物件通常要有 t1

|obj(┐𝑡1| 𝑡2)|應該小,所以其所得互斥相關性數值應該為大。為了避免分母

|obj(┐𝑡1| 𝑡2)|有數值為 0 的情形,所以在分子及分母各加上一常數α,我們將其以

設定為 1。

Exclu iv _ ccurr nc (𝑡1, 𝑡2) =|obj(┐𝑡2| 𝑡1)| + α

|obj(┐𝑡1| 𝑡2)| + α

[範例 5.3]

假設代表標籤字 t1及 t2在 TDB 出現物件數,分別為 10 個與 8 個。考慮包含

t1和 t2的資料物件的三種可能情況,如圖 5.8 中的(一)、(二)、(三)。以下我們針 對三種情形套用至我們的公式 11 作計算:

圖(一) : Exclu iv _p rc nt(𝑡1, 𝑡2) = 2+1

+1 = 3。

圖(二) : Exclu iv _p rc nt(𝑡1, 𝑡2) = 7+1

5+1 = 1.33 圖(三) : Exclu iv _p rc nt(𝑡1, 𝑡2) = 4+1

2+1 = 1.66

在圖(一)中相較於圖(二)及圖(三)可顯示此兩代表標籤的資料物件集合具有 包含關係。而圖(二)中兩者最不具有包含關係。圖(三)中 t2雖然未被 t1完全包含,

但 t2仍有大部分被 t1所包含,此例顯示以上所算出 Exclusive_percent(𝑡1, 𝑡2)能顯 出兩個標籤 t1及 t2對應出現物件集合的包含關係程度。

(一) (二) (三) 圖 5.8 標籤字 t1、t2出現互斥相關性之特徵範例

綜合上述所介紹的特徵,對於代表標籤字 t2是否可加入目前標籤階層式架構 的標籤 t1下時,系統會計算出 5 種特徵值,用以作為後續的標籤字間是否包含關 係之分類判斷。以下表 5.5 所示為我們採用的分類模型之特徵整理。

表 5.4 分類模型之特徵清單

特徵編號 特徵名稱 特徵函式

1 共同出現關聯程度 𝐶𝑜_𝑂𝑐𝑐𝑢𝑟𝑒𝑛𝑐𝑒(𝑡1, 𝑡2) 2 相對出現頻率( t1→t2) 𝑟𝑒𝑙_𝑓𝑟𝑒𝑞(𝑡2|𝑡1) 3 相對出現頻率( t2→t1) 𝑟𝑒𝑙_𝑓𝑟𝑒𝑞(𝑡1|𝑡2)

4 相對出現頻率差 𝑅𝑒𝑙_𝑓𝑟𝑒𝑞_𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒(𝑡1, 𝑡2) 5 出現互斥相關性 Exclu iv _ ccurr nc (𝑡1, 𝑡2)

相關文件