• 沒有找到結果。

第三章 主題查詢字詞挑選方法

3.2 概念廣泛度評估方法

3.2.1 新穎程度值

首先我們參考論文[19],考慮採用新穎程度值(Novelty)評估字詞的概念廣泛 度。這個方法主要考慮一個字詞對 T 中物件的涵蓋率(Coverage),以及已挑選字 與未選字兩者涵蓋的物件重覆程度值(Overlap)。因此,對 T 有越高的涵蓋程度且 和已挑選字所涵蓋的物件重複程度越低,會得到越高的新穎程度值。我們令欲挑 選的主題查詢字詞(Topical terms)總數為 n,分別是𝑟1… 𝑟𝑛,並以集合 RP 表示被 挑選出的所有主題查詢字詞。我們將挑選主題查詢字詞的候選字詞集合設為W加 上所有在 T 中相鄰出現的兩個單字組成之字詞,並將此候選字詞集合以𝑅𝑃𝑆𝐶稱 之,則𝑅𝑃𝑆𝐶中每個字詞𝑤𝑖的新穎程度計算公式如下:

RPS(𝑤𝑖) =|𝑑𝑤𝑖∪(⋃|𝑇|𝑡∈𝑅𝑃𝑑𝑤𝑡)| (算式 1)

上述公式中, RP表示已挑選的主題查詢字詞所構成之集合,初始為空集合。

當 RP 為空集合時,表示字詞對於 T 中物件的涵蓋比例值即為其新穎程度分數。

當 RP 為非空集合時,對於每一個候選字詞來說,其⋃𝑡∈𝑅𝑃𝑑𝑤𝑡都相同,因此

|𝑑𝑤𝑖⋃(⋃𝑡∈𝑅𝑃𝑑𝑤𝑡) |越大,也就是|𝑑𝑤𝑖− (⋃𝑡∈𝑅𝑃𝑑𝑤𝑡)|越大,表示候選字詞𝑤𝑖涵蓋

越多已挑選字詞中未能涵蓋的物件。透過這種方式計算出每一個候選字詞的新穎 程度值之後,挑選分數最高的候選字詞作為主題查詢字詞,並將它從集合𝑅𝑃𝑆𝐶

刪去後,完成一回合的挑選。如此不斷挑選直到集合 RP 對搜尋結果 T 的涵蓋率 達到百分之百,或 RP 中的字詞個數到達 n 個便停止。

16

【範例 3-1】 新穎程度值之範例

假設使用者給定查詢字‘appraisals’,透過搜尋引擎取得搜尋結果並經過前處 理後,如表 3.1 所示。若希望採用新穎程度值找出兩個主題查詢字詞,其挑選過 程如下。初始 RP 為空集合,先計算候選字集合𝑅𝑃𝑆𝐶中每個候選字的RPS(𝑤𝑖)值,

計算結果如表 3.2。從中找出RPS(𝑤𝑖)值最大的字詞‘appraise’,將它選入 RP 集合 作為主題查詢字詞並從𝑅𝑃𝑆𝐶中刪除。挑選 appraise 後涵蓋率便達到百分之百,符

合本論文所設定的停止條件,因此停止挑選主題查詢字詞。最後,只有挑選到 appraise 一個主題查詢字詞。

表 3.1 範例 3-1 與 3-2 的搜尋結果

物件編號 物件內容

O1 jump navigation search appraisal appraisal appraise O2 appraise opinion preparation appraisal research market O3 asc appraisal subcommittee estate appraise appraisal O4 estate market years home term appraise management O5 appraisal reviewer va fee appraise market property va home

17

18

從這個範例我們可以發現,依據新穎程度的算法雖然能夠得到涵蓋率高的主 題查詢字詞集合,卻可能發生某一個出現頻率過高的字詞主導挑選結果的情形。

此例中,挑選 appraise 便可完全涵蓋 T 且停止挑選。appraise 這種涵蓋率極大的 字詞概念廣泛度及新穎程度值非常高,通常會是第一個被挑選中的字詞,使得

RP 集合對 T 的涵蓋率極高,甚至已達到符合停止挑選的條件,造成系統無法挑 選到指定數量的主題查詢字詞;但此種主題查詢字詞無法提供對查詢結果有效的 篩選。因此,我們選擇將新穎程度值的計算方式稍做改變,在每一次的挑選過程 中,將已涵蓋的物件數量與未涵蓋的物件數量之差異程度納入考量,詳細說明如 下一小節。