• 沒有找到結果。

候選查詢主體字詞分數計算

第四章 擷取查詢關鍵字方法

4.1 擷取查詢主體字詞

4.1.3 候選查詢主體字詞分數計算

本論文提出一個評估字詞重要性分數的方法,對於𝑞. 𝑇𝑐中的每一個候選查詢 主體字詞𝑡𝑖,若計算出來的字詞重要性分數越高,則代表此字詞越有可能是問題 句 q 的查詢主體字詞,最後挑選字詞重要性分數最高的當作問題句 q 的查詢主體 字詞。

我們認為可以從 4.1.2 小節所蒐集與問題句 q 相關的文件集合𝐷𝑞所提供的資 訊,考慮候選查詢主體字詞𝑡𝑖在其中出現的頻率𝑑𝑓(𝑡𝑖, 𝐷𝑞),以及在𝐷𝑞中算出的核 心分數𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑡𝑖),候選查詢主體字詞𝑡𝑖對於問題句 q 的重要性分數計 算方式如公式五所示。公式中的參數𝑤(𝑡𝑖)是為了對最後的分數進行加權,因為我 們認為透過具名實體識別的方式擷取出來的候選查詢主體字詞較為重要,若候選 查詢主體字詞𝑡𝑖是透過複合名詞樣式規則的方式擷取出來的,將乘以一個介於 0 到 1 之間的參數𝜌,並於實驗中調整選出可得到最好結果的𝜌值。

𝑡𝑒𝑟𝑚_𝑠𝑐𝑜𝑟𝑒(𝑡𝑖) = 𝑤(𝑡𝑖) ∗ 𝑑𝑓(𝑡𝑖, 𝐷𝑞) ∗ 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑡𝑖)

𝑤(𝑡𝑖) = {1, 𝑖𝑓 𝑡𝑖 𝑖𝑠 𝑎 𝑛𝑎𝑚𝑒 𝑒𝑛𝑡𝑖𝑡𝑦 𝜌, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

(公式五)

公式五中的兩項算式說明如下:

<1> 候選查詢主體字詞𝑡𝑖在問題句相關文件集合𝐷𝑞中出現的頻率𝑑𝑓(𝑡𝑖, 𝐷𝑞):

我們認為若在問題句相關文件集合𝐷𝑞中有多篇文件出現字詞𝑡𝑖,則此字詞很 可能是問題句中重要性較高的字。因此,我們對於一個候選查詢主體字詞𝑡𝑖,統

29

計在問題句相關文件集合中出現的頻率以𝑑𝑓(𝑡𝑖, 𝐷𝑞)表示,計算方式如公式六。

𝑑𝑓(𝑡𝑖, 𝐷𝑞) =

|{ 𝑑

𝑗

| 𝑑

𝑗

∈𝐷

𝑞

𝑡

𝑖

∈ 𝑑

𝑗

}|

|𝐷

𝑞

|

(公式六)

<2> 候選查詢主體字詞𝑡𝑖在問題句相關文件集合𝐷𝑞中的核心分數:

本論文將運用[9]所提出的概念,計算候選查詢主體字詞集合𝑞. 𝑇𝑐中每個候選 查詢主體字詞在問題句相關文件集合中𝐷𝑞的核心分數。我們認為當一個字詞𝑡𝑖在 問題句相關文件集合中𝐷𝑞中相較於另一個字詞𝑡𝑗出現的頻率高,則代表此字詞較 為重要且當相比較的字詞是重要字詞時,此字詞也會更重要,而增加此字詞的重

要性權重。基於上述理論提出字詞在文件集中核心分數的計算方式,如公式七所 示。

𝐴(𝑡𝑖) = ∑|𝑞.𝑇𝑗=1,𝑗≠𝑖𝑐| 𝐶𝑢𝑚𝑅𝐹(𝑡𝑖|𝑡𝑗)∙ 𝐴(𝑡𝑗) (公式七)

在公式七中𝐴(𝑡𝑖)和𝐴(𝑡𝑗)分別表示候選查詢主體字詞𝑡𝑖和𝑡𝑗的核心分數,

𝐶𝑢𝑚𝑅𝐹(𝑡𝑖|𝑡𝑗)表示候選查詢主體字詞𝑡𝑖在問題句相關文件集合𝐷𝑞中相對於𝑡𝑗的累 積相對頻率權重,𝐶𝑢𝑚𝑅𝐹(𝑡𝑖|𝑡𝑗)和𝐴(𝑡𝑗)相乘後即為候選查詢主體字詞𝑡𝑖依據𝑡𝑗算出 的重要性分數,最後將𝑡𝑖依據其他候選查詢字詞算出的重要性分數加總,即為候 選查詢主體字詞𝑡𝑖的核心分數。而候選查詢主體字詞𝑡𝑖在相關文件集合𝐷𝑞中相對 於𝑡𝑗的累積相對頻率權重計算方式則如公式八所示。

𝐶𝑢𝑚𝑅𝐹(𝑡𝑖|𝑡𝑗) = ∑𝑑∈𝐷𝑞𝑅𝐹(𝑡𝑖|𝑡𝑗, 𝑑𝑘) (公式八)

在公式八中𝑅𝐹(𝑡𝑖|𝑡𝑗, 𝑑𝑘)表示為候選查詢主體字詞𝑡𝑖,在一篇問題相關文件𝑑𝑘 中對於𝑡𝑗的相對頻率權重。𝑡𝑖分別將問題相關文件集合𝐷𝑞中所有文件𝑡𝑗進行頻率權 重計算並加總,即為候選查詢主體字詞𝑡𝑖在問題句相關文件集合𝐷𝑞中相對於𝑡𝑗的 累積相對頻率權重。累積相對頻率權重,代表在問題句相關文件集合𝐷𝑞中,候選 查詢主體字詞𝑡𝑖相較於𝑡𝑗更為重要的程度。而候選查詢主體字詞𝑡𝑖在一篇問題相關 文件𝑑𝑘中對於𝑡𝑗的相對頻率權重計算方式如公式九所示。

𝑅𝐹(𝑡𝑖|𝑡𝑗, 𝑑) = {

𝑙𝑜𝑔2(1+𝑐(𝑡𝑖,𝑑𝑘))

𝑙𝑜𝑔2(1+𝑐(𝑡𝑗,𝑑𝑘)) , 𝑖𝑓 𝑐(𝑡𝑗, 𝑑𝑘)) > 0 𝑙𝑜𝑔2(1 + 𝑐(𝑡𝑖, 𝑑𝑘)) , 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒𝑠

(公式九)

在公式九中𝑐(𝑡𝑖, 𝑑𝑘)和𝑐(𝑡𝑗, 𝑑𝑘)分別表示候選查詢主體字詞𝑡𝑖和𝑡𝑗在問題句相 關文件𝑑𝑘中出現的次數。在計算時會將分子和分母同時加 1,避免分母為 0 的情 況。最後計算結果大於 1 代表候選查詢主體字詞𝑡𝑖在文件𝑑𝑘中比𝑡𝑗常出現,反之則 相反。

在候選查詢主體字詞集合𝑞. 𝑇𝑐中,每個候選查詢主體字詞𝑡𝑖都會利用公式七 得到一個核心分數。因此我們可以將公式七簡潔地使用矩陣符號表示,如公示十。

𝐴𝑇 = 𝐶𝑢𝑚𝑅𝐹 ∙ 𝐴𝑇 (公式十)

在 公 示 十 中 ,𝐶𝑢𝑚𝑅𝐹 表示候選查詢主體字詞集合𝑞. 𝑇𝑐中 所 有 字 詞 透 過 𝐶𝑢𝑚𝑅𝐹(𝑡𝑖|𝑡𝑗)得到兩兩相對累積頻率的矩陣,𝐴𝑇則表示𝑞. 𝑇𝑐中所有的字詞之核心 分數所成的向量。我們使用 Power iteration 來計算向量𝐴𝑇的值,一開始先設定𝐴𝑇中 每一個字詞的核心分數為 1,隨著每次的計算更新向量𝐴𝑇,一直計算直到向量𝐴𝑇 內所有字詞核心分數大小的排序不再變動為止。

31

【範例 4-2】候選查詢主體字詞核心分數計算之範例

以範例 4-1 為例,使用者所提出的問題句為“The Lord of the Rings who wrote this novel?”,產生的候選查詢主體字詞為“Lord of the Rings”、“Lord”、“Rings”及

“fantasy novel”,並且所蒐集與問題句相關的文件集,如表 4 所示。

在計算每個候選查詢主體字詞的核心分數時,首先會針對每個候選查詢主體 字詞,計算在每一篇相關文件中對於其他候選查詢主體字詞出現的相對頻率權 重,表 5 所示為“Lord of the Rings”在每一篇相關文件中對於“Lord”、“Rings”及

“fantasy novel”的相對頻率權重。

表 5 “Lord of the Rings”對於其他候選查詢主體字詞的相對頻率權重

d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 Lord 1 1 1 1 1 1 1 1 0 0.63 Rings 1 1 1 1 1 1 1 1 0 1 fantasy

novel 0.63 1 1 1 1 1 1 1.58 0 1

然後對每個候選查詢主體字詞,計算在每一篇相關文件中對於其他候選查詢 主體字詞的相對頻率權重累積加總,便可以得到𝐶𝑢𝑚𝑅𝐹兩兩相對累積頻率的矩 陣,如圖 10 所示。

圖 10 CumRF 兩兩相對累積頻率矩陣

接著設定𝐴𝑇中每一個字詞的核心分數初始值為 1,並透過公式七計算向量𝐴𝑇 中每個候選查詢主體字詞的核心分數並且更新向量𝐴𝑇,為了避免向量𝐴𝑇內的值越 來越大,更新向量𝐴𝑇後會將字詞分數進行一般化,一直計算直到向量𝐴𝑇的分數大 小排序不再變動為止,如表 6 所示。最後每個候選查詢主體字詞的核心分數即是 不再變動的向量𝐴𝑇內的分數。

表 6 候選查詢主體字詞核心分數向量更新

Lord of the Rings Lord Rings fantasy novel

Initial 1 1 1 1

1 0.84 1 0.84 0.23

2 0.90 1 0.90 0.72