候選查詢主體字詞分數計算

第四章擷取查詢關鍵字方法

4.1 擷取查詢主體字詞

4.1.3 候選查詢主體字詞分數計算

本論文提出一個評估字詞重要性分數的方法，對於𝑞. 𝑇_𝑐中的每一個候選查詢主體字詞𝑡_𝑖，若計算出來的字詞重要性分數越高，則代表此字詞越有可能是問題句 q 的查詢主體字詞，最後挑選字詞重要性分數最高的當作問題句 q 的查詢主體字詞。

我們認為可以從 4.1.2 小節所蒐集與問題句 q 相關的文件集合𝐷_𝑞所提供的資訊，考慮候選查詢主體字詞𝑡_𝑖在其中出現的頻率𝑑𝑓(𝑡_𝑖, 𝐷_𝑞)，以及在𝐷_𝑞中算出的核心分數𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑡_𝑖)，候選查詢主體字詞𝑡_𝑖對於問題句 q 的重要性分數計 算方式如公式五所示。公式中的參數𝑤(𝑡_𝑖)是為了對最後的分數進行加權，因為我們認為透過具名實體識別的方式擷取出來的候選查詢主體字詞較為重要，若候選查詢主體字詞𝑡_𝑖是透過複合名詞樣式規則的方式擷取出來的，將乘以一個介於 0 到 1 之間的參數𝜌，並於實驗中調整選出可得到最好結果的𝜌值。

𝑡𝑒𝑟𝑚_𝑠𝑐𝑜𝑟𝑒(𝑡_𝑖) = 𝑤(𝑡_𝑖) ∗ 𝑑𝑓(𝑡_𝑖, 𝐷_𝑞) ∗ 𝑐𝑒𝑛𝑡𝑟𝑎𝑙𝑖𝑡𝑦_𝑠𝑐𝑜𝑟𝑒(𝑡_𝑖)

𝑤(𝑡_𝑖) = {1, 𝑖𝑓 𝑡_𝑖 𝑖𝑠 𝑎 𝑛𝑎𝑚𝑒 𝑒𝑛𝑡𝑖𝑡𝑦 𝜌, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

(公式五)

公式五中的兩項算式說明如下:

<1> 候選查詢主體字詞𝑡_𝑖在問題句相關文件集合𝐷_𝑞中出現的頻率𝑑𝑓(𝑡_𝑖, 𝐷_𝑞):

我們認為若在問題句相關文件集合𝐷_𝑞中有多篇文件出現字詞𝑡_𝑖，則此字詞很可能是問題句中重要性較高的字。因此，我們對於一個候選查詢主體字詞𝑡_𝑖，統

計在問題句相關文件集合中出現的頻率以𝑑𝑓(𝑡_𝑖, 𝐷_𝑞)表示，計算方式如公式六。

𝑑𝑓(𝑡_𝑖, 𝐷_𝑞) =

^{|{ 𝑑}

^𝑗

^{| 𝑑}

^𝑗

^∈𝐷

^𝑞

^𝑡

^𝑖

^{∈ 𝑑}

^𝑗

^}|

|𝐷

_𝑞

|

(公式六)

<2> 候選查詢主體字詞𝑡_𝑖在問題句相關文件集合𝐷_𝑞中的核心分數:

本論文將運用[9]所提出的概念，計算候選查詢主體字詞集合𝑞. 𝑇_𝑐中每個候選查詢主體字詞在問題句相關文件集合中𝐷_𝑞的核心分數。我們認為當一個字詞𝑡_𝑖在問題句相關文件集合中𝐷_𝑞中相較於另一個字詞𝑡_𝑗出現的頻率高，則代表此字詞較為重要且當相比較的字詞是重要字詞時，此字詞也會更重要，而增加此字詞的重

要性權重。基於上述理論提出字詞在文件集中核心分數的計算方式，如公式七所示。

𝐴(𝑡_𝑖) = ∑^|𝑞.𝑇_{𝑗=1,𝑗≠𝑖}^𝑐^| 𝐶𝑢𝑚𝑅𝐹(𝑡_𝑖|𝑡_𝑗)∙ 𝐴(𝑡_𝑗) (公式七)

在公式七中𝐴(𝑡_𝑖)和𝐴(𝑡_𝑗)分別表示候選查詢主體字詞𝑡_𝑖和𝑡_𝑗的核心分數，

𝐶𝑢𝑚𝑅𝐹(𝑡_𝑖|𝑡_𝑗)表示候選查詢主體字詞𝑡_𝑖在問題句相關文件集合𝐷_𝑞中相對於𝑡_𝑗的累積相對頻率權重，𝐶𝑢𝑚𝑅𝐹(𝑡_𝑖|𝑡_𝑗)和𝐴(𝑡_𝑗)相乘後即為候選查詢主體字詞𝑡_𝑖依據𝑡_𝑗算出的重要性分數，最後將𝑡_𝑖依據其他候選查詢字詞算出的重要性分數加總，即為候選查詢主體字詞𝑡_𝑖的核心分數。而候選查詢主體字詞𝑡_𝑖在相關文件集合𝐷_𝑞中相對於𝑡_𝑗的累積相對頻率權重計算方式則如公式八所示。

𝐶𝑢𝑚𝑅𝐹(𝑡_𝑖|𝑡_𝑗) = ∑_𝑑∈𝐷_𝑞𝑅𝐹(𝑡_𝑖|𝑡_𝑗, 𝑑_𝑘) (公式八)

在公式八中𝑅𝐹(𝑡_𝑖|𝑡_𝑗, 𝑑_𝑘)表示為候選查詢主體字詞𝑡_𝑖，在一篇問題相關文件𝑑_𝑘 中對於𝑡_𝑗的相對頻率權重。𝑡_𝑖分別將問題相關文件集合𝐷_𝑞中所有文件𝑡_𝑗進行頻率權重計算並加總，即為候選查詢主體字詞𝑡_𝑖在問題句相關文件集合𝐷_𝑞中相對於𝑡_𝑗的累積相對頻率權重。累積相對頻率權重，代表在問題句相關文件集合𝐷_𝑞中，候選查詢主體字詞𝑡_𝑖相較於𝑡_𝑗更為重要的程度。而候選查詢主體字詞𝑡_𝑖在一篇問題相關文件𝑑_𝑘中對於𝑡_𝑗的相對頻率權重計算方式如公式九所示。

𝑅𝐹(𝑡_𝑖|𝑡_𝑗, 𝑑) = {

𝑙𝑜𝑔₂(1+𝑐(𝑡_𝑖,𝑑_𝑘))

𝑙𝑜𝑔₂(1+𝑐(𝑡_𝑗,𝑑_𝑘)) , 𝑖𝑓 𝑐(𝑡_𝑗, 𝑑_𝑘)) > 0 𝑙𝑜𝑔₂(1 + 𝑐(𝑡_𝑖, 𝑑_𝑘)) , 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒𝑠

(公式九)

在公式九中𝑐(𝑡_𝑖, 𝑑_𝑘)和𝑐(𝑡_𝑗, 𝑑_𝑘)分別表示候選查詢主體字詞𝑡_𝑖和𝑡_𝑗在問題句相關文件𝑑_𝑘中出現的次數。在計算時會將分子和分母同時加 1，避免分母為 0 的情況。最後計算結果大於 1 代表候選查詢主體字詞𝑡_𝑖在文件𝑑_𝑘中比𝑡_𝑗常出現，反之則相反。

在候選查詢主體字詞集合𝑞. 𝑇_𝑐中，每個候選查詢主體字詞𝑡_𝑖都會利用公式七得到一個核心分數。因此我們可以將公式七簡潔地使用矩陣符號表示，如公示十。

𝐴^𝑇 = 𝐶𝑢𝑚𝑅𝐹 ∙ 𝐴^𝑇 (公式十)

在公示十中，𝐶𝑢𝑚𝑅𝐹 表示候選查詢主體字詞集合𝑞. 𝑇_𝑐中所有字詞透過 𝐶𝑢𝑚𝑅𝐹(𝑡_𝑖|𝑡_𝑗)得到兩兩相對累積頻率的矩陣，𝐴^𝑇則表示𝑞. 𝑇_𝑐中所有的字詞之核心分數所成的向量。我們使用 Power iteration 來計算向量𝐴^𝑇的值，一開始先設定𝐴^𝑇中每一個字詞的核心分數為 1，隨著每次的計算更新向量𝐴^𝑇，一直計算直到向量𝐴^𝑇 內所有字詞核心分數大小的排序不再變動為止。

【範例 4-2】候選查詢主體字詞核心分數計算之範例

以範例 4-1 為例，使用者所提出的問題句為“The Lord of the Rings who wrote this novel?”，產生的候選查詢主體字詞為“Lord of the Rings”、“Lord”、“Rings”及

“fantasy novel”，並且所蒐集與問題句相關的文件集，如表 4 所示。

在計算每個候選查詢主體字詞的核心分數時，首先會針對每個候選查詢主體字詞，計算在每一篇相關文件中對於其他候選查詢主體字詞出現的相對頻率權重，表 5 所示為“Lord of the Rings”在每一篇相關文件中對於“Lord”、“Rings”及

“fantasy novel”的相對頻率權重。

表 5 “Lord of the Rings”對於其他候選查詢主體字詞的相對頻率權重

d1 d2 d3 d4 d5 d6 d7 d8 d9 d10 Lord 1 1 1 1 1 1 1 1 0 0.63 Rings 1 1 1 1 1 1 1 1 0 1 fantasy

novel 0.63 1 1 1 1 1 1 1.58 0 1

然後對每個候選查詢主體字詞，計算在每一篇相關文件中對於其他候選查詢主體字詞的相對頻率權重累積加總，便可以得到𝐶𝑢𝑚𝑅𝐹兩兩相對累積頻率的矩陣，如圖 10 所示。

圖 10 CumRF 兩兩相對累積頻率矩陣

接著設定𝐴^𝑇中每一個字詞的核心分數初始值為 1，並透過公式七計算向量𝐴^𝑇 中每個候選查詢主體字詞的核心分數並且更新向量𝐴^𝑇，為了避免向量𝐴^𝑇內的值越來越大，更新向量𝐴^𝑇後會將字詞分數進行一般化，一直計算直到向量𝐴^𝑇的分數大小排序不再變動為止，如表 6 所示。最後每個候選查詢主體字詞的核心分數即是不再變動的向量𝐴^𝑇內的分數。

表 6 候選查詢主體字詞核心分數向量更新

Lord of the Rings Lord Rings fantasy novel

Initial 1 1 1 1

1 0.84 1 0.84 0.23

2 0.90 1 0.90 0.72

在文檔中針對問答社群中的事實問題句自動產生答案摘要之研究 (頁 36-40)

第四章 擷取查詢關鍵字方法