頻率式權重值

第四章單字語意明確度計算方法

4.2 計算邊的權重值

4.2.1 頻率式權重值

此權重值算法共考慮三個影響因素，首先第一部分是考慮兩個單字在 T 中共同出現頻率值作為兩字間的關係程度評估依據，因為共同出現能夠反映兩個單

字在該段文字中前後有語意關聯，因此我們認為共同出現頻率能反映出兩個單字的關係程度。不過，有關聯的單字在一段文字中不見得緊鄰出現，因此本論文共同出現的計算方式會參考兩種資訊，包含緊鄰出現(Bigram)以及 10 個字之內共同出現的次數(10-gram)。

此外，我們認為一個單字出現在與查詢字有高度相關的物件，可能表示這個單字和查詢字較具有相關性(論文[21])。因此，本論文將各個物件在搜尋結果的相關分數𝑠𝑐𝑜𝑟𝑒(𝑑_𝑘, 𝑞)納入評估依據。我們認為搜尋引擎對物件所做的排序，能

夠呈現物件與查詢字關聯程度，在搜尋結果中排序越前面的物件，與查詢字的相關度越高，因此將兩單字共同涵蓋的物件之查詢結果關聯度加總作為第二個影響因素。

最後一部分，因為緊鄰出現的計數方式可能將語意過於廣泛且頻繁與查詢字相鄰出現的單字算出高權重值，因此參考論文[14]的方法降低緊鄰出現的單字其邊權重值，並增加緊鄰出現次數較低的單字之邊權重值，所以頻率式權重值計算

方式如算式 4。

𝑓 − 𝑤𝑒𝑖𝑔ℎ𝑡(ℓ_𝑖𝑗) = 𝑟_𝑖𝑗 ∗ ∑_𝑑_𝑘_∈(𝑑_𝑖_∪𝑑_𝑗₎𝑠𝑐𝑜𝑟𝑒(𝑑_𝑘, 𝑞)(𝜆𝑐_{𝑖𝑗𝑤𝑠}₂+ (1 − 𝜆)𝑐_{𝑖𝑗𝑤𝑠}₁₀)(算式 4) 𝑟_𝑖𝑗 = 𝑙𝑜𝑔₂^∑^{𝑖𝑗∈𝑊}_1+𝑐^𝑐^{𝑖𝑗𝑤𝑠2}

𝑖𝑗𝑤𝑠2 (算式 5)

算式 4 中𝑐_{𝑖𝑗𝑤𝑠}₂代表單字 i 和 j 在 T 中緊鄰出現的次數，𝑐_{𝑖𝑗𝑤𝑠}₁₀則是在 10 個字的範圍限制下在 T 中共同出現的次數，藉由介於 0 到 1 的比重值 λ 將𝑐_{𝑖𝑗𝑤𝑠}₂與 𝑐_{𝑖𝑗𝑤𝑠}₁₀做比重加總；而𝑠𝑐𝑜𝑟𝑒(𝑑_𝑘, 𝑞)代表物件𝑑_𝑘的查詢結果關聯度，也就是物件𝑑_𝑘

與 q 的關聯程度，可藉由搜尋引擎回傳的物件分數做計算。λ 值的設定用來反映關係程度的評估標準，若λ=0 則表示以 10-Gram 中出現次數表示共同出現次數，

採取出現相關度較寬鬆的評量方式；若λ=1 則代表只用並聯出現次數作為共同出現次數，因此是較嚴謹的共同出現次數計算，本論文將於實驗中探討λ 值的設定對於挑選結果的影響。算式 5 中𝑟_𝑖𝑗表示單字 i 與 j 緊鄰出現的次數相對於所有單字緊鄰出現次數加總的比例值，對於較少相鄰出現的兩個單字，會得到較高的𝑟_𝑖𝑗

值表示其可能為較具明確語意的特定字詞，非一般廣泛性字詞，因此給定較高的加權值。

【範例 4-2】頻率式權重值之範例

假設使用者給定查詢‘jaguar’時，系統的查詢結果如圖 4.2 上方所示，若採用 頻率式權重值計算‘jaguar’與‘car’間的關聯程度，則計算方式如下。首先，我們計算這兩個單字在 T 中共同出現的次數。以相鄰出現來計算的話，從物件一的第一個字開始比對，因兩個字有相鄰出現，所以共同出現次數加 1；接著往後一個字繼續比對，如此不斷計算直到此物件內容結束。若有下一個物件，則再從下一物件內容的開頭，依相同方式繼續累計，考慮完所有 T 中所有物件後即完成相鄰限制下的共同出現次數計算。十個字之內的共同出現次數與相鄰限制的計算方式相似，只是將比對範圍設為十個字以內是否同時出現；若物件內容的字數低於十個，則判斷該兩單字是否有出現即可。圖 4.2 上方內容的𝑐_{𝑖𝑗𝑤𝑠}₂及𝑐_{𝑖𝑗𝑤𝑠}₁₀之計

算結果如該圖下方所示。

接著我們計算‘jaguar’與‘car’的獨特性因子r_ij，如算式 5 將所有相鄰限制的共

同出現次數加總後可以得到 10。將 3 除以 10 再取以 2 為底的對數，將結果乘上負號即可得出 jaguar 與 car 的獨特性因子r_jaguar,car= 1.74。

最後，假設物件一的查詢結果關聯度score(𝑑₁, q)為 2，因為 jaguar 與 car 涵蓋物件一，所以根據算式 4 可以計算得到1.74 × 2(0.6 × 3 + 0.4 × 1) = 5.68，此

處我們假設λ 為 0.6，如此便完成‘jaguar’與‘car’的邊權重值計算。

圖 4.2 共同出現次數

在文檔中提供網頁搜尋結果篩選之查詢字詞推薦 (頁 32-36)

第四章 單字語意明確度計算方法

4.2 計算邊的權重值

4.2.1 頻率式權重值

第四章單字語意明確度計算方法