第四章 單字語意明確度計算方法
4.2 計算邊的權重值
4.2.1 頻率式權重值
此權重值算法共考慮三個影響因素,首先第一部分是考慮兩個單字在 T 中 共同出現頻率值作為兩字間的關係程度評估依據,因為共同出現能夠反映兩個單
25
字在該段文字中前後有語意關聯,因此我們認為共同出現頻率能反映出兩個單字 的關係程度。不過,有關聯的單字在一段文字中不見得緊鄰出現,因此本論文共 同出現的計算方式會參考兩種資訊,包含緊鄰出現(Bigram)以及 10 個字之內共 同出現的次數(10-gram)。
此外,我們認為一個單字出現在與查詢字有高度相關的物件,可能表示這個 單字和查詢字較具有相關性(論文[21])。因此,本論文將各個物件在搜尋結果的 相關分數𝑠𝑐𝑜𝑟𝑒(𝑑𝑘, 𝑞)納入評估依據。我們認為搜尋引擎對物件所做的排序,能
夠呈現物件與查詢字關聯程度,在搜尋結果中排序越前面的物件,與查詢字的相 關度越高,因此將兩單字共同涵蓋的物件之查詢結果關聯度加總作為第二個影響 因素。
最後一部分,因為緊鄰出現的計數方式可能將語意過於廣泛且頻繁與查詢字 相鄰出現的單字算出高權重值,因此參考論文[14]的方法降低緊鄰出現的單字其 邊權重值,並增加緊鄰出現次數較低的單字之邊權重值,所以頻率式權重值計算
方式如算式 4。
𝑓 − 𝑤𝑒𝑖𝑔ℎ𝑡(ℓ𝑖𝑗) = 𝑟𝑖𝑗 ∗ ∑𝑑𝑘∈(𝑑𝑖∪𝑑𝑗)𝑠𝑐𝑜𝑟𝑒(𝑑𝑘, 𝑞)(𝜆𝑐𝑖𝑗𝑤𝑠2+ (1 − 𝜆)𝑐𝑖𝑗𝑤𝑠10)(算式 4) 𝑟𝑖𝑗 = 𝑙𝑜𝑔2∑𝑖𝑗∈𝑊1+𝑐𝑐𝑖𝑗𝑤𝑠2
𝑖𝑗𝑤𝑠2 (算式 5)
算式 4 中𝑐𝑖𝑗𝑤𝑠2代表單字 i 和 j 在 T 中緊鄰出現的次數,𝑐𝑖𝑗𝑤𝑠10則是在 10 個 字的範圍限制下在 T 中共同出現的次數,藉由介於 0 到 1 的比重值 λ 將𝑐𝑖𝑗𝑤𝑠2與 𝑐𝑖𝑗𝑤𝑠10做比重加總;而𝑠𝑐𝑜𝑟𝑒(𝑑𝑘, 𝑞)代表物件𝑑𝑘的查詢結果關聯度,也就是物件𝑑𝑘
26
與 q 的關聯程度,可藉由搜尋引擎回傳的物件分數做計算。λ 值的設定用來反映 關係程度的評估標準,若λ=0 則表示以 10-Gram 中出現次數表示共同出現次數,
採取出現相關度較寬鬆的評量方式;若λ=1 則代表只用並聯出現次數作為共同出 現次數,因此是較嚴謹的共同出現次數計算,本論文將於實驗中探討λ 值的設定 對於挑選結果的影響。算式 5 中𝑟𝑖𝑗表示單字 i 與 j 緊鄰出現的次數相對於所有單 字緊鄰出現次數加總的比例值,對於較少相鄰出現的兩個單字,會得到較高的𝑟𝑖𝑗
值表示其可能為較具明確語意的特定字詞,非一般廣泛性字詞,因此給定較高的 加權值。
【範例 4-2】頻率式權重值之範例
假設使用者給定查詢‘jaguar’時,系統的查詢結果如圖 4.2 上方所示,若採用 頻率式權重值計算‘jaguar’與‘car’間的關聯程度,則計算方式如下。首先,我們 計算這兩個單字在 T 中共同出現的次數。以相鄰出現來計算的話,從物件一的 第一個字開始比對,因兩個字有相鄰出現,所以共同出現次數加 1;接著往後一 個字繼續比對,如此不斷計算直到此物件內容結束。若有下一個物件,則再從下 一物件內容的開頭,依相同方式繼續累計,考慮完所有 T 中所有物件後即完成 相鄰限制下的共同出現次數計算。十個字之內的共同出現次數與相鄰限制的計算 方式相似,只是將比對範圍設為十個字以內是否同時出現;若物件內容的字數低 於十個,則判斷該兩單字是否有出現即可。圖 4.2 上方內容的𝑐𝑖𝑗𝑤𝑠2及𝑐𝑖𝑗𝑤𝑠10之計
27
算結果如該圖下方所示。
接著我們計算‘jaguar’與‘car’的獨特性因子rij,如算式 5 將所有相鄰限制的共
同出現次數加總後可以得到 10。將 3 除以 10 再取以 2 為底的對數,將結果乘上 負號即可得出 jaguar 與 car 的獨特性因子rjaguar,car= 1.74。
最後,假設物件一的查詢結果關聯度score(𝑑1, q)為 2,因為 jaguar 與 car 涵 蓋物件一,所以根據算式 4 可以計算得到1.74 × 2(0.6 × 3 + 0.4 × 1) = 5.68,此
處我們假設λ 為 0.6,如此便完成‘jaguar’與‘car’的邊權重值計算。
圖 4.2 共同出現次數
28