階層式推薦架構中第一層由 3.3 小節篩選而得的主題查詢字詞作為推薦,為 提供語意更為明確的第二階層次主題查詢字詞,我們對每一個主題查詢字詞與其 他非主題查詢字詞的單字進行組合,使得產生的候選字詞能夠比原本主題查詢字 詞之語意更為明確且更有篩選效果。其處理流程如圖 5.1,共分成三大步驟
圖 5.1 本章處理流程 Topical
Terms
Extract query suggestions
Suggested term diversification
Two-level Hierarchical suggestion
Term Score
Candidate generation
37
5.1 產生候選次主題查詢字詞
此處我們需要產生的候選次主題查詢字詞,屬於階層式推薦架構的第二層。
當使用者點選主題查詢字詞後,便呈現對應的第二層次主題查詢字詞給使用者參 考,因此候選次主題查詢字詞就是由主題查詢字詞與其他單字組合而成。以最直 觀的想法而言,查詢字詞的產生就是任意幾個單字組合即可,但太多的查詢字組 合反而無法形成廣為大家接受的查詢詞,因此本論文選擇以 2 到 3 個字作為次主 題查詢字詞的長度。為了減少任意組合產生的過多候選字詞,我們只考慮有共同 出現的組合情形作為候選次主題查詢字詞。
字與字之間的不同排序會影響語意的呈現,以查詢字 red 為例,若存在一個 候選次主題查詢字詞 cross red,本意應為紅十字會的 red cross,但順序相反的情 形下對使用者可能會造成閱讀上的不方便。因此,本論文分析候選次主題查詢字 詞的各種排序情形,分別計算每一種排序在搜尋結果中出現的次數,以出現次數 最多的排序情況作為推薦給使用者的結果。
38
圖 5.2 主題查詢字詞 estate 的候選次主題查詢字詞
【範例 5-1】 產生候選次主題查詢字詞之範例
根據範例 3-1 當使用者給定查詢字‘appraisals’,系統挑選出主題查詢字詞 appraise 和 estate。依據產生候選次主題查詢字詞的規則,與主題查詢字詞 estate 有共同出現在某物件的單字包含有 asc、subcommittee、market、years、appraise、
appraisal、home、term 和 management,其中扣除主題查詢字詞 appraise 以及查詢 字的原形化結果 appraisal 後,我們可以得到 estate 的候選次主題查詢字詞如圖 5.2 所示。以 asc estate market 為例,其單字排序是由於搜尋結果中雖然沒有 asc estate market 三個單字共同出現的物件,但是 estate 與 asc 以 asc estate 的排序情 形在物件三出現一次,而 estate market 則在物件四出現一次,因此我們認為 asc estate market 是最佳的組合順序。最後,將 estate 的候選次主題查詢字詞依據語
39
意明確度排序後做為下一步驟挑選的來源,因此圖 5.3 所示為主題查詢字詞 estate 的候選字詞依語意明確度排序後最高之前 5 名結果。
圖 5.3 主題查詢字詞 estate 其語意明確度前 5 高之候選字詞
5.2 挑選次主題查詢字詞
對於使用者給定的推薦數量 QS,表示各個主題查詢字詞的第二層推薦字詞 數量加總後等於 QS。在推薦數量有限制的情況下,我們認為第一層涵蓋率高的 主題查詢字詞主題性較廣,其第二層應該給予較多的推薦數量。因此,本論文參 考論文[8、9]中比例法多樣化的處理方式,稱為 PM-2 演算法,選用此方法中 Sainte-Laguë method 的概念,將 QS 依據各主題查詢字詞對查詢結果 T 的涵蓋率 進行比例分配。算式如下:
𝑞𝑡𝑖 = 2𝑠𝑤𝑡𝑖
𝑖+1 (算式 13)
算式 13 中𝑞𝑡𝑖表示主題查詢字詞 i 的第二層可推薦數量,𝑤𝑡𝑖表示主題查詢字
40
詞 i 的權重值,本論文是以該主題查詢字詞的涵蓋率作為權重值計算,𝑠𝑖則表示 主題查詢字詞 i 第二層已獲得的推薦數量,𝑠𝑖的初始化皆設為 0。第一回合的分 配中,由於𝑠𝑖皆為 0,所以由涵蓋率最高的主題查詢字詞𝑤∗配得一個推薦權,並 由𝑤∗的候選次主題查詢字詞集合中語意明確度最高的候選次主題查詢字詞作為 𝑤∗的第一個次主題查詢字詞,接著更新s𝑖∗ = 0 + 1 = 1完成一回合的挑選。下一 回合重新計算所有主題查詢字詞的𝑞𝑡𝑖值後,依據相同方式進行挑選,如此不斷 挑選直到挑滿 QS 個為止。
【範例 5-3】 挑選查詢推薦字詞之範例
以表 3.1 作為搜尋結果,使用者給定的查詢字為‘appraisals’,系統篩選出主 題查詢字詞 appraise 及 estate,並要求提供 5 個次主題查詢字詞。透過本論文挑 選次主題查詢字詞的方式,其過程敘述如下。
首先,產生候選次主題查詢字詞,我們以主題查詢字詞 estate 為例,其候選 字詞如圖 5.3。初始化兩個主題查詢字詞所配得的推薦數量𝑠𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒與𝑠𝑒𝑠𝑡𝑎𝑡𝑒為 0,
分配第一個推薦權時,藉由算式 13 可計算
出𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 =2∗0+11.0 = 1.0,𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒 =2∗0+10.4 = 0.4,因為𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 > 𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒,所
以將第一個分配權給 appraise。接著,觀察主題查詢字詞 appraise 已排序的候選 字詞,挑選分數最高的候選字詞 appraise property 作為其次主題查詢字詞,並更
新𝑠𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 = 1完成第一個推薦權的分配。
配置第二個推薦權時,兩個主題查詢字詞推薦數量分別為𝑠𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 = 1與 𝑠𝑒𝑠𝑡𝑎𝑡𝑒 = 0,計算分配權重為𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 =2∗1+11.0 = 0.33,𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒 =2∗0+10.4 = 0.4,
41
此時𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 < 𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒,故將第二個分配權給 estate。根據其候選字詞,如圖
5.3,我們將選擇 estate market 作為 estate 的次主題查詢字詞,並更新𝑠𝑒𝑠𝑡𝑎𝑡𝑒 = 1完 成第二個推薦權的分配。依據這種分配方式進行五回合之後,便能夠選出五個次 主題查詢字詞,參考圖 5.4。
圖 5.4 範例 5-3 的階層推薦架構
5.3 多樣化挑選機制
我們發現系統根據上述方法產生的階層式推薦架構中,第二層的次主題查 詢字詞之間忽略主題查詢字詞之後,會出現單字重複的情形。舉例來說,圖 5.4 中主題查詢字詞 appraise 的第一個與第四個次主題查詢字詞在單字 property 發生 重複。針對這種情形,我們參考論文[14]的處理方式,當上下推薦字詞之間發生 重複,則保留排序較前面的次主題查詢字詞並將造成重複的刪除。
42
【範例 5-4】 多樣化挑選機制之範例
以範例 5-3 為例,主題查詢字詞 appraise 的次主題查詢字詞 appraise property 與 appraise property home 出現相同的字,我們根據語意明確度計算結果認為 appraise property 較能完整表達資訊需求且不具有贅字的情形下,將排序較後面 的 appraise property home 刪去。再由語意明確度次高的次主題查詢字詞進行多樣 化挑選機制之檢查,因此,階層推薦架構如圖 5.5。
圖 5.5 範例 5-4 多樣化挑選的結果
43