第二章 文獻探討
2.3 辨識查詢面向
辨識查詢面向是現今網路資訊搜尋中很重要的研究課題,當使用者利用網路 搜尋引擎進行查詢時,辨識查詢之面向能幫助使用者更加快速找到欲搜尋資訊,
而查詢面向之呈現方法包含了推薦和原始查詢之相關查詢或是擴展查詢之限定 詞,以下將介紹查詢詞推薦和查詢詞擴展之相關研究。
2.3.1查詢詞推薦
和原始查詢詞相關之查詢詞推薦主要分為即時查詢詞推薦以及非即時查詢 詞推薦兩種。其中即時查詢詞推薦是在使用者尚未完成輸入查詢詞時,即根據現 有輸入文字即時推薦後續可接的查詢字(論文[3]、[16]),而本論文是針對使用者 已完成輸入提出的問題,尋找和問題相關之查詢詞,因此即時查詢詞推薦較不適 用。
目前非即時查詢詞推薦之研究大多是採用和原始查詢詞共同出現、分群結果 或是機器學習等概念作為挑選或產生相關查詢詞推薦的方法(論文[6]、[8]、[17]),
然而上述之方法都需考慮過去使用者之查詢紀錄,本論文是以不使用查詢紀錄為 出發點,因此與大多數的研究相比將是一項挑戰。
2.3.2查詢詞擴展
查詢詞擴展(query expansion)又稱作 query refinement 或 query reformulation。
目前查詢詞擴展的相關研究根據查詢詞的長短,研究方法也不大相同。
對於字數較少的短查詢詞,查詢的意圖可能較模糊不清難以辨別,導致回傳 的查詢結果含有不相關資訊,針對短查詢擴展是在原始查詢詞後加入相關的字 詞,以提升查詢結果的準確度。[18]提到擴展短查詢詞的方法,根據資料來源可 分為使用區域(Local)資料以及全域(Global)資料兩種方法,並針對此兩種方法進行 分析比較。
11
使用區域(Local)資料當作資料來源的方法,採用虛擬相關回饋文章(pseudo relevance feedback document)來擴展查詢詞,此方法利用原始查詢詞以搜尋引擎進 行查詢,並且回傳結果排名越前面的和查詢詞越相關,選取回傳結果前幾名的文 章內容並去除 stop words 當作資料來源,接著計算資料來源中每個字詞的出現頻 率,若出現頻率越高則代表和查詢詞越相關,選取出現頻率較高的字詞加入原始 查詢詞後方擴展查詢詞。[21]考慮到網頁搜尋結果頁面除了相關文章亦包含不相 關資訊,例如:圖片或是贊助此網頁公司的廣告,而網頁設計者在設計網頁時通常 會將網頁內容進行組織,以利使用者方便閱讀。因此,此論文提出以視覺為基礎 的網頁分割演算法將網頁進行分割,並偵測在網頁結構中和查詢詞語意相關的部 分。[14]則認為當查詢詞模糊不清含有不同主題時,使用者可能同時對兩個或以 上的主題感興趣。因此,此論文提出如何從資料來源中,挑選多樣化擴展字詞的 方法。
使用全域(Global)資料當作資料來源的方法,則是使用一個大的語料庫,檢查 在整個語料庫中和查詢詞共同出現的字以及和查詢詞的關係,利用這些資訊來擴 展查詢詞。然而每次擴展查詢詞都要針對整個大語料庫進行搜尋找出相關資訊,
會花費相當大的成本,為了節省成本一般的作法則是採用已經存在的詞庫資源,
例如:WordNet 或是 ConceptNet,來找出和查詢詞相關的字詞(論文[2])。
而近幾年除了使用區域(Local)資料以及全域(Global)資料當作資料來源外,亦 有研究採用使用者歷史搜尋紀錄當作資料來源擴展查詢詞(論文[5]、[15])。此方 法需先收集過去使用者所下的查詢詞,以及利用此查詢詞進行搜尋後所點選的網 頁,探討使用者查詢意圖,用以擴展查詢詞。
對於字數較多的長查詢詞,較有利於從查詢詞中分析所含有的資訊,但隨著 字數的變多干擾字(noise)也隨著變多。因此,對於長查詢詞的研究分析主要可分 為兩種類型,一種是著重於計算長查詢詞內子查詢的分部找出最佳的子查詢,另 一種則是著重於計算字詞權重找出代表字詞。
[19]著重於計算長查詢詞內子查詢的分部,並且在此論文中考慮到可以替換 的子查詢詞,因此將子查詢進行改寫後的查詢詞亦當作子查詢的一種,並計算子 查詢的分佈,最後找出最佳的子查詢。
[7]、[9]則著重於計算字詞權重,選擇查詢詞中的關鍵字詞推薦給使用者,而 查詢詞內字詞權重計算的主要方法在先使用原始查詢詞作查詢,根據查詢結果找 出較重要的字詞。當一字詞出現的頻率越高,則代表此字詞較為重要,且當重要 字詞常和其他重要字詞一起出現時,此字詞的權重也會增加,利用迭代的算法更 新字詞權重並且考慮此字詞的逆向文件頻率(Inverse Document Frequency)。
本論文希望找出問題句中的查詢面向,而使用者提出的問題句所含的字數通 常較多,可視為一個長查詢,因此本論文將參考長查詢詞之擴展方法並加以修改。