文獻探討

第二章文獻探討

依據搜尋結果為使用者推薦查詢字，在資訊檢索領域已是一項熱門的研究主題。藉由提供推薦字讓使用者能更快速的滿足其搜尋意圖，或是引導他們選擇符合心中問題的查詢字是這個研究的主要目的。以下將依序介紹相關研究，分別為查詢詞推薦以及查詢結果相異性。

2.1 查詢詞推薦

查詢字詞推薦是現今搜尋引擎中很重要的一部分，無論是即時查詢字推薦，

或是擴展查詢推薦，目的都是提供使用者可能想要或需要的查詢字。其中即時查詢字推薦，是在使用者輸入查詢字未完成時即時提供推薦(論文[5])。本研究是針對使用者完成輸入查詢字並搜尋後，如何提供擴展查詢字進行研究。因此，以下介紹的相關研究分成查詢擴展及社交標籤系統之查詢推薦。

2.1.1 查詢詞擴展

查詢擴展(query expansion)的研究內容相當豐富，又稱 query refinement 或 query reformulation。依據查詢字句的長短，近來研究方向也是大相逕庭(論文[14、

21])。

由於短查詢句的用字數少，導致分析語意的結果相當極端；一般化的字詞容易使系統難以估測使用者的真正意圖，而明確的字詞雖然較不易使語意分析錯

誤，但相對地在推薦內容的相異性方面也難以提高。針對短查詢的研究比較多，

通常會以共同出現、機率模型、分群結果、機器學習或在短時間內先後出現的查詢為基底等概念作為挑選或產生推薦字的方法(論文[10、11、14、16、21])。

長的查詢句用字數多，可能多到像一段句子。因此，長查詢句比短查詢句具有更多有利於分析的資訊，但干擾字(noise)也隨著變多。論文[14]探討如何分析長查詢句，進而以查詢句中的字產生適當的推薦字給使用者參考。本研究考慮的每筆查詢結果可視為一個長查詢，因此本研究參考此方法並加以修改，用來取出搜尋結果中可表達查詢意圖的關鍵字。

但是，無論長短查詢句，絕大多數的研究都是考慮藉由查詢紀錄(或是龐大的資料庫)所學習到的模型進行分析(論文[10、11、14、16、21])。本論文是以不使用查詢紀錄為出發點，因此與有用查詢紀錄的大多數研究相比是一項挑戰。

2.2.2 社交標籤系統之查詢推薦

社交標籤(Social Tagging)是社交網站提供給用戶上傳資料時，對物件進行標記的功能。使用者能夠在上傳物件或產生文章時依據自己對物件資料的想法，透過單字對物件進行標記，進而與其他使用者互相分享訊息或觀點，例如：Twitter、

Facebook、Flickr 及 Del.icio.us 等大型社交網站都具備這種功能。使用者點選標籤後，社交網站會以該標籤作為查詢字進行搜尋並將搜尋結果條列給使用者瀏覽。這些搜尋結果可能是使用者曾經瀏覽的物件、網頁或是普通搜尋引擎的搜尋結果。因此，使用者可藉由標籤對物件進行篩選。

近年來社交網站的用戶急速增加，導致標籤資料隨著倍速成長，標籤雲(Tag

home、website 或 day 等字詞語意不夠明確容易造成使用者困惑。資訊檢索領域中，TF-IDF 其實有許多種變型，根據分析的文件長短有相對的計算方式。以 TF 較不相同的 diversity 方法，或是考慮物件涵蓋率的 Novelty 值。原物件之位置是考量字詞所涵蓋的物件之位置，認為原物件在搜尋結過的位置也是一種相關性呈現。因此被涵蓋的物件若位置較前面，則該字詞之代表性分數越高。理論上，若單純使用上述的任一種方式作為代表性的評估方法，效果無法比同時考慮兩種類別的方法優越。探勘標籤資料中具代表性的單字，與本論文考慮搜尋引擎的推薦

查詢目的不謀而合，唯一的差別在於，標籤資料是由使用者給定具有內容描述性或是情境敘述性的主題字，而本論文所分析的網頁摘要除了包含使用者的資訊需求，還帶有干擾搜尋意圖的贅字。

2.2 查詢結果相異性

基於一個已給定的查詢字，將其搜尋結果重新排序使得前後順序的文件主題盡可能不相同，希望在前幾名排序結果中提供與查詢字相關的多種主題文件給使用者參考，這就是查詢結果相異性的研究目標。目前對於此議題的研究，處理方法大致可分成採用隱性(implicit)及顯性(explicit)內容主題兩大類(論文[9])。

採用隱性內容主題的方式是透過假設每篇文章都具有其想要表達的主題或概念，並且相似的物件之間其主題概念也相似。這類的方法傾向選取各種不同主題概念的文章，或選擇不相似的物件，藉以增加分析結果的相異性，例如，透過自己定義的距離函式計算任兩物件的相異性，進而使挑選到的物件集之兩兩相異性最大化的 MMR(論文[7])。由於隱性方式所分析而得的文件集之主題概念不保

圖 2.1 標籤雲範例(來源：http://s3131212.com/make-tag-cloud/)

證與查詢句相關，因此不一定是使用者搜尋意圖之範圍，效果便比顯性方法差，

從近來的研究觀察得出是以顯性內容主題的方法居多。

而採用顯性內容主題的方法則是以查詢句相關的主題概念產生分析模型，這種方法事先需要以人工制定的主題概念做分類動作，ODP(Open Directory Proje ct)即為一個常被使用的主題概念來源。因為顯性內容主題的方法研究較多，分析方式也較多樣化，包含提出 IA-Select 的論文[2]、xQuAD[18]、propotionality mo del(PM)[8]以及結合組合理論中 Matroid theory 的論文[1]等都是有代表性的方法。上述顯性方法中，IA-Select、xQuAD 和 Matroid 都是以減少主題概念的重複為原則進行相異化，而 PM 是以發揮主題概念其本身的重要性為原則做挑選。由於論文[18]證實其方法–xQuAD 在 diversity 以及 relevance 方面都比 IA-Select 佳，

因此以 xQuAD 做為降低重複性論點的代表，將它與 PM 的概念相比。降低重複性的論點在提高相異性的同時，也可能導致許多主題概念的重要性被降低；而 P M 的做法與選舉時依據黨派分配國會席次的方式相似，將主題概念假想成黨派，

而分配席次便與分配各主題概念所能呈現的物件個數相似，因此理論上在相異性方面的效果 PM 應略為突出。

本研究就是以 PM 的做法對論文[14]的演算法做修改，由於該研究除了有使用龐大的查詢紀錄做為基底，搭配 TF-IDF 彰顯字詞之重要性。另外，屬於非階層式且易受主要字詞影響的分析結果使得效果相當極端；若系統分析出某字詞重要性相當高，便會導致與該字結合的推薦字之重要性也隨著提高許多。因此，本研究除了改以階層架構進行推薦，也加入 PM 分配的概念對第二層顯示的推薦數做適當的分配。如此一來，能夠避免多推薦相關度低的推薦字之可能。

在文檔中提供網頁搜尋結果篩選之查詢字詞推薦 (頁 15-20)

第二章 文獻探討

2.1 查詢詞推薦

2.2 查詢結果相異性

第二章文獻探討