緒論 - 提供網頁搜尋結果篩選之查詢字詞推薦

第一章緒論

1.1 研究動機

隨著 Google 搜尋引擎使用的普遍，當人們遇到困難或疑問時，大多會透過搜尋引擎，從網際網路上搜尋相關資料。輸入關鍵字形成查詢(Query)進行資料搜尋，希望從搜尋引擎回傳的結果，找到所需資料或蒐集資料。搜尋引擎的使用雖然方便，但是其搜尋結果經常回傳許多個別條列資料。以 Google 來說，會將搜尋結果依據其和查詢字的相關程度做排序，並以 10 筆為單位進行分頁。由於各個使用者的搜尋需求不盡相同，因此每位使用者不一定都能順利的在搜尋結果前幾名資料中找到所需資料。當使用者面對資料量大的搜尋結果，如果我們能夠從搜尋結果中，推薦相關的查詢字用來進一步篩選搜尋結果，減少使用者需要瀏覽的資料數量，便可以更快速地幫助使用者達到查詢目的。

舉例來說，若使用者的查詢意圖是與 jaguar 保育相關的消息，而給定查詢字 jaguar；由於 jaguar 具有多種含意，搜尋結果中可能有 80%是關於汽車，10%關於動物的豹，而剩下 10%則是關於橄欖球隊的資料。若搜尋結果中大多是與汽車相關的資料，而豹的相關資料分散於汽車或其他主題資料之間，對於想找尋豹的資料之使用者的瀏覽來說相當不便。假如能將具有相似主題的資料聚集成一群，

使用者便能輕鬆瀏覽到各種主題資料。例如推薦字含有 jaguar Panthera，則使用者點選後便可挑選出與動物相關的內容。因此，如何自動提供表達各種語意概念的推薦字給使用者參考，是值得探討的問題。

近來的研究大多從已有一個龐大的查詢紀錄資料庫為依據(論文[11]、[5]、

[16]、[10]及[4])，藉由過去其他使用者操作搜尋引擎的查詢記錄及後續瀏覽行為，

包含所下的查詢字，以及點選的網頁或是停留各個網頁的時間等資訊，使系統學習出查詢字和使用者查詢意圖的關聯模型，進而用在查詢字的推薦上。然而，若沒有足夠大的查詢紀錄，就無法藉由以查詢記錄為依據的方法為使用者推薦適當查詢字。因此，如何能夠不需要有查詢記錄，直接根據搜尋結果為使用者推薦查詢字是關於此類研究問題的另一個挑戰。

1.2 研究目的

本研究的目標是根據使用者給定的查詢字，透過搜尋引擎回傳的搜尋結果，

評估挑選出一些推薦字詞，希望經由這些推薦字詞可進一步篩選搜尋結果，幫助使用者減少瀏覽負擔，更快地完成搜尋。

以下表 1.1 為例，若文件一至五表示查詢字 jaguar 的搜尋結果。文件一，主要內容是以 Car 為主題，但是 Car 這個字仍不足以明確表達該文件所描述的 Jag uar Land Rover 系列製造商，需要加上 Land Rover 及 manufacturer 等單字才能彰顯文件內容，因此畫底線的單字表示是能區分不同主題概念的關鍵字。

若系統提供三個推薦字 Car，Cat，及 Sport，則使用者可直接點選 Car，由系統篩選出含有 Car 這個單字的文件條列給使用者瀏覽。以表 1.1 為例，選擇推薦字 Car 後，系統便會將文件一、三、四及五顯示給使用者；選擇推薦字 Cat 後，

則會過濾出文件二給使用者。透過點選推薦字詞縮減搜尋結果，便能減輕使用者需要瀏覽大量資料的負擔。

表 1.1 搜尋結果之範例

文件一

Jaguar Cars since December 2012 officially incorporated as Jaguar Land Rover Ltd, is a British multinational car manufacturer

headquartered in Whitley.

文件二

The jaguar Panthera onca, is a big cat, a feline in the Panthera genus, and is the only Panthera species found in the Americas. The jaguar is the third-largest.

文件三 Visit us at Hampton Jaguar for your new or used exotic, luxury or sports car. We are a premier Jaguar dealer providing a comprehensive

文件四

Jaguar cars: research Jaguar cars, read Jaguar reviews, find Jaguar car listings and get Jaguar pricing & dealer quotes.

文件五

jaguar is a british luxury car manufacturer and is part of the jaguar land rover business which is a subsidiary of the indian company tata - Top Speed cars.

在挑選查詢推薦字詞時，必須考慮推薦字詞對搜尋結果的涵蓋率，例如當推薦字詞為 car dealer，car land rover，sports car，cat onca，則被涵蓋(Covered)的文件有文件一、二、三、四及五。每篇文件都能透過不同推薦字詞篩選出來顯示給使用者瀏覽，表示涵蓋率達到百分之百。其中 car dealer 可涵蓋文件三與四，sports car 可涵蓋文件三，兩者皆會涵蓋文件三。因此，在推薦字詞時只需推薦 car dealer，

以避免重複推薦。要達到高涵蓋率且避免此例中推薦字詞涵蓋的文件重複 (Overlap)程度太高的情況，是我們研究要達到的目標。

此外，有些關鍵字的主題範圍較廣泛，例如 Car 可能具有多種查詢意圖：如維修、型錄、經銷商、品牌歷史或二手車等。因此，需要組合其他能代表文件內容或文件用途的單字，表達出更為明確的語意。但有些關鍵字如 Whitley 則本身語意較明確。因此，我們選擇透過階層的方式呈現推薦字。第一階層選擇以概念性廣的字作為推薦，且整體盡量能代表查詢結果中各方面語意並涵蓋搜尋結果。

以上一個例子來說，Car 這種具有高涵蓋率且語意範圍廣的字適合做為第一層的主題查詢字詞。當使用者點選 Car 後，可將搜尋結果縮小為文件一、三、四及五；

接著，第二層則會推薦如 Car dealer，Car manufacturer 為查詢推薦字詞以表示更明確的資訊需求。透過此種雙層的查詢字詞推薦，可讓使用者依需要選取第一層 /第二層概念廣泛度不同的推薦字詞來篩選搜尋結果。

1.3 研究的範圍與限制

本論文考慮在系統底層由一個能夠回傳標題(Title)及網頁摘要(Snippet)的搜尋引擎找出搜尋結果，並假設其搜尋結果排序較前面的文件(top result)與查詢字較相關。當使用者給定可包含多個英文單字所形成的查詢，透過搜尋引擎進行搜尋後，本研究將搜尋結果中取出前 t 筆，且假設其內容皆為英文，自動從標題及網頁摘要中挑選出適合作為搜尋結果篩選的次主題查詢字詞。

本論文之研究重點為：如何對搜尋結果中的各個單字或字詞，訂出字詞在結果中的概念廣泛度及語意明確度的計算方法。使得給定一個推薦字詞數量 QS 之限制下，挑選出能夠盡量涵蓋搜尋結果且被涵蓋的文件之間重複率低的 QS 個推薦字詞。

1.4 論文方法

本論文方法經由前處理從搜尋引擎回傳結果中取出名詞作為候選字，針對這些候選字進行以下處理。首先，藉由涵蓋的資料物件數量呈現概念廣泛度，根據概念廣泛度挑選並產生第一階層的主題查詢字詞。另外，建立候選字之間的相鄰位置關係圖。根據此圖透過隨機漫步(Random Walk)演算法，計算出各個候選字在該搜尋結果中的語意明確度。次主題查詢字詞是由 2 至 3 個候選字組合而成，

藉由隨機漫步演算法的估測結果為候選次主題查詢字詞計算分數，並且依據該分數將其由高至低排序。

圖 1.1 系統架構搜尋引擎回傳結果

Input query

雙層之推薦查詢字詞

計算語意明確度

以概念廣泛度逐一

挑選主題查詢字詞挑選次主題查詢字詞

給定一個次主題查詢字詞之數量限制，本論文方法以第一層主題查詢字詞的涵蓋率作為比例，計算出其第二層次主題查詢字詞的推薦數量。這個作法使得涵蓋率高的字詞，在它的下一層提供較多的次主題查詢字詞。我們將這一連串的處理方法命名為 M_PhRank。

為了評估本論文方法之執行效果，在實驗中我們採用實際資料，對本論文方法採用不同策略所找出推薦字詞對查詢結果涵蓋率(Coverage)及重疊程度的效果評估。考慮的不同策略分成在隨機漫步模型中使用不同的邊權重計算方式，以及在推薦次主題查詢字詞的不同挑選策略兩部分。此外，我們採用潛藏狄利克里分配(Latent Dirichlet Allocation，LDA)為基礎對查詢結果分群推薦，產生次主題查詢字詞作為比較基準，實驗結果顯示本論文方法明顯優於潛藏狄利克里分配為基礎產生的推薦結果。

1.5 論文架構

本論文以下章節內容如下：第二章說明相關研究之文獻探討。第三章說明主題查詢字詞挑選方法。第四章說明單字語意明確度計算方式。第五章說明產生並挑選次主題查詢字詞。第六章則說明實驗評估結果及討論，最後在第七章進行總結並提出未來研究方向。

在文檔中提供網頁搜尋結果篩選之查詢字詞推薦 (頁 9-15)

緒論

第一章 緒論