• 沒有找到結果。

第一章 緒論

1.1 研究動機

隨著 Google 搜尋引擎使用的普遍,當人們遇到困難或疑問時,大多會透過 搜尋引擎,從網際網路上搜尋相關資料。輸入關鍵字形成查詢(Query)進行資料 搜尋,希望從搜尋引擎回傳的結果,找到所需資料或蒐集資料。搜尋引擎的使用 雖然方便,但是其搜尋結果經常回傳許多個別條列資料。以 Google 來說,會將 搜尋結果依據其和查詢字的相關程度做排序,並以 10 筆為單位進行分頁。由於 各個使用者的搜尋需求不盡相同,因此每位使用者不一定都能順利的在搜尋結果 前幾名資料中找到所需資料。當使用者面對資料量大的搜尋結果,如果我們能夠 從搜尋結果中,推薦相關的查詢字用來進一步篩選搜尋結果,減少使用者需要瀏 覽的資料數量,便可以更快速地幫助使用者達到查詢目的。

舉例來說,若使用者的查詢意圖是與 jaguar 保育相關的消息,而給定查詢字 jaguar;由於 jaguar 具有多種含意,搜尋結果中可能有 80%是關於汽車,10%關 於動物的豹,而剩下 10%則是關於橄欖球隊的資料。若搜尋結果中大多是與汽車 相關的資料,而豹的相關資料分散於汽車或其他主題資料之間,對於想找尋豹的 資料之使用者的瀏覽來說相當不便。假如能將具有相似主題的資料聚集成一群,

使用者便能輕鬆瀏覽到各種主題資料。例如推薦字含有 jaguar Panthera,則使用 者點選後便可挑選出與動物相關的內容。因此,如何自動提供表達各種語意概念 的推薦字給使用者參考,是值得探討的問題。

近來的研究大多從已有一個龐大的查詢紀錄資料庫為依據(論文[11]、[5]、

2

[16]、[10]及[4]),藉由過去其他使用者操作搜尋引擎的查詢記錄及後續瀏覽行為,

包含所下的查詢字,以及點選的網頁或是停留各個網頁的時間等資訊,使系統學 習出查詢字和使用者查詢意圖的關聯模型,進而用在查詢字的推薦上。然而,若 沒有足夠大的查詢紀錄,就無法藉由以查詢記錄為依據的方法為使用者推薦適當 查詢字。因此,如何能夠不需要有查詢記錄,直接根據搜尋結果為使用者推薦查 詢字是關於此類研究問題的另一個挑戰。

1.2 研究目的

本研究的目標是根據使用者給定的查詢字,透過搜尋引擎回傳的搜尋結果,

評估挑選出一些推薦字詞,希望經由這些推薦字詞可進一步篩選搜尋結果,幫助 使用者減少瀏覽負擔,更快地完成搜尋。

以下表 1.1 為例,若文件一至五表示查詢字 jaguar 的搜尋結果。文件一,主 要內容是以 Car 為主題,但是 Car 這個字仍不足以明確表達該文件所描述的 Jag uar Land Rover 系列製造商,需要加上 Land Rover 及 manufacturer 等單字才能 彰顯文件內容,因此畫底線的單字表示是能區分不同主題概念的關鍵字。

若系統提供三個推薦字 Car,Cat,及 Sport,則使用者可直接點選 Car,由 系統篩選出含有 Car 這個單字的文件條列給使用者瀏覽。以表 1.1 為例,選擇推 薦字 Car 後,系統便會將文件一、三、四及五顯示給使用者;選擇推薦字 Cat 後,

則會過濾出文件二給使用者。透過點選推薦字詞縮減搜尋結果,便能減輕使用者 需要瀏覽大量資料的負擔。

3

表 1.1 搜尋結果之範例

文件一

Jaguar Cars since December 2012 officially incorporated as Jaguar Land Rover Ltd, is a British multinational car manufacturer

headquartered in Whitley.

文件二

The jaguar Panthera onca, is a big cat, a feline in the Panthera genus, and is the only Panthera species found in the Americas. The jaguar is the third-largest.

文件三 Visit us at Hampton Jaguar for your new or used exotic, luxury or sports car. We are a premier Jaguar dealer providing a comprehensive

文件四

Jaguar cars: research Jaguar cars, read Jaguar reviews, find Jaguar car listings and get Jaguar pricing & dealer quotes.

文件五

jaguar is a british luxury car manufacturer and is part of the jaguar land rover business which is a subsidiary of the indian company tata - Top Speed cars.

在挑選查詢推薦字詞時,必須考慮推薦字詞對搜尋結果的涵蓋率,例如當推 薦字詞為 car dealer,car land rover,sports car,cat onca,則被涵蓋(Covered)的文 件有文件一、二、三、四及五。每篇文件都能透過不同推薦字詞篩選出來顯示給 使用者瀏覽,表示涵蓋率達到百分之百。其中 car dealer 可涵蓋文件三與四,sports car 可涵蓋文件三,兩者皆會涵蓋文件三。因此,在推薦字詞時只需推薦 car dealer,

以避免重複推薦。要達到高涵蓋率且避免此例中推薦字詞涵蓋的文件重複 (Overlap)程度太高的情況,是我們研究要達到的目標。

4

此外,有些關鍵字的主題範圍較廣泛,例如 Car 可能具有多種查詢意圖:如 維修、型錄、經銷商、品牌歷史或二手車等。因此,需要組合其他能代表文件內 容或文件用途的單字,表達出更為明確的語意。但有些關鍵字如 Whitley 則本身 語意較明確。因此,我們選擇透過階層的方式呈現推薦字。第一階層選擇以概念 性廣的字作為推薦,且整體盡量能代表查詢結果中各方面語意並涵蓋搜尋結果。

以上一個例子來說,Car 這種具有高涵蓋率且語意範圍廣的字適合做為第一層的 主題查詢字詞。當使用者點選 Car 後,可將搜尋結果縮小為文件一、三、四及五;

接著,第二層則會推薦如 Car dealer,Car manufacturer 為查詢推薦字詞以表示更 明確的資訊需求。透過此種雙層的查詢字詞推薦,可讓使用者依需要選取第一層 /第二層概念廣泛度不同的推薦字詞來篩選搜尋結果。

1.3 研究的範圍與限制

本論文考慮在系統底層由一個能夠回傳標題(Title)及網頁摘要(Snippet)的搜 尋引擎找出搜尋結果,並假設其搜尋結果排序較前面的文件(top result)與查詢字 較相關。當使用者給定可包含多個英文單字所形成的查詢,透過搜尋引擎進行搜 尋後,本研究將搜尋結果中取出前 t 筆,且假設其內容皆為英文,自動從標題及 網頁摘要中挑選出適合作為搜尋結果篩選的次主題查詢字詞。

本論文之研究重點為:如何對搜尋結果中的各個單字或字詞,訂出字詞在結 果中的概念廣泛度及語意明確度的計算方法。使得給定一個推薦字詞數量 QS 之 限制下,挑選出能夠盡量涵蓋搜尋結果且被涵蓋的文件之間重複率低的 QS 個推 薦字詞。

5

1.4 論文方法

本論文方法經由前處理從搜尋引擎回傳結果中取出名詞作為候選字,針對這 些候選字進行以下處理。首先,藉由涵蓋的資料物件數量呈現概念廣泛度,根據 概念廣泛度挑選並產生第一階層的主題查詢字詞。另外,建立候選字之間的相鄰 位置關係圖。根據此圖透過隨機漫步(Random Walk)演算法,計算出各個候選字 在該搜尋結果中的語意明確度。次主題查詢字詞是由 2 至 3 個候選字組合而成,

藉由隨機漫步演算法的估測結果為候選次主題查詢字詞計算分數,並且依據該分 數將其由高至低排序。

圖 1.1 系統架構 搜尋引擎回傳結果

Input query

雙層之推薦 查詢字詞

計算語意明確度

以概念廣泛度逐一

挑選主題查詢字詞 挑選次主題查詢字詞

6

給定一個次主題查詢字詞之數量限制,本論文方法以第一層主題查詢字詞的 涵蓋率作為比例,計算出其第二層次主題查詢字詞的推薦數量。這個作法使得涵 蓋率高的字詞,在它的下一層提供較多的次主題查詢字詞。我們將這一連串的處 理方法命名為 M_PhRank。

為了評估本論文方法之執行效果,在實驗中我們採用實際資料,對本論文方 法採用不同策略所找出推薦字詞對查詢結果涵蓋率(Coverage)及重疊程度的效果 評估。考慮的不同策略分成在隨機漫步模型中使用不同的邊權重計算方式,以及 在推薦次主題查詢字詞的不同挑選策略兩部分。此外,我們採用潛藏狄利克里分 配(Latent Dirichlet Allocation,LDA)為基礎對查詢結果分群推薦,產生次主題查 詢字詞作為比較基準,實驗結果顯示本論文方法明顯優於潛藏狄利克里分配為基 礎產生的推薦結果。

1.5 論文架構

本論文以下章節內容如下:第二章說明相關研究之文獻探討。第三章說明主 題查詢字詞挑選方法。第四章說明單字語意明確度計算方式。第五章說明產生並 挑選次主題查詢字詞。第六章則說明實驗評估結果及討論,最後在第七章進行總 結並提出未來研究方向。

7