• 沒有找到結果。

提供網頁搜尋結果篩選之查詢字詞推薦

N/A
N/A
Protected

Academic year: 2021

Share "提供網頁搜尋結果篩選之查詢字詞推薦"

Copied!
78
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:柯佳伶 博士. 提供網頁搜尋結果篩選之查詢字詞推薦 Two-level Query Suggestion for Specialization on Web Search Results. 研究生: 中華民國. 鄭舜宸. 一百零三 年. 撰 七 月.

(2) 摘要 提供網頁搜尋結果篩選之查詢字詞推薦 鄭舜宸 本研究的目標是從搜尋引擎所回傳的大量搜尋結果,評估挑選出一些查詢推 薦字,讓使用者透過這些推薦字篩選搜尋結果,以減少使用者瀏覽搜尋結果的負 擔。本研究提出一個雙層的查詢字詞推薦方法,稱為 M_PhRank,第一層提供概 念廣的主題查詢字詞,第二層則呈現語意較明確的次主題查詢字詞。本論文提出 的方法主要分為挑選主題查詢字詞,計算單字語意明確度以及挑選次主題查詢字 詞三部分。在第一部分,針對前處理後留下的單字藉由涵蓋的資料物件數量作為 挑選依據,將主題查詢字詞作為第一階層的推薦。第二部分建立單字之間的鄰近 位置出現的關係圖,以此關係圖透過隨機漫步演算法,計算各個候選字在該搜尋 結果中的語意明確程度。最後,基於給定的推薦字詞之數量,依據主題查詢字詞 的涵蓋率做比例分配,評估其第二層可推薦之數量進而挑選推薦字詞,完成階層 架構之建置。實驗顯示 M_PhRank 比基準方法能涵蓋更多查詢結果關聯度高的物 件,且能降低涵蓋率提升時重複率增加的幅度;另外,從使用者評估的實驗結果 顯示, M_PhRank 所建立的查詢推薦字架構能提供較好的輔助查詢效果。. 關鍵字:查詢字推薦、階層式推薦、隨機漫走.

(3) Abstract Two-level Query Suggestion for Specialization on Web Search Results By Shun-Chen, Cheng. The goal of this thesis is to automatically suggest query keywords from the search results returned by the search engine in order to further filter the large amount of search results by using these query keywords as the specialized queries. A two-level query suggestion method, called the M_PhRank, is proposed. The first level suggestion aims to provide the query terms, which can cover search results as many as possible, and the query terms in the second level should have clear meaning and lower overlap between their covered objects. Firstly, the coverage over search results is computed as the novelty score of a word, which is used to select the topic terms in the first level suggestion. Secondly, the semantic scores of words are estimated by using the random walk algorithm on the co-occurrence graph of words. The query keywords consisting of 2-3 non-topic terms form the candidate subtopic terms, whose semantic scores are computed according to the semantic scores of their composing words. According to the given suggestion number, the number of subtopic terms under the topic-terms is decided proportional to the coverage of the topic terms. Finally, the hierarchical query suggestion structure is constructed by the topic terms in first level and their corresponding subtopic terms on the second level. The empirical experiment results show that the M_PhRank method performs better than the baseline method on providing more semantics specific terms and high coverage with limited overlap increasing. Moreover, according to user survey, the hierarchy of query keyword suggestions constructed by M_PhRank gets high satisfaction on query assistance.. Keywords: query suggestions、hierarchical suggestions、random walk.

(4) 誌 謝 就讀研究所的兩年,非常感謝柯佳伶老師的辛勤指導,使我從無至有學習到 各方面的知識與經驗,包含專業領域的知識、問題解決與思考的方式,平時待人 處事之道等等,都感謝老師不吝嗇給予建議與教導,使我成長許多。另外,同時 也感謝陳良弼教授及林真尹教授在口試期間對本論文提供寶貴的建議與指教,在 此亦致上對兩位教授的謝意。 兩年的日子裡,需要感謝的人很多。首先謝謝實驗室的好夥伴兼朋友懿萱、 楨喻和張崴,感謝你們在我遇到瓶頸時的建議,在心情低落時的陪伴與安慰,研 究的路上有你們真好。感謝好朋友貞佑、晏瑋以及巧珊陪伴在我左右,給我勇氣 和動力繼續努力。謝謝實驗室學長們昇宏、奕智、柏先、爾剛和俊嘉在百忙之中 關心我的研究進度並給予建議和鼓勵,謝謝實驗室學弟妹紹峻、思涵、培豪和聖 池在我研究期間的所有幫助與鼓勵。特別感謝男朋友兼好朋友的軒嘉,在研究期 間給予我無盡的鼓勵、陪伴與建議,使我停止鑽牛角尖折磨自己,讓我在煩惱時 能夠開心的大笑,謝謝。 謝謝人生中的好姊妹雅萱和雅琪在口試前細心聆聽我的口試報告,在我手足 無措和難過時找回自己,找回精神繼續面對未來。還有,好朋友哲立、劉澤、堤 多與李皓,抽空幫我練習口試並給予建議。謝謝所有幫我做實驗的朋友們,沒有 你們的幫助這個論文就不會完整。最後,感謝父母親、妹妹們以及所有關心我的 家人們,因為有你們在背後支持與鼓勵我才能完成這一切。 對於上述的各位及所有關心我的人,謹以此誌謝表達最衷心的感謝。 鄭舜宸. 謹識. 於國立台灣師範大學資訊工程研究所 2014 年 7 月.

(5) 目錄 附表目錄..................................................................................................... i 附圖目錄.................................................................................................... ii 第一章 緒論...............................................................................................1 1.1 研究動機....................................................................................................... 1 1.2 研究目的....................................................................................................... 2 1.3 研究的範圍與限制......................................................................................... 4 1.4 論文方法......................................................................................................... 5 1.5 論文架構......................................................................................................... 6. 第二章 文獻探討 ......................................................................................7 2.1 查詢詞推薦..................................................................................................... 7 2.1.1 查詢詞擴展.......................................................................................... 7 2.2.2 社交標籤系統之查詢推薦................................................................... 8 2.2 查詢結果相異性........................................................................................... 10. 第三章 主題查詢字詞挑選方法 ............................................................12 3.1 前處理........................................................................................................... 13 3.2 概念廣泛度評估方法................................................................................... 14 3.2.1 新穎程度值........................................................................................ 15 3.2.2 加入亂度的新穎程度值.................................................................... 18. 第四章 單字語意明確度計算方法 ........................................................22 4.1 建立關係圖................................................................................................... 23 4.2 計算邊的權重值........................................................................................... 24 4.2.1 頻率式權重值.................................................................................... 24 4.2.2 語意式權重值.................................................................................... 28 4.3 隨機漫步....................................................................................................... 31 4.4 計算節點加權值........................................................................................... 34. 第五章 產生並挑選次主題查詢字詞 ....................................................36 5.1 產生候選次主題查詢字詞........................................................................... 37 5.2 挑選次主題查詢字詞................................................................................... 39 5.3 多樣化挑選機制........................................................................................... 41.

(6) 第六章 實驗評估與討論 ........................................................................43 6.1 實驗資料來源及環境設定........................................................................... 43 6.1.1 實驗資料來源.................................................................................... 43 6.1.2 資料前處理........................................................................................ 43 6.1.3 實驗環境............................................................................................ 44 6.2 實驗評估方法............................................................................................... 45 6.3 本系統內部採用方法之效果比較............................................................... 46 6.3.1 查詢測試資料.................................................................................... 47 6.3.2 實驗結果............................................................................................ 47 6.3.3 實驗結果討論.................................................................................... 55 6.4 階層式推薦架構之效果分析....................................................................... 55 6.4.1 測試資料............................................................................................ 55 6.4.2 實驗基準比較方法............................................................................ 56 6.4.3 實驗結果............................................................................................ 57 6.4.4 實驗結果討論.................................................................................... 60 6.5 使用者評分................................................................................................... 60 6.5.1 查詢測試資料.................................................................................... 61 6.5.2 實驗結果............................................................................................ 61 6.5.3 實驗結果討論.................................................................................... 66. 第七章 結論與未來研究方向 ................................................................67 7.1 結論............................................................................................................... 67 7.2 未來研究方向............................................................................................... 68. 參考文獻...................................................................................................69.

(7) 附表目錄 表 1.1 表 3.1 表 3.2 表 4.1 表 4.2 表 4.3 表 4.4. 搜尋結果之範例 ............................................................................................... 3 範例 3-1 與 3-2 的搜尋結果 .......................................................................... 16 範例 3-1 與 3-2 的計算結果 .......................................................................... 17 範例 4-1 的搜尋結果 ..................................................................................... 23 範例 4-3 的假設資料 ..................................................................................... 29 範例 4-3 LDA 的分析結果 ............................................................................ 30 範例 4-3 計算結果 ......................................................................................... 30. 表 6.1 查詢字長度與推薦結果的關係 ..................................................................... 54 表 6.2 使用者逐一評估推薦字詞的結果(百分比) .................................................. 63 表 6.3 使用者評估整體階層架構(百分比) .............................................................. 64. i.

(8) 附圖目錄 圖 1.1 圖 2.1 圖 3.1 圖 3.2 圖 4.1 圖 4.2 圖 4.3 圖 5.1. 系統架構 ........................................................................................................... 5 標籤雲範例(來源:http://s3131212.com/make-tag-cloud/) .......................... 10 本章處理流程 ................................................................................................. 13 演算法一 ......................................................................................................... 20 相鄰位置關係圖之範例 ................................................................................. 24 共同出現次數 ................................................................................................. 27 範例 4-4 的關係圖 ......................................................................................... 33 本章處理流程 ................................................................................................. 36. 圖 5.2 主題查詢字詞 estate 的候選次主題查詢字詞.............................................. 38 圖 5.3 主題查詢字詞 estate 其語意明確度前 5 高之候選字詞.............................. 39 圖 5.4 範例 5-3 的階層推薦架構 ............................................................................. 41 圖 5.5 範例 5-4 多樣化挑選的結果 ......................................................................... 42 圖 6.1 參考亂度的新穎程度值中不同 δ 設定的實驗結果 ..................................... 48 圖 6.2 頻率式邊權重值中 λ 值的實驗結果 ............................................................. 49 圖 6.3 節點加權值中 μ 值的實驗結果.................................................................... 50 圖 6.4 不同邊權重值計算方式的實驗結果 ............................................................. 52 圖 6.5 語意式邊權重值計算方式的推薦結果 ......................................................... 52 圖 6.6 頻率式邊權重值計算方式的推薦結果 ......................................................... 53 圖 6.7 第二層推薦數量的分配方式 ......................................................................... 53 圖 6.8 涵蓋查詢結果關聯度高的物件之實驗結果 ................................................. 57 圖 6.9 每一個查詢字的推薦架構對於查詢結果關聯度高的物件之涵蓋率分布 . 58 圖 6.10 各筆查詢資料的階層式推薦架構之涵蓋率與重覆率分布 ....................... 59 圖 6.11 實驗 3-1 中使用者評估之方法說明 ........................................................... 61 圖 6.12 實驗 3-1 中使用者評估之題目範例 ........................................................... 62 圖 6.13 實驗 3-2 中使用者評估方法之說明 ........................................................... 64 圖 6.14 實驗 3-2 中使用者評估之題目範例 ........................................................... 65. ii.

(9) 第一章 緒論 1.1 研究動機 隨著 Google 搜尋引擎使用的普遍,當人們遇到困難或疑問時,大多會透過 搜尋引擎,從網際網路上搜尋相關資料。輸入關鍵字形成查詢(Query)進行資料 搜尋,希望從搜尋引擎回傳的結果,找到所需資料或蒐集資料。搜尋引擎的使用 雖然方便,但是其搜尋結果經常回傳許多個別條列資料。以 Google 來說,會將 搜尋結果依據其和查詢字的相關程度做排序,並以 10 筆為單位進行分頁。由於 各個使用者的搜尋需求不盡相同,因此每位使用者不一定都能順利的在搜尋結果 前幾名資料中找到所需資料。當使用者面對資料量大的搜尋結果,如果我們能夠 從搜尋結果中,推薦相關的查詢字用來進一步篩選搜尋結果,減少使用者需要瀏 覽的資料數量,便可以更快速地幫助使用者達到查詢目的。 舉例來說,若使用者的查詢意圖是與 jaguar 保育相關的消息,而給定查詢字 jaguar;由於 jaguar 具有多種含意,搜尋結果中可能有 80%是關於汽車,10%關 於動物的豹,而剩下 10%則是關於橄欖球隊的資料。若搜尋結果中大多是與汽車 相關的資料,而豹的相關資料分散於汽車或其他主題資料之間,對於想找尋豹的 資料之使用者的瀏覽來說相當不便。假如能將具有相似主題的資料聚集成一群, 使用者便能輕鬆瀏覽到各種主題資料。例如推薦字含有 jaguar Panthera,則使用 者點選後便可挑選出與動物相關的內容。因此,如何自動提供表達各種語意概念 的推薦字給使用者參考,是值得探討的問題。 近來的研究大多從已有一個龐大的查詢紀錄資料庫為依據(論文[11]、[5]、 1.

(10) [16]、[10]及[4]),藉由過去其他使用者操作搜尋引擎的查詢記錄及後續瀏覽行為, 包含所下的查詢字,以及點選的網頁或是停留各個網頁的時間等資訊,使系統學 習出查詢字和使用者查詢意圖的關聯模型,進而用在查詢字的推薦上。然而,若 沒有足夠大的查詢紀錄,就無法藉由以查詢記錄為依據的方法為使用者推薦適當 查詢字。因此,如何能夠不需要有查詢記錄,直接根據搜尋結果為使用者推薦查 詢字是關於此類研究問題的另一個挑戰。. 1.2 研究目的 本研究的目標是根據使用者給定的查詢字,透過搜尋引擎回傳的搜尋結果, 評估挑選出一些推薦字詞,希望經由這些推薦字詞可進一步篩選搜尋結果,幫助 使用者減少瀏覽負擔,更快地完成搜尋。 以下表 1.1 為例,若文件一至五表示查詢字 jaguar 的搜尋結果。文件一,主 要內容是以 Car 為主題,但是 Car 這個字仍不足以明確表達該文件所描述的 Jag uar Land Rover 系列製造商,需要加上 Land Rover 及 manufacturer 等單字才能 彰顯文件內容,因此畫底線的單字表示是能區分不同主題概念的關鍵字。 若系統提供三個推薦字 Car,Cat,及 Sport,則使用者可直接點選 Car,由 系統篩選出含有 Car 這個單字的文件條列給使用者瀏覽。以表 1.1 為例,選擇推 薦字 Car 後,系統便會將文件一、三、四及五顯示給使用者;選擇推薦字 Cat 後, 則會過濾出文件二給使用者。透過點選推薦字詞縮減搜尋結果,便能減輕使用者 需要瀏覽大量資料的負擔。. 2.

(11) 表 1.1 搜尋結果之範例 Jaguar Cars since December 2012 officially incorporated as Jaguar 文件一. Land Rover Ltd, is a British multinational car manufacturer headquartered in Whitley. The jaguar Panthera onca, is a big cat, a feline in the Panthera genus,. 文件二. and is the only Panthera species found in the Americas. The jaguar is the third-largest. Visit us at Hampton Jaguar for your new or used exotic, luxury or. 文件三 sports car. We are a premier Jaguar dealer providing a comprehensive Jaguar cars: research Jaguar cars, read Jaguar reviews, find Jaguar car 文件四 listings and get Jaguar pricing & dealer quotes. jaguar is a british luxury car manufacturer and is part of the jaguar 文件五. land rover business which is a subsidiary of the indian company tata - Top Speed cars.. 在挑選查詢推薦字詞時,必須考慮推薦字詞對搜尋結果的涵蓋率,例如當推 薦字詞為 car dealer,car land rover,sports car,cat onca,則被涵蓋(Covered)的文 件有文件一、二、三、四及五。每篇文件都能透過不同推薦字詞篩選出來顯示給 使用者瀏覽,表示涵蓋率達到百分之百。其中 car dealer 可涵蓋文件三與四,sports car 可涵蓋文件三,兩者皆會涵蓋文件三。因此,在推薦字詞時只需推薦 car dealer, 以避免重複推薦。要達到高涵蓋率且避免此例中推薦字詞涵蓋的文件重複 (Overlap)程度太高的情況,是我們研究要達到的目標。 3.

(12) 此外,有些關鍵字的主題範圍較廣泛,例如 Car 可能具有多種查詢意圖:如 維修、型錄、經銷商、品牌歷史或二手車等。因此,需要組合其他能代表文件內 容或文件用途的單字,表達出更為明確的語意。但有些關鍵字如 Whitley 則本身 語意較明確。因此,我們選擇透過階層的方式呈現推薦字。第一階層選擇以概念 性廣的字作為推薦,且整體盡量能代表查詢結果中各方面語意並涵蓋搜尋結果。 以上一個例子來說,Car 這種具有高涵蓋率且語意範圍廣的字適合做為第一層的 主題查詢字詞。當使用者點選 Car 後,可將搜尋結果縮小為文件一、三、四及五; 接著,第二層則會推薦如 Car dealer,Car manufacturer 為查詢推薦字詞以表示更 明確的資訊需求。透過此種雙層的查詢字詞推薦,可讓使用者依需要選取第一層 /第二層概念廣泛度不同的推薦字詞來篩選搜尋結果。. 1.3 研究的範圍與限制 本論文考慮在系統底層由一個能夠回傳標題(Title)及網頁摘要(Snippet)的搜 尋引擎找出搜尋結果,並假設其搜尋結果排序較前面的文件(top result)與查詢字 較相關。當使用者給定可包含多個英文單字所形成的查詢,透過搜尋引擎進行搜 尋後,本研究將搜尋結果中取出前 t 筆,且假設其內容皆為英文,自動從標題及 網頁摘要中挑選出適合作為搜尋結果篩選的次主題查詢字詞。 本論文之研究重點為:如何對搜尋結果中的各個單字或字詞,訂出字詞在結 果中的概念廣泛度及語意明確度的計算方法。使得給定一個推薦字詞數量 QS 之 限制下,挑選出能夠盡量涵蓋搜尋結果且被涵蓋的文件之間重複率低的 QS 個推 薦字詞。 4.

(13) 1.4 論文方法 本論文方法經由前處理從搜尋引擎回傳結果中取出名詞作為候選字,針對這 些候選字進行以下處理。首先,藉由涵蓋的資料物件數量呈現概念廣泛度,根據 概念廣泛度挑選並產生第一階層的主題查詢字詞。另外,建立候選字之間的相鄰 位置關係圖。根據此圖透過隨機漫步(Random Walk)演算法,計算出各個候選字 在該搜尋結果中的語意明確度。次主題查詢字詞是由 2 至 3 個候選字組合而成, 藉由隨機漫步演算法的估測結果為候選次主題查詢字詞計算分數,並且依據該分 數將其由高至低排序。 Input query. 搜尋引擎回傳結果. 計算語意明確度 以概念廣泛度逐一 挑選主題查詢字詞. 挑選次主題查詢字詞. 雙層之推薦 查詢字詞 圖 1.1 系統架構. 5.

(14) 給定一個次主題查詢字詞之數量限制,本論文方法以第一層主題查詢字詞的 涵蓋率作為比例,計算出其第二層次主題查詢字詞的推薦數量。這個作法使得涵 蓋率高的字詞,在它的下一層提供較多的次主題查詢字詞。我們將這一連串的處 理方法命名為 M_PhRank。 為了評估本論文方法之執行效果,在實驗中我們採用實際資料,對本論文方 法採用不同策略所找出推薦字詞對查詢結果涵蓋率(Coverage)及重疊程度的效果 評估。考慮的不同策略分成在隨機漫步模型中使用不同的邊權重計算方式,以及 在推薦次主題查詢字詞的不同挑選策略兩部分。此外,我們採用潛藏狄利克里分 配(Latent Dirichlet Allocation,LDA)為基礎對查詢結果分群推薦,產生次主題查 詢字詞作為比較基準,實驗結果顯示本論文方法明顯優於潛藏狄利克里分配為基 礎產生的推薦結果。. 1.5 論文架構 本論文以下章節內容如下:第二章說明相關研究之文獻探討。第三章說明主 題查詢字詞挑選方法。第四章說明單字語意明確度計算方式。第五章說明產生並 挑選次主題查詢字詞。第六章則說明實驗評估結果及討論,最後在第七章進行總 結並提出未來研究方向。. 6.

(15) 第二章 文獻探討 依據搜尋結果為使用者推薦查詢字,在資訊檢索領域已是一項熱門的研究主 題。藉由提供推薦字讓使用者能更快速的滿足其搜尋意圖,或是引導他們選擇符 合心中問題的查詢字是這個研究的主要目的。以下將依序介紹相關研究,分別為 查詢詞推薦以及查詢結果相異性。. 2.1 查詢詞推薦 查詢字詞推薦是現今搜尋引擎中很重要的一部分,無論是即時查詢字推薦, 或是擴展查詢推薦,目的都是提供使用者可能想要或需要的查詢字。其中即時查 詢字推薦,是在使用者輸入查詢字未完成時即時提供推薦(論文[5])。本研究是針 對使用者完成輸入查詢字並搜尋後,如何提供擴展查詢字進行研究。因此,以下 介紹的相關研究分成查詢擴展及社交標籤系統之查詢推薦。. 2.1.1 查詢詞擴展 查詢擴展(query expansion)的研究內容相當豐富,又稱 query refinement 或 query reformulation。依據查詢字句的長短,近來研究方向也是大相逕庭(論文[14、 21])。 由於短查詢句的用字數少,導致分析語意的結果相當極端;一般化的字詞容 易使系統難以估測使用者的真正意圖,而明確的字詞雖然較不易使語意分析錯 7.

(16) 誤,但相對地在推薦內容的相異性方面也難以提高。針對短查詢的研究比較多, 通常會以共同出現、機率模型、分群結果、機器學習或在短時間內先後出現的查 詢為基底等概念作為挑選或產生推薦字的方法(論文[10、11、14、16、21])。 長的查詢句用字數多,可能多到像一段句子。因此,長查詢句比短查詢句具 有更多有利於分析的資訊,但干擾字(noise)也隨著變多。論文[14]探討如何分析 長查詢句,進而以查詢句中的字產生適當的推薦字給使用者參考。本研究考慮的 每筆查詢結果可視為一個長查詢,因此本研究參考此方法並加以修改,用來取出 搜尋結果中可表達查詢意圖的關鍵字。 但是,無論長短查詢句,絕大多數的研究都是考慮藉由查詢紀錄(或是龐大 的資料庫)所學習到的模型進行分析(論文[10、11、14、16、21])。本論文是以不 使用查詢紀錄為出發點,因此與有用查詢紀錄的大多數研究相比是一項挑戰。. 2.2.2 社交標籤系統之查詢推薦 社交標籤(Social Tagging)是社交網站提供給用戶上傳資料時,對物件進行標 記的功能。使用者能夠在上傳物件或產生文章時依據自己對物件資料的想法,透 過單字對物件進行標記,進而與其他使用者互相分享訊息或觀點,例如:Twitter、 Facebook、Flickr 及 Del.icio.us 等大型社交網站都具備這種功能。使用者點選標 籤後,社交網站會以該標籤作為查詢字進行搜尋並將搜尋結果條列給使用者瀏 覽。這些搜尋結果可能是使用者曾經瀏覽的物件、網頁或是普通搜尋引擎的搜尋 結果。因此,使用者可藉由標籤對物件進行篩選。 近年來社交網站的用戶急速增加,導致標籤資料隨著倍速成長,標籤雲(Tag 8.

(17) Cloud)的功能因應而生,它是將一組資料的代表標籤透過視覺化顯示的典型方 法。以圖 2..1 為例,通常是藉由字體大小或是顏色深淺等方式傳達字詞的代表性 程度,較大的字體或深的顏色代表標籤的重要程度相對較高。 對標籤雲的探勘方法,包含標籤的出現頻率、被涵蓋的物件之相異性、被涵 蓋的物件之位置以及最大涵蓋率等類別,藉由這些方法計算每一個字詞之代表 性,並挑選出最佳的 n 個字做為代表。論文[12、19、20]都提及以標籤出現頻率 做計算的評分方式,其中純粹參考字詞在文章的出現次數,會明顯比將較口語的 用字過濾掉的 TF-IDF 差上許多,因為前者會挑選到語意過於廣泛的用字,例如: home、website 或 day 等字詞語意不夠明確容易造成使用者困惑。資訊檢索領域 中,TF-IDF 其實有許多種變型,根據分析的文件長短有相對的計算方式。以 TF 來說,有一種變型是為了降低因少數長文章使單字出現頻率高而造成的錯誤分 析,因此將資料集中文章的平均長度除以該文章長度作為處罰長文章的因子。由 於,權衡單字重要性的研究中,沒有能良好平衡長短文章的方法。因此,論文[17] 針對 TF 提出以線性組合,合併單字在其文章內相對於其他字的出現頻率,以及 所屬的文章長度對字出現頻率的影響等兩大觀點,發展出能夠適當結合長短文章 關係的計算方式。 另外,在論文[19]提出兩類相異性的算法,分別是傾向選擇與已被挑選的字 較不相同的 diversity 方法,或是考慮物件涵蓋率的 Novelty 值。原物件之位置是 考量字詞所涵蓋的物件之位置,認為原物件在搜尋結過的位置也是一種相關性呈 現。因此被涵蓋的物件若位置較前面,則該字詞之代表性分數越高。理論上,若 單純使用上述的任一種方式作為代表性的評估方法,效果無法比同時考慮兩種類 別的方法優越。探勘標籤資料中具代表性的單字,與本論文考慮搜尋引擎的推薦 9.

(18) 查詢目的不謀而合,唯一的差別在於,標籤資料是由使用者給定具有內容描述性 或是情境敘述性的主題字,而本論文所分析的網頁摘要除了包含使用者的資訊需 求,還帶有干擾搜尋意圖的贅字。. 圖 2.1 標籤雲範例(來源:http://s3131212.com/make-tag-cloud/). 2.2 查詢結果相異性 基於一個已給定的查詢字,將其搜尋結果重新排序使得前後順序的文件主題 盡可能不相同,希望在前幾名排序結果中提供與查詢字相關的多種主題文件給使 用者參考,這就是查詢結果相異性的研究目標。目前對於此議題的研究,處理方 法大致可分成採用隱性(implicit)及顯性(explicit)內容主題兩大類(論文[9])。 採用隱性內容主題的方式是透過假設每篇文章都具有其想要表達的主題或 概念,並且相似的物件之間其主題概念也相似。這類的方法傾向選取各種不同主 題概念的文章,或選擇不相似的物件,藉以增加分析結果的相異性,例如,透過 自己定義的距離函式計算任兩物件的相異性,進而使挑選到的物件集之兩兩相異 性最大化的 MMR(論文[7])。由於隱性方式所分析而得的文件集之主題概念不保 10.

(19) 證與查詢句相關,因此不一定是使用者搜尋意圖之範圍,效果便比顯性方法差, 從近來的研究觀察得出是以顯性內容主題的方法居多。 而採用顯性內容主題的方法則是以查詢句相關的主題概念產生分析模型,這 種方法事先需要以人工制定的主題概念做分類動作,ODP(Open Directory Proje ct)即為一個常被使用的主題概念來源。因為顯性內容主題的方法研究較多,分析 方式也較多樣化,包含提出 IA-Select 的論文[2]、xQuAD[18]、propotionality mo del(PM)[8]以及結合組合理論中 Matroid theory 的論文[1]等都是有代表性的方 法。上述顯性方法中,IA-Select、xQuAD 和 Matroid 都是以減少主題概念的重複 為原則進行相異化,而 PM 是以發揮主題概念其本身的重要性為原則做挑選。由 於論文[18]證實其方法–xQuAD 在 diversity 以及 relevance 方面都比 IA-Select 佳, 因此以 xQuAD 做為降低重複性論點的代表,將它與 PM 的概念相比。降低重複 性的論點在提高相異性的同時,也可能導致許多主題概念的重要性被降低;而 P M 的做法與選舉時依據黨派分配國會席次的方式相似,將主題概念假想成黨派, 而分配席次便與分配各主題概念所能呈現的物件個數相似,因此理論上在相異性 方面的效果 PM 應略為突出。 本研究就是以 PM 的做法對論文[14]的演算法做修改,由於該研究除了有使 用龐大的查詢紀錄做為基底,搭配 TF-IDF 彰顯字詞之重要性。另外,屬於非階 層式且易受主要字詞影響的分析結果使得效果相當極端;若系統分析出某字詞重 要性相當高,便會導致與該字結合的推薦字之重要性也隨著提高許多。因此,本 研究除了改以階層架構進行推薦,也加入 PM 分配的概念對第二層顯示的推薦數 做適當的分配。如此一來,能夠避免多推薦相關度低的推薦字之可能。. 11.

(20) 第三章 主題查詢字詞挑選方法 令 q 表示一個使用者給定的查詢字,查詢字 q 是由一個或一個以上的英文單 字組成。令 T 表示搜尋結果中排序最高之前 T 筆資料,對於每一筆資料來說, 將其網頁摘要與網頁標題合併作為我們的一筆資料物件。因此,我們可將這 T 筆資料轉換成資料物件𝑑𝑖 … . 𝑑𝑇 。令 𝑑𝑖 . 𝑤𝑜𝑟𝑑𝑠表示資料物件 i 內經前處理後留下 的英文單字所構成之集合,W = ⋃𝑡𝑖=1 𝑑𝑖 . 𝑤𝑜𝑟𝑑𝑠 表示所有文章中相異單字構成的 集合。以表 1.1 為例,q=jaguar,𝑑𝑖 . 𝑤𝑜𝑟𝑑𝑠={jaguar,car,land,rover,manufacturer,wh itley,Wikipedia,encyclopedia}。令𝑑𝑤𝑗 表示由包含單字𝑤𝑗 的資料物件所構成之集合, 如表 1.1 為例𝑑𝑐𝑎𝑟 為{𝑑1 , 𝑑3 , 𝑑4 , 𝑑5 }。 由於 W 中含有大量的相異單字,其中有許多單字是雜訊資料,或是不具語 意的字彙。我們認為一個理想的階層式推薦架構,第一層應提供能盡量涵蓋搜尋 結果的推薦字,因此考慮概念較為廣泛的主題單字。我們先從單字集 W 中過濾 出主題查詢字詞作為第一層的推薦字,第二階層則考慮由這些字詞與非主題查詢 字組成的次主題查詢字詞,以提供語意較明確的推薦字詞給使用者。本章流程圖 如圖 3.1 所示,以下將依序說明前處理,概念廣泛度評估方法,以及加入亂度的 新穎程度值計算方法。. 12.

(21) Search result. Preprocessing. Novelty. Topical query phrases 圖 3.1 本章處理流程. 3.1 前處理 從 T 中挑選能涵蓋其內容主題的單字,首先須對 T 進行前處理,包含詞性 分析、移除不影響語意的多餘字、以及原形化處理。參考過去的相關研究,我們 認為對一段文字內容來說,其名詞相較於其他詞性的字能顯示內容主題(論文 [13]),因此,我們使用 Stanford CoreNLP1為搜尋結果 T 進行詞性分析並保留名 詞。針對詞性分析後留下的名詞,我們認為仍可能含有不具意義且會影響探勘結 果的單字,因此,依據一個可移除的單字列表2,將出現在列表中的單字移除。 此列表主要紀錄移除後仍不影響文意的單字,其中,我們認為日期與星期對於本 論文所要分析的目標不具代表性,因此亦將它納入移除列表。前處理的最後一步 驟是原形化處理,因應英文單字具有單複數與多時態的特性,相同單字不同時態. 1 2. Stanford CoreNLP:http://nlp.stanford.edu/software/corenlp.shtml Stop words:ftp://ftp.cs.cornell.edu/pub/smart/english.stop 13.

(22) 是時間性的傳達,而單複數是對數量差異的表示,兩者對於主題查詢字詞的主題 含意都不會造成影響。因此,我們使用 Krovetz Stemmer 對資料物件中前兩步驟 的過濾後剩下的字進行原形化處理。. 3.2 概念廣泛度評估方法 從經過前處理後的 T 中挑選主題查詢字詞,首先須考慮單字在 T 中出現的 頻率(frequency)。一般來說,在各個物件中頻繁出現的單字較能夠反映這些物件 的主題概念,能夠傳達這些物件的內容主體。以表 1.1 為例,當查詢字為 jaguar, 其搜尋結果中單字 car 出現頻率最高。以 car 來說,被 car 涵蓋的文件一、文件 三、文件四及文件五,分別是描述 jaguar 汽車品牌的資訊、jaguar 的賽車系列經 銷商、jaguar 車款資訊以及 jaguar 汽車品牌與印度的關係。被涵蓋的四筆文件內 容都是以 car 為主題,因此可顯示頻率高的單字可反映出文件內容的主題。 然而,在此例中以高頻率考量所挑選出的單字 car、dealer、manufacturer 與 Land Rover,皆是與汽車相關的概念字,卻不見文件二所描述的動物相關單字被 挑選。因此,單純以頻率考量容易使挑選出的字詞具有相似的概念,而其他頻率 較低的不同概念字便因此而沒有機會被選中。基於此原因,在挑選主題查詢字詞 時應考慮能涵蓋到多少已未挑選字未涵蓋到的物件。. 14.

(23) 3.2.1 新穎程度值. 首先我們參考論文[19],考慮採用新穎程度值(Novelty)評估字詞的概念廣泛 度。這個方法主要考慮一個字詞對 T 中物件的涵蓋率(Coverage),以及已挑選字 與未選字兩者涵蓋的物件重覆程度值(Overlap)。因此,對 T 有越高的涵蓋程度且 和已挑選字所涵蓋的物件重複程度越低,會得到越高的新穎程度值。我們令欲挑 選的主題查詢字詞(Topical terms)總數為 n,分別是𝑟1 … 𝑟𝑛 ,並以集合 RP 表示被 挑選出的所有主題查詢字詞。我們將挑選主題查詢字詞的候選字詞集合設為W加 上所有在 T 中相鄰出現的兩個單字組成之字詞,並將此候選字詞集合以𝑅𝑃𝑆𝐶 稱 之,則𝑅𝑃𝑆𝐶 中每個字詞𝑤𝑖 的新穎程度計算公式如下: RPS(𝑤𝑖 ) =. |𝑑𝑤𝑖 ∪(⋃𝑡∈𝑅𝑃 𝑑𝑤𝑡 )|. (算式 1). |𝑇|. 上述公式中,RP表示已挑選的主題查詢字詞所構成之集合,初始為空集合。 當 RP 為空集合時,表示字詞對於 T 中物件的涵蓋比例值即為其新穎程度分數。 當 RP 為非空集合時,對於每一個候選字詞來說,其⋃𝑡∈𝑅𝑃 𝑑𝑤𝑡 都相同,因此 |𝑑𝑤𝑖 ⋃(⋃𝑡∈𝑅𝑃 𝑑𝑤𝑡 ) |越大,也就是|𝑑𝑤𝑖 − (⋃𝑡∈𝑅𝑃 𝑑𝑤𝑡 )|越大,表示候選字詞𝑤𝑖 涵蓋 越多已挑選字詞中未能涵蓋的物件。透過這種方式計算出每一個候選字詞的新穎 程度值之後,挑選分數最高的候選字詞作為主題查詢字詞,並將它從集合𝑅𝑃𝑆𝐶 中 刪去後,完成一回合的挑選。如此不斷挑選直到集合 RP 對搜尋結果 T 的涵蓋率 達到百分之百,或 RP 中的字詞個數到達 n 個便停止。. 15.

(24) 【範例 3-1】 新穎程度值之範例 假設使用者給定查詢字‘appraisals’,透過搜尋引擎取得搜尋結果並經過前處 理後,如表 3.1 所示。若希望採用新穎程度值找出兩個主題查詢字詞,其挑選過 程如下。初始 RP 為空集合,先計算候選字集合𝑅𝑃𝑆𝐶 中每個候選字的RPS(𝑤𝑖 )值, 計算結果如表 3.2。從中找出RPS(𝑤𝑖 )值最大的字詞‘appraise’,將它選入 RP 集合 作為主題查詢字詞並從𝑅𝑃𝑆𝐶 中刪除。挑選 appraise 後涵蓋率便達到百分之百,符 合本論文所設定的停止條件,因此停止挑選主題查詢字詞。最後,只有挑選到 appraise 一個主題查詢字詞。. 表 3.1 範例 3-1 與 3-2 的搜尋結果 物件編號. 物件內容. O1. jump navigation search appraisal appraisal appraise. O2. appraise opinion preparation appraisal research market. O3. asc appraisal subcommittee estate appraise appraisal. O4. estate market years home term appraise management. O5. appraisal reviewer va fee appraise market property va home. 16.

(25) 表 3.2 範例 3-1 與 3-2 的計算結果 範例 3-1 𝒘𝒊. Round1 𝐑𝐏𝐒(𝒘𝒊 ). 範例 3-2 𝐄𝐧𝐭𝐫𝐨𝐩𝐲(𝒘𝒊 ). Round1. Round2. 𝐄𝐧𝐭_𝐑𝐏𝐒(𝒘𝒊 ). 𝐄𝐧𝐭_𝐑𝐏𝐒(𝒘𝒊 ). jump. 0.2. 0.5. 0.44. 0.92. navigation. 0.2. 0.5. 0.44. 0.92. search. 0.2. 0.5. 0.44. 0.92. appraise. 1.0. 0.0. 0.2. 0.2. opinion. 0.2. 0.5. 0.44. 0.91. preparation. 0.2. 0.5. 0.44. 0.91. research. 0.2. 0.5. 0.44. 0.91. market. 0.6. 0.67. 0.66. asc. 0.2. 0.5. 0.44. 0.92. subcommittee. 0.2. 0.5. 0.44. 0.92. estate. 0.4. 0.67. 0.62. 0.95. term. 0.2. 0.5. 0.44. 0.91. management. 0.2. 0.5. 0.44. 0.91. years. 0.2. 0.5. 0.44. 0.91. reviewer. 0.2. 0.5. 0.44. 0.91. va. 0.2. 0.5. 0.44. 0.91. fee. 0.2. 0.5. 0.44. 0.91. property. 0.2. 0.5. 0.44. 0.91. home. 0.4. 0.67. 0.62. 0.95. 17.

(26) 從這個範例我們可以發現,依據新穎程度的算法雖然能夠得到涵蓋率高的主 題查詢字詞集合,卻可能發生某一個出現頻率過高的字詞主導挑選結果的情形。 此例中,挑選 appraise 便可完全涵蓋 T 且停止挑選。appraise 這種涵蓋率極大的 字詞概念廣泛度及新穎程度值非常高,通常會是第一個被挑選中的字詞,使得 RP 集合對 T 的涵蓋率極高,甚至已達到符合停止挑選的條件,造成系統無法挑 選到指定數量的主題查詢字詞;但此種主題查詢字詞無法提供對查詢結果有效的 篩選。因此,我們選擇將新穎程度值的計算方式稍做改變,在每一次的挑選過程 中,將已涵蓋的物件數量與未涵蓋的物件數量之差異程度納入考量,詳細說明如 下一小節。. 3.2.2 加入亂度的新穎程度值. 為了改善原本新穎程度值計算方式的缺點,本論文在每一回合挑選中,將已 涵蓋與未涵蓋的物件數量計算亂度(Entropy)值加入評估。目的是使涵蓋率過高或 過低的候選字詞降低其新穎程度值,進而提高其他候選字被選取的機會。當個已 挑選字詞之已涵蓋與未涵蓋的物件數量接近時,亂度會較最高。加入亂度分數的 新穎程度值計算方式如下: Ent_RPS(𝑤𝑖 , 𝛿) = δ ∗ RPS(𝑤𝑖 ) + (1 − δ) ∗ Entropy(𝑤𝑖 ) Entropy(𝑤𝑖 ) = − (∑𝑡∈𝑅𝑃∪𝑤𝑖. |𝑑𝑤𝑡 | |𝑇|. 𝑙𝑜𝑔. |𝑑𝑤𝑡 | |𝑇|. )−. (算式 2). |𝑇−(⋃𝑗∈𝑅𝑃∪𝑤 𝑑𝑤𝑗 )| |𝑇−(⋃𝑗∈𝑅𝑃∪𝑤 𝑑𝑤𝑗 )| 𝑖 𝑖 𝑙𝑜𝑔 |𝑇| |𝑇|. (算式 3) 18.

(27) 針對算式 3 亂度公式來說,亂度高的字雖然涵蓋率未必最高,但將其選為主 題查詢字詞能提供較平均的篩選效果,使 RP 中選出更多推薦字詞。算式 2 中, δ 為一個值介於 0 到 1 的參數,將原本新穎程度值和亂度值進行比重加總;根據 δ 的設定,可調整新穎程度值評估的偏向。若 δ 設為 1.0,表示新穎程度值只依 據涵蓋率高的計算方式;若 δ 設為 0.0,則代表新穎程度是依據各挑選字詞已涵 蓋與未涵蓋的物件數量之亂度做計算。 挑選主題查詢字詞的演算法如圖 3.2,說明如下。 步驟 1:如同 3.1 小節所描述的前處理,主要是將搜尋結果處理成符合本論 文需要的格式,經過此處理後留下的物件內容之所有相異單字作為 候選主題查詢字詞的集合𝑅𝑃𝑆𝐶 (Line2)。 步驟 2:依據下列作法從𝑅𝑃𝑆𝐶 進行 n 個主題查詢字詞的挑選(Line3-10): 步驟 2-1:針對𝑅𝑃𝑆𝐶 中所有單字w使用比重參數 δ 計算其語意廣泛度 Ent_RPS(w, 𝛿)。其中Ent_RPS(w, 𝛿)計算方式如算式 2 及算式 3, 當 δ=1.0 時Ent_RPS(w, 𝛿)即為𝑅𝑃𝑆(w),因此演算法一也能夠 使用 3.2.1 小節的𝑅𝑃𝑆(w)值挑選主題查詢字詞。我們將在第六 章的實驗中,評估不同 δ 值的設定對挑選主題查詢字詞的影響 (Line4-5)。 步驟 2-2:挑選出語意廣泛度最高的單字𝑤𝑖 (Line6)。 步驟 2-3:將𝑤𝑖 加入已挑選查詢字詞RP集合(Line7)。 19.

(28) 步驟 2-4:將𝑤𝑖 從𝑅𝑃𝑆𝐶 中刪除(Line8)。 步驟 3:輸出RP作為查詢字 q 的主題查詢字詞(Line11)。. Algorithm1 Selecting Topical Query Phrase Algorithm – Novelty with Entropy Input: query q, search result T, pick topical query term size s, parameter δ. 1. BEGIN 2. 𝑅𝑃𝑆𝐶 = ParseObject(T) 3. REPEAT 4. 5. 6. 7. 8. 9. 10. 11. 12.. FOR each word w in 𝑅𝑃𝑆𝐶 COMPUTE Ent_RPS(𝑤, 𝛿) 𝑤𝑖 = pick w with the highest Ent_RPS(𝑤, 𝛿) from 𝑅𝑃𝑆𝐶 RP. ADD(𝑤𝑖 ) 𝑅𝑃𝑆𝐶 . REMOVE(𝑤𝑖 ) ENDFOR UNTIL do s times or every word’s Ent_RPS(𝑤, 𝛿) is same Output topical query phrases RP END 圖 3.2 演算法一. 【範例 3-2】 加入亂度的新穎程度值範例 以範例 3-1 為例,若我們改用加入亂度的新穎程度值作為字詞的概念廣泛度 且 δ=0.2,則計算過程如下。首先,初始化 RP 為空集合,根據算式 3 計算𝑅𝑃𝑆𝐶 各 個候選字詞𝑤𝑖 的 Entropy(𝑤𝑖 )值。以‘estate’為例,因為其涵蓋率為 0.4 未涵蓋率為 0.6,所以Entropy(estate) = −0.4 log0.4 − 0.6 log0.6 ≅ 0.67,其它字詞的 Entropy 值請參見表 3.2;根據表 3.2 的 Entropy 值及算式 2 我們可以計算出含有亂度的新 穎程度值。同樣以 estate 為例,因為當 RP 為空集合時,新穎程度值等於涵蓋率, 20.

(29) 因此Ent_RPS(estate, 0.2) = 0.2 ∗ 0.4 + 0.8 ∗ 0.67 ≅ 0.62,其他單字如表 3.2,因 此我們選擇Ent_RPS值等於 0.66 的‘market’作為第一個主題查詢字詞,並將它從 𝑅𝑃𝑆𝐶 中刪掉並完成第一回合的挑選。要挑選第二個主題查詢字詞時,我們重新 計算𝑅𝑃𝑆𝐶 中所有字詞的Ent_RPS值,計算結果如表 3.2。由於出現兩個字詞的 Ent_RPS值同為 0.95,因此我們根據字詞出現在 T 的順序選擇‘estate’作為第二個 主題查詢字詞。最後,系統挑選的 RP 中包含的主題查詢字詞為‘market’和 ‘estate’。. 21.

(30) 第四章 單字語意明確度計算方法 我們認為階層推薦架構中,應該進一步提供比主題查詢字詞語意更為明確的 次主題查詢字詞作為第二層推薦。為了產生語意清楚的字詞,本論文運用論文[14] 所提出之 PhRank(Phrase Rank)演算法處理概念,評估 W 中每個單字的語意明確 度,故本論文方法稱為 M_PhRank(Modified Phrase Rank)。. PhRank 演算法主要藉由隨機漫走演算法與一個龐大的資料集分析出長查詢 中的主題查詢字詞,其根據該查詢的搜尋結果前幾筆相關網頁中,單字與單字間 的共同出現情況建立相鄰位置關係圖 G,從中計算出每個單字的資訊提供程度值, 挑選出能夠代表該查詢的字詞。本論文所考慮的問題是如何從搜尋結果中找出可 用來進行結果篩選的主題查詢字詞,我們認為從搜尋結果中計算出的資訊提供程 度可視為一種語意明確程度,因為資訊提供度越高表示越能反映在查詢結果的代 表性,因此該值越高越適合和主題查詢字詞組合成次主題查詢字詞。. 本論文方法將單字語意明確度的評估方式分為兩種,第一種是藉由單字與其 他單字間的關係程度,分析得到單字在關係圖中的代表性;第二種則是透過資訊 檢索的方式計算單字本身在搜尋結果中的重要性,將代表性及重要性相乘作為單 字的語意明確度。以下將依序說明關係圖的建立,邊權重值計算方法,隨機漫步 演算法以及節點加權計算方法。. 22.

(31) 4.1 建立關係圖 根據搜尋結果 T,本論文針方法將對已進行過前處理的物件𝑑𝑖 … . 𝑑𝑡 及其單 字集合 W 建構一個關係圖 G,G 用以表示集合 W 中,任兩單字出現在物件𝑑𝑖 … . 𝑑𝑡 的相鄰位置關係。G 中每一個節點代表一個單字,若兩個節點的對應單字在 T 中為相鄰出現,則此兩個節點間具有兩條邊。令 G 中的|W|個節點分別以𝑣0 … 𝑣|𝑊| 表示,ℓ𝑖𝑗 表示一條從𝑣𝑖 到𝑣𝑗 的有向邊。當𝑣𝑖 與𝑣𝑗 在 T 的某個物件內容中接連出現, 則𝑣𝑖 與𝑣𝑗 間具有向邊ℓ𝑖𝑗 及ℓ𝑗𝑖 。 表 4.1 範例 4-1 的搜尋結果 物件編號. 物件內容 jaguar car jaguar land rover car manufacturer whitley jaguar car. O1 wikipedia encyclopedia. 【範例 4-1】 建立關係圖 假設使用者給定一個查詢字 q,搜尋結果如表 4.1 所示。由於表 4.1 中共有 jaguar、car 、land、rover 、manufacturer、whitley、wikipedia、encyclopedia 等 8 個相異單字,因此關係圖中有 8 個節點。其中以 jaguar 與 car、jaguar 和 land、land 和 rover 皆為相鄰出現,因此將表 4.1 中對應的單字節點間分別建立雙條有向邊, 所完成的相鄰位置關係圖如圖 4.1 所示。. 23.

(32) 圖 4.1 相鄰位置關係圖之範例. 4.2 計算邊的權重值 相鄰位置關係圖 G 建構完成後,還需要設定每一條邊的權重值。邊權重值 在隨機漫步演算法中,代表的是一種轉移機率,也就是有多大的機率會從節點 A 走到節點 B。本論文在此提出兩種計算方式,第一種稱為頻率式權重值,是根據 字詞在查詢結果中共同出現頻率為依據的評估方式;第二種則稱為語意式權重值, 則根據字詞在 LDA 語意分析法上的相似性為依據,以下分別敘述這兩種計算方 法。. 4.2.1 頻率式權重值. 此權重值算法共考慮三個影響因素,首先第一部分是考慮兩個單字在 T 中 共同出現頻率值作為兩字間的關係程度評估依據,因為共同出現能夠反映兩個單. 24.

(33) 字在該段文字中前後有語意關聯,因此我們認為共同出現頻率能反映出兩個單字 的關係程度。不過,有關聯的單字在一段文字中不見得緊鄰出現,因此本論文共 同出現的計算方式會參考兩種資訊,包含緊鄰出現(Bigram)以及 10 個字之內共 同出現的次數(10-gram)。 此外,我們認為一個單字出現在與查詢字有高度相關的物件,可能表示這個 單字和查詢字較具有相關性(論文[21])。因此,本論文將各個物件在搜尋結果的 相關分數𝑠𝑐𝑜𝑟𝑒(𝑑𝑘 , 𝑞)納入評估依據。我們認為搜尋引擎對物件所做的排序,能 夠呈現物件與查詢字關聯程度,在搜尋結果中排序越前面的物件,與查詢字的相 關度越高,因此將兩單字共同涵蓋的物件之查詢結果關聯度加總作為第二個影響 因素。 最後一部分,因為緊鄰出現的計數方式可能將語意過於廣泛且頻繁與查詢字 相鄰出現的單字算出高權重值,因此參考論文[14]的方法降低緊鄰出現的單字其 邊權重值,並增加緊鄰出現次數較低的單字之邊權重值,所以頻率式權重值計算 方式如算式 4。 𝑓 − 𝑤𝑒𝑖𝑔ℎ𝑡(ℓ𝑖𝑗 ) = 𝑟𝑖𝑗 ∗ ∑𝑑𝑘 ∈(𝑑𝑖 ∪𝑑𝑗 ) 𝑠𝑐𝑜𝑟𝑒(𝑑𝑘 , 𝑞)(𝜆𝑐𝑖𝑗𝑤𝑠2 + (1 − 𝜆)𝑐𝑖𝑗𝑤𝑠10 )(算式 4) 𝑟𝑖𝑗 = 𝑙𝑜𝑔2. ∑𝑖𝑗∈𝑊 𝑐𝑖𝑗𝑤𝑠2. (算式 5). 1+𝑐𝑖𝑗𝑤𝑠2. 算式 4 中𝑐𝑖𝑗𝑤𝑠2 代表單字 i 和 j 在 T 中緊鄰出現的次數,𝑐𝑖𝑗𝑤𝑠10 則是在 10 個 字的範圍限制下在 T 中共同出現的次數,藉由介於 0 到 1 的比重值 λ 將𝑐𝑖𝑗𝑤𝑠2 與 𝑐𝑖𝑗𝑤𝑠10 做比重加總;而𝑠𝑐𝑜𝑟𝑒(𝑑𝑘 , 𝑞)代表物件𝑑𝑘 的查詢結果關聯度,也就是物件𝑑𝑘 25.

(34) 與 q 的關聯程度,可藉由搜尋引擎回傳的物件分數做計算。λ 值的設定用來反映 關係程度的評估標準,若 λ=0 則表示以 10-Gram 中出現次數表示共同出現次數, 採取出現相關度較寬鬆的評量方式;若 λ=1 則代表只用並聯出現次數作為共同出 現次數,因此是較嚴謹的共同出現次數計算,本論文將於實驗中探討 λ 值的設定 對於挑選結果的影響。算式 5 中𝑟𝑖𝑗 表示單字 i 與 j 緊鄰出現的次數相對於所有單 字緊鄰出現次數加總的比例值,對於較少相鄰出現的兩個單字,會得到較高的𝑟𝑖𝑗 值表示其可能為較具明確語意的特定字詞,非一般廣泛性字詞,因此給定較高的 加權值。. 【範例 4-2】頻率式權重值之範例 假設使用者給定查詢‘jaguar’時,系統的查詢結果如圖 4.2 上方所示,若採用 頻率式權重值計算‘jaguar’與‘car’間的關聯程度,則計算方式如下。首先,我們 計算這兩個單字在 T 中共同出現的次數。以相鄰出現來計算的話,從物件一的 第一個字開始比對,因兩個字有相鄰出現,所以共同出現次數加 1;接著往後一 個字繼續比對,如此不斷計算直到此物件內容結束。若有下一個物件,則再從下 一物件內容的開頭,依相同方式繼續累計,考慮完所有 T 中所有物件後即完成 相鄰限制下的共同出現次數計算。十個字之內的共同出現次數與相鄰限制的計算 方式相似,只是將比對範圍設為十個字以內是否同時出現;若物件內容的字數低 於十個,則判斷該兩單字是否有出現即可。圖 4.2 上方內容的𝑐𝑖𝑗𝑤𝑠2 及𝑐𝑖𝑗𝑤𝑠10 之計 26.

(35) 算結果如該圖下方所示。 接著我們計算‘jaguar’與‘car’的獨特性因子rij,如算式 5 將所有相鄰限制的共 同出現次數加總後可以得到 10。將 3 除以 10 再取以 2 為底的對數,將結果乘上 負號即可得出 jaguar 與 car 的獨特性因子rjaguar,car = 1.74。 最後,假設物件一的查詢結果關聯度score(𝑑1 , q)為 2,因為 jaguar 與 car 涵 蓋物件一,所以根據算式 4 可以計算得到1.74 × 2(0.6 × 3 + 0.4 × 1) = 5.68,此 處我們假設 λ 為 0.6,如此便完成‘jaguar’與‘car’的邊權重值計算。. 圖 4.2 共同出現次數 27.

(36) 4.2.2 語意式權重值. 我們參考論文[15]中計算兩單字間的相關度的方式作為我們語意評量的方 法,此作法採用 LDA(論文[3]、[6])為 W 集合進行軟式分群(soft clustering),並根 據 LDA 分析出每一群與所有單字的相關度分布,搭配貝式定理轉換成單字在每 一群的相關度分布計算兩單字的語意差異度,並取倒數得到相似度作為節點間的 邊權重值。 根據第三章中所挑選出的主題查詢字詞集合 RP 大小決定此處的分群數目, 分別記為𝑐1 … 𝑐𝑛。由於是軟式分群,所以會得到群𝑐𝑖 與單字集 W 中各個單字𝑤𝑖 的 相關機率,記為P(𝑤0 |𝑐𝑖 ) … 𝑃(𝑤𝑛 |𝑐𝑖 )。我們將一個群視為一個主題,並將單字屬 於各群的機率值視為單字與主題之間的關係程度值,因此我們可透過貝式定理 P(c|w) =. P(w|𝑐)𝑃(𝑐) 𝑃(𝑤). , 轉 換 得 到 單 字 𝑤𝑖 在 各 群 的 機 率 分 布 , 記 為 𝜃𝑤𝑖 =<. 𝑃(𝑐1|𝑤𝑖 ), … , 𝑃(𝑐𝑛 |𝑤𝑖 ) >,其中我們以單字 w 的出現頻率作為𝑃(𝑤)。使用群 c 中 P(𝑤𝑧 |𝑐)最高的單字𝑤𝑧 在 T 中涵蓋的物件,計算這些被涵蓋的物件𝑑𝑘 由 LDA 分 析出的物件與群的關係程度 P(c|𝑑𝑘 )作為我們估算 𝑃(𝑐) 的方式,因此𝑃(𝑐) = ∑𝑜∈𝑑𝑤𝑧 P(c|o)。基於單字對各群的關聯度分布𝜃𝑤𝑖 ,我們透過 JSD 分布相異性計 算方法(Jensen–Shanno divergence,JS divergence)評估任兩單字屬於各主題程度值 分佈的相異程度。最後,將相異程度值轉換成相似程度值(論文[3])作為兩個單字 間的關係程度值。計算方式如下:. 28.

(37) 𝑠 − 𝑤𝑒𝑖𝑔ℎ𝑡(ℓ𝑖𝑗 ) =. 1. (算式 6). JSD(𝜃𝑤𝑖 ,𝜃𝑤𝑗 ). 1. 1. 1. JSD (𝜃𝑤𝑖 , 𝜃𝑤𝑗 ) = 2 𝐷(𝜃𝑤𝑖 ||𝑀) + 2 𝐷(𝜃𝑤𝑗 ||𝑀), where M = 2 (𝜃𝑤𝑖 + 𝜃𝑤𝑗 ). (算式 7). 算式 6 中𝜃𝑤𝑖 為𝑤𝑖 與各群的關係程度值向量,因此共有|RP|個維度,而算式 7 中D(θ||M)則是採用 KL Divergence(Kullback–Leibler Divergence)計算方法。. 【範例 4-3】語意式權重值之範例 當使用者給定查詢字‘jaguar’,若採用語意式權重值計算‘xf’與‘species’之間 的關係程度,則計算方式如下。首先,我們須透過 LDA 將搜尋結果的單字進行 分群,在此假設為 2 群且能夠得到群與各個單字的關係程度值P(𝑤|c)以及物件與 各群的關係程度值P(c|𝑑𝑘 ),接著我們假設運用貝式定理將P(𝑤|c)轉換為P(𝑐|w) 所需的資訊如表 4.2 及表 4.3,因此我們可以計算出P(𝑐|w)如表 4.3;以P(𝑐1 |𝑥𝑓)為 例,因為P(𝑥𝑓|𝑐1 ) = 0.7、P(𝑐1 ) = 1.5、P(𝑥𝑓) = 0.3,透過貝式定理可計算得到 P(𝑐1 |𝑥𝑓) =. 0.7×1.5 0.3. = 3.5。. 表 4.2 範例 4-3 的假設資料 P(𝑐1 ). P(𝑐2 ). 1.5. 0.8. 29.

(38) 表 4.3 範例 4-3 LDA 的分析結果 w. P(𝑤|𝑐1 ). P(𝑤|𝑐2 ). P(w). P(𝑐1 |𝑤). P(𝑐2 |𝑤). xf. 0.7. 0.01. 0.3. 3.5. 0.027. species. 0.01. 0.8. 0.3. 0.05. 2.13. dealer. 0.29. 0.19. 0.4. 1.088. 0.38. 接著將表 4.3 中用貝式定理轉換後的P(𝑐|𝑥𝑓)、P(𝑐|𝑠𝑝𝑒𝑐𝑖𝑒𝑠)以向量表示成 1. 𝜃𝑥𝑓 = (3.5, 0.027), 𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 = (0.05, 2.13) , 因 此 根 據 算 式 7 , M = 2 (𝜃𝑥𝑓 + 1. 1. 𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 ) = (1.775, 1.0785), JSD(𝜃𝑥𝑓 , 𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 ) = 2 𝐷(𝜃𝑥𝑓 ||𝑀) + 2 𝐷(𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 ||𝑀) , 1. 1. 𝑃(𝑐𝑖 |𝑥𝑓). 接著依照 KL-Divergence 的計算方式,2 D(𝜃𝑥𝑓 ||𝑀) = 2 ∑𝑛𝑖=1 ln ( 1. 𝑀𝑖. ) 𝑃(𝑐𝑖 |𝑥𝑓) =. 1. (ln(1.97) ∗ 3.5 + ln(0.025) ∗ 0.027) ≅ 1.138 , 2 D(𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 ||𝑀) ≅ 0.646 , 所 以 2 JSD(𝜃𝑥𝑓 , 𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 ) = 1.774。最後根據算式 6 將差異程度轉換成為相似程度值,所 以𝑠 − 𝑤𝑒𝑖𝑔ℎ𝑡(ℓ𝑥𝑓,𝑠𝑝𝑒𝑐𝑖𝑒𝑠 ) = JSD(𝜃. 1 𝑥𝑓 ,𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 ). ≅ 0.564,到此便完成‘xf’與‘species’的. 邊權重值計算,其他結果如表 4.4。 表 4.4 範例 4-3 計算結果 JSD(𝜃𝑤𝑖 , 𝜃𝑤𝑗 ). 𝑠 − 𝑤𝑒𝑖𝑔ℎ𝑡(ℓ𝑖𝑗 ). 𝜃𝑥𝑓 , 𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠. 1.774. 0.564. 𝜃𝑥𝑓 , 𝜃𝑑𝑒𝑎𝑙𝑒𝑟. 0.425. 2.353. 𝜃𝑠𝑝𝑒𝑐𝑖𝑒𝑠 , 𝜃𝑑𝑒𝑎𝑙𝑒𝑟. 0.628. 1.592. 30.

(39) 4.3 隨機漫步 由於轉移率是機率值,因此進行隨機漫步演算法之前,必須先將一個節點所 有向其他節點的連接邊之權重值正規化,作為隨機漫步演算法中使用的轉移率。 我們使用隨機漫步演算法來估算每一個節點在關係圖中的語意明確度,隨機 漫步的初步概念是設想關係圖中任兩節點間具有轉移率,表示從節點 A 走到節 點 B 的機率程度,因此,從某節點 A 出發到各節點的機率值加總必須為 1。每 一經過一個節點包含自己走到自己,相當於移動一步,因此若從節點 A 出發, 經過兩步移動到節點 B 的機率,相當於節點 A 到 B 路徑上的邊權重值相乘。基 於這個概念,考慮一開始分別從各個節點同時出發,移動 m 步之後將得到每個 節點分別到達各個節點的機率值。但是,移動過程中有一個機率程度會在某一步 時重新從任何一節點繼續移動,因此在每一次的轉移率中,還需要考慮重新移動 的機率及各節點成為重新點的機率。因此,經過 m 步的移動且考慮重新開始的 情形下各節點被造訪的機率值,記為𝝅𝒘𝒏 ,將節點被所有點造訪的機率加總可得 到節點在關係圖中的重要程度值,我們視此值為各節點在關係圖中的語意明確程 度之表現,公式如下。 𝜋 𝑖+1 = α × 𝜋 𝑖 × ℋ + (1 − α)ω. (算式 8). 算式 8 中參數 α 為一個值介於 0 到 1 之間的小數,用以控制重新開始的機率。 ℋ為任兩節點之間的轉移率所構成之轉移矩陣,因此大小為|W| × |W|的方陣。 𝜋 𝑖+1 表示從𝜋 𝑖 經過一次移動後到達各節點的機率程度,因此𝜋 0 為一個|W|維的單 31.

(40) 位矩陣,表示同時從各節點出發的情形,𝜋1 代表從各節點移動一步後造訪每一節 點的機率程度。ω則是一個大小與π相同的矩陣,表示重新移動時各節點作為出 發點的機率,本論文使用一般分布估算此機率值,代表各節點成為重新點的機率 均等。. 【範例 4-4】 隨機漫步演算法之範例 我們假設圖 4.3 為一個相鄰位置關係圖,且已具有各節點之間的轉移機率。 若使用隨機漫步演算法探勘此關係圖中各個點的被造訪程度,則執行過程如下。 首先,我們設 α=0.85 並將轉移率以矩陣表示,如算式 9。觀察圖 4.3 我們可 以知道從 A 節點出發,經過一次移動後造訪 A、B 及 C 節點的機率分別為 0.6、 0.3 和 0.1。因此,我們可以用矩陣[1 0. 之 後 拜 訪 各 節 點 的 機 率 為 0.85 × ([1 [1⁄3 1⁄3. 0]表示從 A 節點出發,經過一次移動 0.6 0.3 0 0] × [0.17 0.5 0.55 0.15. 0.1 0.33]) + 0.15 × 0.3. 1⁄ ] = [0.56 0.305 0.135],以節點 A 出發為例,有0.85 × 0.6 = 3. 0.51的機率停留在 A 節點且有 0.05 的機率會重新從任一點出發。若進行第二次 移動,則可能有 0.51 的機率是從 A 節點移動,0.3 的機率是從 B,0.1 的機率從. C。因此,從 A 節點出發,經過兩次移動之後0.85 × ([0.56 0.305 0.6 [0.17 0.55. 0.3 0.1 0.5 0.33]) + 0.15 × [1⁄3 0.15 0.3. 1⁄ 1⁄ ] ≅ [0.443 3 3. 32. 0.340. 0.135] ×. 0.218]。隨機.

(41) 1 漫步的主要概念是從各個節點同時出發,也就是𝜋 0 = [0 0 1⁄ 3 0.3 0.1 1 0.5 0.33] + 0.15 ∗ ⁄3 0.15 0.3 1 [ ⁄3. 1⁄ 3 1⁄ 3 1⁄ 3. 0 0 1 0]移動一步後 0 1 1⁄ 3 1⁄ ≅ 3 1⁄ 3]. 1 𝜋1 = 0.85 ∗ [0 0. 0 0 0.6 1 0] [0.17 0 1 0.55. 0.56 [0.195 0.518. 0.135 0.331],其中從 B 點出發移動一步後有 0.195 的機率到達 A 點。 0.305. 0.305 0.475 0.178. 若假設 m=1,則節點 A 在圖 4.3 的重要程度𝜋𝐴 = 0.56 + 0.195 + 0.518=1.273, 以此類推便可計算得出𝜋𝐵 = 0.958及𝜋𝐶 = 0.771。. 圖 4.3 範例 4-4 的關係圖. 0.6 [0.17 0.55. 0.3 0.5 0.15. 0.1 0.33] 0.3. (算式 9). 33.

(42) 4.4 計算節點加權值 隨機漫走演算法中邊權重值主要是計算兩單字之間的關聯程度,本論文方法 參考論文[14]使用資訊檢索中以出現頻率估算字詞重要程度的 TF-IDF 方法,針 對關係圖 G 中每一節點根據搜尋結果 T 計算其重要程度,作為節點加權值𝑆𝑤𝑛 。 由於第二層的次主題查詢字詞是以語意明確為考量,因此我們將𝑆𝑤𝑛 透過參數 μ 調整其對各節點語意明確度𝜋𝑤𝑛 之影響,並稱SV(𝑤𝑛 , μ)為單字𝑤𝑛 加權後的語意明 確度,計算方式如算式 10。 𝐒𝐕(𝒘𝒏 , 𝛍) = 𝝅𝒘𝒏 × 𝑺𝒘𝒏 𝝁. (算式 10). 𝑺𝒘𝒏 = 𝒘𝒏 𝒇𝒂𝒗𝒈 ∗ 𝒊𝒅𝒇𝒘𝒏. (算式 11). |𝑾|. 𝒊𝒅𝒇𝒘𝒏 = 𝒍𝒐𝒈𝟐 𝟏+𝒅𝒇. (算式 12). 𝒘𝒏. 算式 12 中𝑑𝑓𝑤𝑛 表示包含單字𝑤𝑛 的物件數量,算式 11 中𝑤𝑛 𝑓𝑎𝑣𝑔 則表示單字𝑤𝑛 的平均出現次數,也就是出現次數除以物件總數,接著將𝑤𝑛 𝑓𝑎𝑣𝑔 除以其最大值, 正規化至 0 到 1 之間。算式 10 中當 μ=1 時節點的語意明確度為隨機漫步之結果 𝜋𝑤𝑛 與加權值𝑆𝑤𝑛 相乘,𝑆𝑤𝑛 會提高出現頻率不高不低的單字權重;當 μ=0 時則表 示語意明確度即為隨機漫步的計算結果𝜋𝑤𝑛;μ 介於 0 到 1 之間時,會提高𝑆𝑤𝑛 使 得出現頻率極少或極高的單字價權後語意明確度SV降低。語意明確度代表單字提 供的資訊程度,因此,依據SV將 W 中所有單字進行排序,並於下一章節處理步 驟中產生候選次主題查詢字詞。. 34.

(43) 【範例 4-5】 節點加權計算之範例 我們以表 3.1 為例,假設此表格是查詢字‘appraisals’的搜尋結果,經過隨機 漫步演算法計算得到各單字在此尋結果的語意明確度。假設𝜋ℎ𝑜𝑚𝑒 = 0.2且 μ=1.0, 我們藉由‘home’說明計算加權值SV(home, 1.0)之過程如下。首先,計算 home 節 點加權值𝑠ℎ𝑜𝑚𝑒 ,單字‘home’在搜尋結果中出現次數為 2,因此平均出現次數 2. home𝑓𝑎𝑣𝑔 = 。接著,為了將此值正規化,需要計算其他單字的平均出現次數, 5. 並以最大值對home𝑓𝑎𝑣𝑔 進行正規化的處理;我們找到最大值為appraise𝑓𝑎𝑣𝑔 = 1, 故其正規化後等於 0.4。最後,因為‘home’共出現在 2 篇文章中,故可得𝑑𝑓home = 2, 20. 𝑖𝑑𝑓ℎ𝑜𝑚𝑒 = 𝑙𝑜𝑔2 1+2 ≅ 2.74 , 根 據 home𝑓𝑎𝑣𝑔 及 𝑖𝑑𝑓ℎ𝑜𝑚𝑒 可 計 算 出 𝑠ℎ𝑜𝑚𝑒 = 0.4 ∗ 2.74 ≅ 1.09,SV(home, 1.0) = 𝜋ℎ𝑜𝑚𝑒 × 𝑠ℎ𝑜𝑚𝑒 1.0 = 0.218。. 35.

(44) 第五章 產生並挑選次主題查詢字詞 階層式推薦架構中第一層由 3.3 小節篩選而得的主題查詢字詞作為推薦,為 提供語意更為明確的第二階層次主題查詢字詞,我們對每一個主題查詢字詞與其 他非主題查詢字詞的單字進行組合,使得產生的候選字詞能夠比原本主題查詢字 詞之語意更為明確且更有篩選效果。其處理流程如圖 5.1,共分成三大步驟. Term Score. Candidate generation. Extract query suggestions. Topical Terms. Suggested term diversification. Two-level Hierarchical suggestion. 圖 5.1 本章處理流程. 36.

(45) 5.1 產生候選次主題查詢字詞 此處我們需要產生的候選次主題查詢字詞,屬於階層式推薦架構的第二層。 當使用者點選主題查詢字詞後,便呈現對應的第二層次主題查詢字詞給使用者參 考,因此候選次主題查詢字詞就是由主題查詢字詞與其他單字組合而成。以最直 觀的想法而言,查詢字詞的產生就是任意幾個單字組合即可,但太多的查詢字組 合反而無法形成廣為大家接受的查詢詞,因此本論文選擇以 2 到 3 個字作為次主 題查詢字詞的長度。為了減少任意組合產生的過多候選字詞,我們只考慮有共同 出現的組合情形作為候選次主題查詢字詞。 字與字之間的不同排序會影響語意的呈現,以查詢字 red 為例,若存在一個 候選次主題查詢字詞 cross red,本意應為紅十字會的 red cross,但順序相反的情 形下對使用者可能會造成閱讀上的不方便。因此,本論文分析候選次主題查詢字 詞的各種排序情形,分別計算每一種排序在搜尋結果中出現的次數,以出現次數 最多的排序情況作為推薦給使用者的結果。. 37.

(46) 圖 5.2 主題查詢字詞 estate 的候選次主題查詢字詞. 【範例 5-1】 產生候選次主題查詢字詞之範例 根據範例 3-1 當使用者給定查詢字‘appraisals’,系統挑選出主題查詢字詞 appraise 和 estate。依據產生候選次主題查詢字詞的規則,與主題查詢字詞 estate 有共同出現在某物件的單字包含有 asc、subcommittee、market、years、appraise、 appraisal、home、term 和 management,其中扣除主題查詢字詞 appraise 以及查詢 字的原形化結果 appraisal 後,我們可以得到 estate 的候選次主題查詢字詞如圖 5.2 所示。以 asc estate market 為例,其單字排序是由於搜尋結果中雖然沒有 asc estate market 三個單字共同出現的物件,但是 estate 與 asc 以 asc estate 的排序情 形在物件三出現一次,而 estate market 則在物件四出現一次,因此我們認為 asc estate market 是最佳的組合順序。最後,將 estate 的候選次主題查詢字詞依據語 38.

(47) 意明確度排序後做為下一步驟挑選的來源,因此圖 5.3 所示為主題查詢字詞 estate 的候選字詞依語意明確度排序後最高之前 5 名結果。. 圖 5.3 主題查詢字詞 estate 其語意明確度前 5 高之候選字詞. 5.2 挑選次主題查詢字詞 對於使用者給定的推薦數量 QS,表示各個主題查詢字詞的第二層推薦字詞 數量加總後等於 QS。在推薦數量有限制的情況下,我們認為第一層涵蓋率高的 主題查詢字詞主題性較廣,其第二層應該給予較多的推薦數量。因此,本論文參 考論文[8、9]中比例法多樣化的處理方式,稱為 PM-2 演算法,選用此方法中 Sainte-Laguë method 的概念,將 QS 依據各主題查詢字詞對查詢結果 T 的涵蓋率 進行比例分配。算式如下: 𝑤𝑡. 𝑖 𝑞𝑡𝑖 = 2𝑠 +1. (算式 13). 𝑖. 算式 13 中𝑞𝑡𝑖 表示主題查詢字詞 i 的第二層可推薦數量,𝑤𝑡𝑖 表示主題查詢字 39.

(48) 詞 i 的權重值,本論文是以該主題查詢字詞的涵蓋率作為權重值計算,𝑠𝑖 則表示 主題查詢字詞 i 第二層已獲得的推薦數量,𝑠𝑖 的初始化皆設為 0。第一回合的分 配中,由於𝑠𝑖 皆為 0,所以由涵蓋率最高的主題查詢字詞𝑤 ∗ 配得一個推薦權,並 由𝑤 ∗ 的候選次主題查詢字詞集合中語意明確度最高的候選次主題查詢字詞作為 𝑤 ∗ 的第一個次主題查詢字詞,接著更新s𝑖∗ = 0 + 1 = 1完成一回合的挑選。下一 回合重新計算所有主題查詢字詞的𝑞𝑡𝑖 值後,依據相同方式進行挑選,如此不斷 挑選直到挑滿 QS 個為止。. 【範例 5-3】 挑選查詢推薦字詞之範例 以表 3.1 作為搜尋結果,使用者給定的查詢字為‘appraisals’,系統篩選出主 題查詢字詞 appraise 及 estate,並要求提供 5 個次主題查詢字詞。透過本論文挑 選次主題查詢字詞的方式,其過程敘述如下。 首先,產生候選次主題查詢字詞,我們以主題查詢字詞 estate 為例,其候選 字詞如圖 5.3。初始化兩個主題查詢字詞所配得的推薦數量𝑠𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 與𝑠𝑒𝑠𝑡𝑎𝑡𝑒 為 0, 分配第一個推薦權時,藉由算式 13 可計算 1.0. 0.4. 出𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 = 2∗0+1 = 1.0,𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒 = 2∗0+1 = 0.4,因為𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 > 𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒,所 以將第一個分配權給 appraise。接著,觀察主題查詢字詞 appraise 已排序的候選 字詞,挑選分數最高的候選字詞 appraise property 作為其次主題查詢字詞,並更 新𝑠𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 = 1完成第一個推薦權的分配。 配置第二個推薦權時,兩個主題查詢字詞推薦數量分別為𝑠𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 = 1與 1.0. 0.4. 𝑠𝑒𝑠𝑡𝑎𝑡𝑒 = 0,計算分配權重為𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 = 2∗1+1 = 0.33,𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒 = 2∗0+1 = 0.4, 40.

(49) 此時𝑞𝑡𝑎𝑝𝑝𝑟𝑎𝑖𝑠𝑒 < 𝑞𝑡𝑒𝑠𝑡𝑎𝑡𝑒 ,故將第二個分配權給 estate。根據其候選字詞,如圖 5.3,我們將選擇 estate market 作為 estate 的次主題查詢字詞,並更新𝑠𝑒𝑠𝑡𝑎𝑡𝑒 = 1完 成第二個推薦權的分配。依據這種分配方式進行五回合之後,便能夠選出五個次 主題查詢字詞,參考圖 5.4。. 圖 5.4 範例 5-3 的階層推薦架構. 5.3 多樣化挑選機制 我們發現系統根據上述方法產生的階層式推薦架構中,第二層的次主題查 詢字詞之間忽略主題查詢字詞之後,會出現單字重複的情形。舉例來說,圖 5.4 中主題查詢字詞 appraise 的第一個與第四個次主題查詢字詞在單字 property 發生 重複。針對這種情形,我們參考論文[14]的處理方式,當上下推薦字詞之間發生 重複,則保留排序較前面的次主題查詢字詞並將造成重複的刪除。. 41.

(50) 【範例 5-4】 多樣化挑選機制之範例 以範例 5-3 為例,主題查詢字詞 appraise 的次主題查詢字詞 appraise property 與 appraise property home 出現相同的字,我們根據語意明確度計算結果認為 appraise property 較能完整表達資訊需求且不具有贅字的情形下,將排序較後面 的 appraise property home 刪去。再由語意明確度次高的次主題查詢字詞進行多樣 化挑選機制之檢查,因此,階層推薦架構如圖 5.5。. 圖 5.5 範例 5-4 多樣化挑選的結果. 42.

(51) 第六章 實驗評估與討論 本論文實驗主要分成兩大部分。第一部分評估本論文中不同方法的搭配,對 於產生的擴展查詢字詞之效果;第二部分則是進行本論文與基礎方法-LDA 的效 果比較。以下將詳細介紹實驗資料及環境設定、系統內部採用之不同方法之效果 分析、以及擴展推薦字詞之效果分析。. 6.1 實驗資料來源及環境設定. 6.1.1 實驗資料來源 基於一個給定的查詢字,我們選用美國的 Google 搜尋引擎作為擷取網頁摘 要及標題的工具。以查詢字藉由 Google 搜尋之後,擷取搜尋結果中前 200 筆資 料,去除不具標題內容或是沒有網頁摘要的資料後,將相對應的網頁摘要與其標 題內容合併為一個資料物件,以資料物件為單位進行處理。. 6.1.2 資料前處理 隨機漫步演算法的執行時間是決定本系統時間成本的主要關鍵,而隨機漫步 演算法的處理對象是字與字之間的相鄰位置關係圖,圖中節點的數量對於隨機漫 步演算法的執行時間有著超過倍數但低於指數的影響關係。此外,本論文所用的 實驗資料都含有上千個相異的英文單字,即便經過系統的前處理會減少許多單字, 43.

參考文獻

相關文件

printing, engraved roller 刻花輥筒印花 printing, flatbed screen 平板絲網印花 printing, heat transfer 熱轉移印花. printing, ink-jet

Courtesy: Ned Wright’s Cosmology Page Burles, Nolette &amp; Turner, 1999?. Total Mass Density

Define instead the imaginary.. potential, magnetic field, lattice…) Dirac-BdG Hamiltonian:. with small, and matrix

Monopolies in synchronous distributed systems (Peleg 1998; Peleg

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,

Corollary 13.3. For, if C is simple and lies in D, the function f is analytic at each point interior to and on C; so we apply the Cauchy-Goursat theorem directly. On the other hand,

The English terms, simple or compound, included in the glossary are listed in alphabetical order, e.g3. ther terms ‘active transport’ is considered beginning with the

 name common laboratory apparatus (e.g., beaker, test tube, test-tube rack, glass rod, dropper, spatula, measuring cylinder, Bunsen burner, tripod, wire gauze and heat-proof