• 沒有找到結果。

社群資料對圖書搜尋系統效能之研究

N/A
N/A
Protected

Academic year: 2021

Share "社群資料對圖書搜尋系統效能之研究"

Copied!
65
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學圖書資訊學研究所 碩士學位論文. 指導教授:柯皓仁博士. 社群資料對圖書搜尋系統效能之研究 A Study of Social Data on the Effectiveness of a Book Retrieval System. 研究生:陳恒毅 撰 中華民國一○三年一月.

(2)

(3) 摘要 隨著 Web 2.0 的風潮,社群資料(Social Data)被廣泛應用於各類型的網站, 其中網路書店、網路書櫃等書目社群網站迅速累積了大量由使用者產生的社群資 料。而 INEX (INitiative for the Evaluation of XML retrieval)自 2011 年開始自 Amazon、LibraryThing 搜集整理包含社群資料的書目資料,並做為圖書搜尋任務 之測試資料集。 本研究利用實驗法以 INEX 2013 圖書與社群搜尋任務的測試資料集進行圖 書搜尋實驗,並探究不同欄位對搜尋結果以及應用社群資料重新排序結果之影響。 在實驗中分別以傳統書目資料、社群資料和兩者合併的資料製作索引,並以社群 資料將搜尋結果重新排序。主要之研究結果如下: 1.. 運用社群資料在機率模型的圖書搜尋,比目前圖書館使用的傳統書目資 料,可以得到更好的檢索效能。. 2.. 社會評論資料(Review)在機率模型的檢索之中,可以得到最好的結果。. 3.. 社會標記(Tag)的資料在機率模型的檢索之中,與傳統書目資料並無明 顯的差異,但是以被標記次數做為權重調整之後,其檢索效能提升 270%, 明顯高於未權重調整前之結果,僅次於社會評論資料索引。. 4.. 使用社會評論將圖書搜尋結果重新排序,可以得到本研究中最好的檢索 結果,可以提升 3.1%的 nDCG 分數。. 5.. 使用社會標記將圖書搜尋結果重新排序,其結果不如使用社會評論重新 排序的結果,但是其對圖書搜尋效能可以最高提升 25%的 nDCG 分數。. 前述之研究結果可進一步應用於資訊系統的設計,包含圖書搜尋、推薦系統, 期使讀者有更好的使用者經驗。 關鍵詞:圖書搜尋、社群資料、社會標記、搜尋引擎 i.

(4) Abstract With the proliferation of Web 2.0, social tag is widely used in various applications. Online bookstores (like Amazon) and online bibliographic community Websites (like LibraryThing) have quickly accumulated a large amount of user-generated information. INEX (INitiative for the Evaluation of XML retrieval) have been using the Amazon/LibraryThing corpus for its Social Book Search Track since 2011. The purpose of the INEX Social Book Search Track is to develop novel algorithms leveraging professional metadata and user-generated metadata for effectively retrieving books. This thesis uses INEX 2013 Social Book Search Track test data set to conduct book search experiments and evaluate the retrieval results. Indices based on professional metadata, user-generated metadata and both are created respectively. The results of this study are summarized as follows: . Using social data in the probabilistic retrieval model for Book Search outperforms using traditional bibliographic data.. . Using all book data including reviews in the probabilistic retrieval model for Book Search can get the best retrieval performance.. . Using social tag information in the probabilistic retrieval model for Book Search has no significant difference with traditional bibliographic data, but using the number of times a tag used as weight to retrieval can improve the retrieval performance.. . Using reviews data. for re-ranking can achieve the best search results in. this study; it can improve 3.1% of the nDCG scores. . Using tag data for reranking can improve 25% of the nDCG score.. Practically, the results of this thesis can be used as a clue for the design of a book ii.

(5) search system and a book recommendations system. Keywords: Book Search, Social Data, Social Tag, Search Engine. iii.

(6) 目次 摘要......................................................................................................................... i 目次....................................................................................................................... iv 表次....................................................................................................................... vi 圖次.................................................................................................................... viii 第一章 緒論.......................................................................................................... 1 第一節 研究背景.......................................................................................... 1 第二節 研究目的.......................................................................................... 3 第三節 研究範圍與限制.............................................................................. 4 第四節 名詞解釋.......................................................................................... 5 第五節 論文架構.......................................................................................... 7 第二章 文獻探討.................................................................................................. 8 第一節 社會標記.......................................................................................... 8 第二節 資訊檢索與查詢擴展.................................................................... 10 第三節 圖書搜尋........................................................................................ 19 第四節 社會標記與檢索系統.................................................................... 20 第三章 研究方法與設計.................................................................................... 22 第一節 資料集............................................................................................ 22 第二節 系統架構........................................................................................ 30 第三節 實驗設計........................................................................................ 37 第四節 結果評估方法................................................................................ 39 第四章 結果分析................................................................................................ 41 第一節 書籍資料搜尋結果分析................................................................ 41 第二節 使用社群資料重新排序結果分析................................................ 45 第三節 與 INEX 之結果比較 .................................................................... 48 iv.

(7) 第五章 結論與建議............................................................................................ 50 第一節 結論................................................................................................ 50 第二節 未來建議........................................................................................ 51 參考文獻.............................................................................................................. 52. v.

(8) 表次 表 2- 1 社會標記與圖書資訊組織特性比較表 ........................................................................ 9 表 2- 2 平滑化計算方法 ................................................................................................................. 16 表 3- 1 書籍資料元素列表 .......................................................................................... 23 表 3- 2 書籍資料範例 .................................................................................................. 25 表 3- 3 書籍資料包含內容比例 .................................................................................. 26 表 3- 4 書籍資料的分類情況(AMAZON 分類標籤).................................................... 26 表 3- 5 書籍資料分類情況(DDC) ............................................................................... 27 表 3- 6 查詢主題資料元素列表 .................................................................................. 28 表 3- 7 查詢主題範例 .................................................................................................. 29 表 3- 8 相關分數單一判斷標準 .................................................................................. 30 表 3- 9 相關分數多次判斷標準 .................................................................................. 30 表 3- 10 LUCENE 停用字列表 ....................................................................................... 33 表 4-1 索引內容-檢索模型搜尋結果 ......................................................................... 41 表 4-2 社群資料加權搜尋結果.................................................................................. 42 表 4- 3 DIRICHLETSMOOTING 不同參數搜尋結果 ...................................................... 43 表 4- 4 JELINEK-MERCER SMOOTHING 不同參數搜尋結果 ........................................ 44 表 4- 5 TAG 索引搜尋結果 .......................................................................................... 44 表 4- 5 短查詢搜尋後以社會標記將結果重新排序 ................................................. 45 表 4- 6 短查詢搜尋後以評論將結果重新排序 ......................................................... 45 表 4- 7 長查詢後以社會標記將結果重新排序 ......................................................... 46 表 4- 8 長查詢搜尋以評論將結果重新排序 ............................................................. 47 表 4- 9 INEX 2013 圖書搜尋比賽結果 ...................................................................... 48 vi.

(9) vii.

(10) 圖次 圖 3- 1 LIBRARYTHING 主題討論串,群組成員推薦書籍於右手邊 ......................... 28 圖 3- 2 系統架構圖 ...................................................................................................... 31 圖 3- 3 書籍資料庫外來鍵參考圖 .............................................................................. 32 圖 3- 4 索引建置流程圖 .............................................................................................. 34 圖 3- 5 搜尋流程圖 ...................................................................................................... 36 圖 3- 6 結果評估流程圖 .............................................................................................. 40. viii.

(11) 第一章 緒論 西元 2000 年之後,網路資料量大幅度的成長,人們習慣以搜尋引擎在網路 上搜尋所需之資料。而隨著 Web2.0 的廣泛應用,各式網路書店以及網路書櫃均 提供社群功能,讓使用者利用社群功能以自由形式的關鍵字組織個人的資訊,以 評論分享個人的看法。 本研究旨在探討社群資料對圖書搜尋之影響,第一章共分五節說明,第一節 闡述研究背景,說明搜尋引擎以及社群網站的發展;第二節說明研究目的以及方 法;第三節說明研究範圍與研究限制;第四節則是相關名詞解釋;第五節敘述論 文架構. 第一節 研究背景 數位化與網路化時代的來臨,使網際網路成為人們傳播與吸收資訊的主要來 源。根據 IDC Digital Universe Study 指出,全球 2011 年的資料量達 1.8ZB,而至 2020 年,資料量可能達 35ZB,是 2011 年的 20 倍之多,機構所處理的資訊量更 會超過 50 倍(Gantz and Reinsel, 2012)。伴隨如此龐大資料量而來的是資訊超載的 問題,所謂的資訊超載係指接受太多資訊,反而影響正常的理解與決策。面對資 訊超載的問題,人們已習慣以搜尋引擎(如 Google, Yahoo!...)找尋想要的資料。 搜尋引擎是資訊檢索(Information Retrieval, IR)技術的具體實現。全文索引 (full-text index)是搜尋引擎運作的基本機制,其將文件經過斷詞切字、停用字處 理(stopword processing)、詞幹處理(stemming)、詞性判斷(POS tagging)等前置處 理後,將詞彙建置成索引(index),繼而運用向量空間模型(Vector Space Model, VSM)或機率模型(Probabilistic Model, PM)等方法比較使用者檢索策略與文件的 相似度,並根據相似度高低列出符合使用者資訊需求的文件(Manning, Raghavan, & Schtze, 2008)。. 1.

(12) 為因應網路上使用者對資訊檢索的需求,全球資訊檢索的專家學者均積極投 入開發更有效率的檢索系統;然而在開發過程中,經常面臨缺乏完整的實驗環境, 對各自開發出來的系統進行公正與有效評估,以利比較與掌控檢索系統之優劣。 因此,美國國防部高等研究計畫署(Defense Advanced Research Projects Agency, DARPA)與美國國家標準暨技術局(National Institute of Standardsand Technology, NIST),在 1992 年共同舉辦了文件檢索會議(Text REtrievalConference, TREC), TREC 建立大型測試集,伴隨測試項目、測試程序、評估準則的標準化,並提供 論壇予參與者討論與分享結果,使得資訊檢索的測試環境得以更接近實際情況, 對檢索技術發展與系統績效評估提昇,有非常重要的貢獻(Harman, 1993)。 INEX(INitiative for the Evaluation of XML retrieval)計畫則是 XML 檢索研究 中最重要的測試平台,它透過協作產生參考文件集、查詢集以及相關性判斷。 INEX 自 2002 年開始實施,該年提供的文件集包含約 12,000 篇來自 IEEE 期刊的 文章。從 2006 年開始,INEX 開始使用資料量比較大的維基百科(Wikipedia)作為 測試集。 另一方面,自從 O'Reilly 於 2005 年提出 Web 2.0 的概念之後(O'Reilly, 2005), Web 2.0 相關應用在資訊技術的推波助瀾之下,在網際網路上如雨後春筍般出現。 如部落格、維基…等網站,均應用 Web 2.0 概念以及相關技術,除允許使用者發 佈內容之外,也允許使用者對其他使用者發布的內容進行評論、標記以及分享予 他人。而 Web 2.0 最重要的精神係運用群體智慧(crowd wisdom),創造、分享並 評論使用者自身或他人的內容。 圖書是人類文化最重要的載體之一,在數位化圖書館與網際網路的浪潮下, 圖書館、網路書店、網路書櫃皆有豐富的數位化書目資料。隨著 Web 2.0 的風行, 這些網站也紛紛加入 Web 2.0 的元素或精神,由使用者自行創造、分享或評論其 感興趣的內容。如 Darien Library 的 SOPAC 計畫,即是使用開放原始碼的架站 軟體 Drupal 作為圖書館的線上公用目錄(Online Public Access Catalog, OPAC) , 2.

(13) 並允許使用者自由於 OPAC 中針對書籍進行評論、標記與分享予其他讀者(Hadro, 2008)。網路書店 Amazon 以及網路書櫃 LibraryThing 除了書目資料之外,還提供 使用者自行評論、標記書籍,並且連結有相同興趣的讀者推薦圖書。這些由使用 者基於自身興趣而創造、分享或評論的資訊,對於其他使用者尋書是否有助益, 或與傳統書目資料是否有互補之處,皆值得深入研究。 與搜尋引擎全文檢索機制相對的,則是透過後設資料(metadata)輔助檢索。 後設資料又稱詮釋資料,乃是描述資訊物件的結構化資料(data about data; structured description of a data object),其主要功能在於描述資訊物件、支援精確 的條件檢索資訊物件、讓使用者判斷資訊物件是否符合其需求,並有助於資訊物 件的管理與應用。而 INEX 以 XML 所提供之測試資料集,即具有後設資料之概 念,即以結構化之資料來描述相關資料。 INEX 自 2007 年開始加入書籍檢索(Book Retrieval)任務,一開始使用約 10,000 本光學字元識別(Optical Character Recognition, OCR)的書籍作為測試資料 集,自 2011 年使用擷取自 Amazon 與 LibaryThing 約 280 萬筆書籍資料作為測 試集(http:// inex.mmci.uni-saarland.de),該資料集除了書籍資料外尚包含使用者給 予書籍的社會標誌與評論。本研究即是以 INEX 2013 所提供之圖書搜尋測試資 料作為資料集。. 第二節 研究目的 網路搜尋引擎市場的競爭日益激烈,除了傳統的無序檢索結果評估方式之外, 檢索結果的排序,也會直接影響到用戶的滿意度。在檢索結果排序的方法中,最 常被使用的演算法之一,是利用點擊日誌(click-through log)以使用者回饋(user feedback)的方式對搜索結果重新排序(Joachims, Granka, Pan, Hembrooke, & Gay, 2005)。而在最近的一些研究證實,應用社會標記將檢索結果重新排序是有效的 做法(Bao et al., 2007)。 本研究擬探討如何應用社群資料提升圖書搜尋品質。具體而言,本研究希望 3.

(14) 由索引建置、索引內容加權以及搜尋結果重新排序三個方面運用使用者建立之社 群資料(Social Tag、Social Review…等),比較其對圖書搜尋效能之影響,藉此達 到以下目的: 一、應用不同的搜尋模型和平滑方法對不同圖書詮釋資料項目搜尋結果之影 響。 二、針對不同的平滑方法,其參數設定對圖書搜尋之影響。 三、以社群資料對圖書資料索引加權對圖書搜尋之影響。 四、查詢語句長短,對機率模型不同平滑方法對圖書搜尋之影響。 五、應用社群資料將圖書搜尋結果重新排序對圖書搜尋之影響。. 第三節 研究範圍與限制 本研究以 INEX 2013 書籍搜尋任務所提供之 280 萬筆書籍資料為研究範圍, 並且以其測試主題(Topic)代替使用者實際輸入之查詢詞,因此本研究有以下 2 點限制: 一、. 處理語言限定英文格式。本研究採用之 INEX 2013 資料其原始來源 為 Amazon 網路書店之英文書目,在其延伸之社會標記(Social Tag) 或有其他各國語言,但各國語言字詞與文法差異,進行前置處理需 做不同的斷詞處理。各國語言間的特性以及處理方式並不在本研究 探討之範圍。. 二、. 測試主題內容並非實際使用者查詢。雖然測試主題是來自 LibraryThing 的主題討論串(topic thread),足以代表使用者真實的資 訊需求,但與使用者實際使用之查詢詞仍不相同。. 4.

(15) 第四節 名詞解釋 本研究所用之相關名詞解釋如下: 一、. 社群資料. Cambria, Rajagopal, Olsher and Das (2013)在對海量資料(Big Data)的探討中 提到,所謂的社群資料(Social Data)泛社由社群網站或網站的社群功能中由使用 者產出之資料,包含部落格(Blog)、維基(Wiki)中的文章、回應(comment)、投票 (vote)、標記(tag)…等。而本研究所採用之社群資料,係 INEX 擷取自 Amazon 網路書店的使用者對書籍之評論(review)、書籍的等級(rating)、對評論之投票 (vote),以及擷取自 LibraryThing 網站的社會標記(tag)和標記被標記的次數 (tagCount)。 二、. 重新排序. 當搜尋引擎第一次的搜尋只依據結果以及查詢詞之相關分數排序,為了彌補 搜尋結果不佳時,排名前面的結果中,包含相關結果的比率較低的情況,可以使 用文件重排序(Document Re-ranking)的技術,在第一次檢索結果輸出後,用更精 確的演算法對結果重新排序,讓排序在前面的結果中,能涵蓋較多與查詢相關的 結果,以提升檢索的效能。 三、. 相關判斷. 相關判斷意指判定搜尋結果與查詢詞的相關性,並用之進行檢索績效的評量。 長久以來,已有許多學者討論多種相關的概念,例如心理相關、情境相關、主題 相關等等,傳統上,以量化的方式評估相關性,採用的是「主題相關」。事實上, 相關判斷會因判斷者、判斷情境等諸多因素而可能產生很大的差異,加上進行相 關判斷時往往囿於時間人力等種種限制,無法作十分周詳的考量,通常只能採取 一些可行性較高的權宜方案。 INEX 對於圖書搜尋之相關判斷則擷取自 LibraryThing 討論串,討論串之發 5.

(16) 起人描述其需求,由所有群組成員在討論串中提到的圖書作品,作為相關判斷的 來源依據。 四、. nDCG. 為了強調檢索結果排序對使用者的影響,nDCG 是由使用者對於每一筆檢索 回傳的結果,分別給予分數,分數並不只有 0 和 1 兩種,可以接受多值的分數, 以判斷其相關性的強弱(Järvelin & Kekäläinen, 2000)。 INEX 2013 圖書搜尋為了更強調檢索結果排序對使用者的影響,採用 nDCG 作為其評估指標。INEX 2013 圖書搜尋所定義之單筆檢索結果之相關分數為 0-8 分。再依據單筆檢索結果的分數以及其結果排序計算該筆檢索的 DCG (discount cumulated gain)分數,INEX 2013 圖書搜尋取前 10 筆結果之 DCG 分數加總,並 且正規化,得到 nDCG@10,作為其評估圖書搜尋效能的指標。. 6.

(17) 第五節 論文架構 本論文各章節組織如下。第一章為研究背景動機、研究目的與方法描述、研 究範圍與限制以及說明相關名詞。第二章探討目前文獻中各種相關的社會標記、 資訊檢索模型以及圖書搜尋相關之研究。第三章為本論文之實驗架構,包含所使 用之資料集、實驗方法與設定以及結果評估方式。第四章針對實驗結果進行分析 討論並於第五章提出結果與未來研究建議。. 7.

(18) 第二章 文獻探討 本研究主旨在探討社會標記對圖書搜尋之影響,本章將依序介紹相關概念與 研究,節次安排如下:第一節為社會標記,了解社會標記在 Web 2.0 所扮演的 角色以及相關應用;第二節為資訊檢索與查詢擴展,探討資訊檢索與查詢擴展相 關的模式以及檢索成效評估方式;第三節為圖書搜尋,介紹圖書搜尋的相關研究; 第四節則是社會標記與檢索系統,介紹應用社會標記以提升資訊檢索效率的相關 研究。. 第一節 社會標記 隨著 Web 2.0 概念與應用的普及,愈來愈多的使用者視這類由使用者合作參 與創作的資源為重要的資訊來源。在 Web 2.0 的各種應用之中,社會標記(Social Tagging)是指由使用者共同為各種資源進行標記的行為,在書籤共享 Del.icio.us 及圖片共享 Flickr 等網站的帶動之下,已經成為 Web2.0 最重要的特色之一(卜小 蝶,2007)。另一個名詞俗民分類(Folksonomy)與社會標記的意義接近,是 Vander Wal(2005)在討論 Flickr 和 Del.icio.us 的資訊架構時,將”Folks”和”Taxonomy”組 合而成。根據 Trant (2009)的說法,所謂「Tagging」指的是一種過程,聚焦於使 用者對於詞彙的選擇;而「Folksonomy」則是詞彙聚集的結果,焦點在於知識的 組織;「Social Tagging」則是一種在社群技術背景下所產生的標記行為。但是俗 民分類所涉及的層面較廣,有時 Tagging 的目的並不一定是分類、或需遵循分類 的結構,因此本章採用較為廣義的社會標記進行探討。 從 Web 2.0 技術蓬勃發展以來,社會標記愈來愈常被用於組織網頁上的訊 息,一開始只有在書籤共享 Del.icio.us 及圖片共享 Flickr 使用,慢慢地推廣到商 業、新聞、電子商務以及所有的 Blog 用來分類組織資訊。甚至於連依靠控制詞 彙描述其館藏的傳統知識服務機構ー圖書館、檔案館和博物館,也都引入社會標 8.

(19) 記的概念,作為館藏描述的附加項目以方便其使用者檢索利用(Trant, 2009)。 社會標記的目的與圖書館學中的資訊組織(Information Organization)相似,都 是希望以有效的資訊組織,方便再擷取利用。只是前者從利己角度出發,而後者 以利他為基礎,二者立足點不同,且圖書資訊組織由少數專業人員控制,而社會 標記則是由大量的使用者集體創作。卜小蝶 (2007)研究相關文獻並整合自身觀 察分析所得,將社會標記與圖書資訊組織之特性差異整理如表 2-1。 表 2- 1 社會標記與圖書資訊組織特性比較表 比較項目. 社會標記. 圖書資訊組織. 組織型態. 使用者自發性集合而成. 有專責單位負責,可能來自作 者或中介者,如學科專家或圖 書資訊專業人員等. 組織目的. 個人資訊管理(利己). 知識組織(利他). 分類基礎. 使用者保證原理、個人知識. 文獻保證原理、學科知識. 分類架構. 平面式為主、不事先制訂、較 階層式為主、事先制訂、固定、 彈性、更新容易. 詞彙特性. 更新不易. 鬆散、發散、個人、零碎、模 嚴謹、精簡、權威、統整、精 糊、變動. 詞彙品質 檢索模式. 確、穩定. 參差不齊、詳盡、較不精確、 較一致、較簡要、精確、正確 錯誤多. 性高. 由標籤及同好發掘相關資源. 關鍵詞搜尋或主題分類瀏覽. 資料來源:使用者導向之網路資源組織與檢索(頁 69),卜小蝶,2007。臺北 市:文華圖書館管理。 Peters and Stock (2010)分析 LibraryThing 中書籍的社會標記與主題標目 (Subject Heading)的差異,發現在社會標記中含有大量的個人詞彙,而這些個人 詞彙對輸入該詞彙的使用者本身具有個人意義,但是對圖書館和其他使用者而言, 這些詞彙並不見得是有用的敘述詞,也未對圖書的檢索有任何助益。 Matusiak (2006)則認為社會標記與傳統資訊組織具有互補的作用,傳統資訊 組織的控制詞彙可使檢索具有一致性和互通性,而社會標記則可帶給使用者更多 9.

(20) 語言、觀點和專業知識。整合社會標記的圖書館目錄,除了有專家提供的準確率 之外,也具備由不同背景讀者所提供之自然語言標籤雲(Tag Cloud)。 Thomas, Caudle, and Schmitz (2009)以量化研究方法,探討社會標記是否可以 改善圖書館的主題檢索。該研究中使用 10 本書籍,同時比較由 LibraryThing 成 員所提供的社會標記與 5 個圖書館目錄中的主題標目,結果發現社會標記能夠增 加讀者查獲館藏書籍的機率,尤其是缺乏主題詞的小說作品。 Dominguez and Simon (2010)的研究中,探討社會標記應用於圖書館目錄的 可行性以及能否提高資訊檢索效率,讓使用者更樂於和圖書館目錄互動。研究發 現若將社會標記整合到圖書館目錄之中,可以增加資源的查獲與使用率,並且能 鼓勵使用者多利用圖書館目錄。因此,該研究建議未來圖書館目錄在實際運作時, 應該將使用者利用社會標記的期望和其資訊尋求行為列入參考。 由於社會標記與圖書資訊組織相似,都是希望有效組織資訊,方便擷取利用, 也就是要為資訊儲存與檢索提供最有效率的方法,雖然兩者採用的角度不同,但 各具特色、互有長短,如果能夠相輔相成,將可產生更大加乘效果。. 第二節 資訊檢索與查詢擴展 資訊檢索是依據使用者的資訊需求,從資料集中選取並回傳使用者相關文件 的一種技術。資訊檢索定義為從大規模非結構化資料的集合中找出滿足使用者資 訊需求的資料(Manning et al., 2008)。而根據 Dae-Won and Lee (2001)對資訊檢索 的 定 義 則 是 : 資 訊 檢 索 是 用 來 處 理 資 訊 項 目 (Information items) 的 表 徵 (representation)、儲存組織(storage organization)以及取用流程(access process)。隨 著資訊與網路科技的進步,網際網路上充斥著龐大的資訊,人們所面臨的問題, 不再是資訊匱乏而是資訊爆炸。網路上的搜尋引擎即是資訊檢索技術的體現,除 了網際網路資訊的檢索外,搜尋引擎在數位圖書館系統(如索摘與全文資料庫、 電子期刊、電子書)中亦扮演了重要的角色。全文索引(full-text index)是搜尋引擎 10.

(21) 運作的基本機制,其將文件經過斷詞切字、停用字處理(stopword processing)、詞 幹處理(stemming)、詞性判斷(POS tagging)等前置處理後,將詞彙建置成索引 (index),繼而運用向量空間模型(vector space model)或機率模型(probabilistic model)等方法比較使用者檢索策略與文件的相似度,並根據相似度高低列出符合 使用者資訊需求的文件(Manning et al., 2008)。 資 訊 檢 索 的 過 程 , 可 細 分 為 以 下 四 個 步 驟 (Baeza-Yates,andRibeiro-Neto, 1999),如圖 2-1 所示。 1. 建置文件資料庫 (text database):在開始資訊檢索之前,先準備好資料來 源,也就是建置文件資料庫,該工作又可細分為三個部份:(a) 搜集所 需的文件;(b) 轉換成結構化的文件格式;(c) 設定文件模式(文件結構 以及可用於檢索的元素)。最後,在文件處理程序 (Text operations)將原 始文件轉換為原始文件的邏輯概觀。 2. 建置索引檔:步驟 1 產生邏輯概觀後,文件資料庫管理者會為所有文件 建置索引,目的是為了能在大量的資料中快速搜尋資料。 3. 開始資訊檢索流程:當索引建置完成之後,就能進行資訊檢索的步驟。 首先,使用者將其資訊需求轉化為檢索策略,常見的檢索策略是由 AND、 OR、NOT 等布林邏輯運算子結關鍵字,並將連結文字輸入系統做為檢 索詞。系統對於使用者所輸入的檢索詞進行文字處理(text operations),之 後運用查詢運算(query operations)匹配檢索詞與文件以獲得檢索到的相 關文件。 4. 排序(Ranking):將檢索所得文件傳送予使用者之前,必須先依據文件與 使用者需求的關聯程度予以排序,排序完成後再將結果傳送予使用者。. 11.

(22) 圖 2- 1 資訊檢索流程圖 資料來源:Baeza-Yates, Ricardo A., &Ribeiro-Neto, Berthier. (1999). Modern Information Retrieval: Addison-Wesley Longman Publishing Co., Inc. 以下就資訊檢索模型、查詢擴展、關鍵字擷取以及檢索成效評估等 4 個主題 進行探討: 一、資訊檢索模型 為了處理資訊檢索中檢索詞與文件的匹配關係,資訊檢索領域發展許多種資 訊檢索模型,本節介紹資訊檢索最主要的三種模型:布林模型(Boolean Model, BM)、向量空間模型(Vector Space Model, VSM)、機率模型(Probabilistic Model, PM)。此三種模型的假設為:每一篇文件可以由一組字詞來表徵文件,這些字詞 稱為索引詞(Index terms),每個索引詞皆有權重來表示在文件中的重要性。 (一). 布林模型 布林模型是資訊檢索模式中最為簡潔的,以集合論(Set Theory)和布林運算元. (Boolean algebra)為基礎,布林模型相當直覺並能將檢索詞以精準語意的布林邏 12.

(23) 輯表達式(Boolean Expression)表達。在此模式中,只視索引詞有無存在文件中, 索引詞權重表示式為. {. }也就是. 只有 0 或 1 兩個值,1 表示索引詞有存. 在該文件中,反之則無。 布林模型的主要優點是在所有資訊檢索模式中,它是最為簡潔的。而缺點則 是布林模型對所有文件加以二分,也就是將所有文件分成相關或不相關,對於查 詢條件無法進行部份比對(Partial Match)。 向量空間模型. (二). 向量空間模型(Salton & Lesk, 1968)是為了補強布林模型中僅二元權重的不 足而發展,並且在向量空間模型中可以進行布林模型中無法辦到的部份比對。在 向量空間模型中,索引詞的權重並非二元,且被用來計算系統中每篇文件與使用 者查詢的相似度(degree of similarity)。 首先,將所有的索引文件經過字詞處理後,建置成索引詞庫,對於詞庫中的 單一詞項 ,根據其在文件 中出現的次數設為其權重,此權重稱為詞項頻率(term frequency, tf),記為. ,其中的兩個下標分別對應詞項 t 和文件 d。. 實 際 資 訊 檢 索 過 程 中 , 另 一 個 更 常 用 到 的 因 數 是 文 件 頻 率 (document frequency). ,它表示出現詞項 的所有文件數目。由於. 本身往往較大,所以. 通常將其映射到一較小的取值範圍。為此,假定所有的文件數目為 ,詞項 的 (inverse document frequency,逆向文件頻率)的定義如公式 2-1。. (公式 2-1) 對於文件中的每個詞項,可以將其 和 -. 組合在一起,形成最終的權重。. 權重機制對文件 中的詞項 賦予的權重如公式 2-2 所示。. 13.

(24) (公式 2-2) 如此,就可以將一篇文件視為是一個向量(vector),其中每個分量都對應到 詞庫中的一個詞項,分量值則是採用. 公式所計算出的權重值。因此一篇文. 件 與一使用者查詢 可分別表示為向量 ⃑ 量⃑. 以及 ⃑. 所構成的. 以及 ⃑. 。向量空間模型以計算向. 角度來評估其相似度,如公式 2-3 所示。 ⃑⃑ | ⃑⃑. 雖然在向量空間模型以. ⃑⃑ 𝑞 (公式 | | ⃑⃑ 𝑞 |. 2-3). 的權重計算方式已相當有效,但仍有一個缺點,. 就是未考慮文件長度的效應。因此,Robertson and Walker (1994)提出 BM25(Best Match 25)權重計算公式,主要是把詞頻對文件長度做正規化,可有效降低文件 長度不同而影響檢索結果的誤差。其相似度公式如 2-4 所示。 ∑. (. | |. (公式 2-4). ). 上述公式中, 為檢索詞 分解的單一查詢詞,| |代表文件長度, 所有文件的平均長度。. 以及 b 為自由參數,一般設定. 、. 代表 。. 向量空間模型有幾項優點:(1) 字詞的權重及計算方式改善檢索效能;(2) 能 處理部份比對使檢索結果更為接近查詢條件。而缺點是為向量空間將每個字詞視 為獨立(mutually independent),然而實際上必需考慮到字詞的相依性(dependency), 由於許多字詞會擁有局部相依性,這使得應用向量空間模型於文件集中會降低整 體的檢索效能(Baeza-Yates & Ribeiro-Neto, 1999)。 (三). 機率模型 機率模型最早由 Maron and Kuhns (1960)所提出,此模型為一機率架構. (Probabilistic framework) 。 機 率 模 型 根 據 機 率 排 序 定 律 (Probability Ranking Principle),文件群集應該依照文件和檢索詞的相似機率,由高而低排列,以取得 14.

(25) 較佳的資訊檢索效能。然而檢索詞和文件的機率很難正確得到,因此機率模型主 要以估計為核心,推估文件和檢索詞相似的機率。 雖然後續的研究使用不同的機率評估方式,提出不同模式的機率模型,但大 部份的機率模型仍然以貝式(Bayes)定理為基礎,推估檢索詞和文件的相似機率 (Baeza-Yates & Ribeiro-Neto, 1999)。文件和檢索詞相關和不相關的機率分別可以 用 P(R|D)、. ̅|. 表示,而文件排序則可以公式 2-5 作為排序的基準。 | ̅|. (公式 2-5). ̅|. 上述公式中, P(R|D)表示檢索詞和文件相關的機率,而. 則表示檢索. 詞和文件不相關的機率。經過貝式定理轉換,可轉換成公式 2-6: | ̅. ̅. (公式 2-6). 因為事前機率 P(R)以及 P(Q),跟文件是否和檢索詞相關互為獨立,對於排 序結果並無影響,因此可以公式簡化公式 2-7 | ̅. (公式 2-7). 不同的機率模型對於機率預估的方式,均是由簡化公式延伸變化而成,而資 訊檢索的效能差異,則是受到不同的機率估算方式而定。 在機率模型中,由於訓練詞庫不可能無限大,因此許多詞與詞之間的搭配關 係無法出現在語料庫之中,也就會產生資料稀疏(data sparseness)的問題,資料稀 疏使得在語料庫中估計字串出現的機率變得困難。平滑技術(smoothing)可用以解 決資料稀疏的問題,其採用最大概率估計式(Maximum Likelihood Estimator, MLE))整字串出現的機率,以產生更精確的機率。Zhai& Lafferty (2001) 提出 Jelinek-Mercer 以及 Dirichlet 兩種平滑化方法應用於資訊檢索語言模型,以解決 資料稀疏的問題,提高檢索效率。平滑計算方式如表 1 所示。 15.

(26) 表 2- 2 平滑化計算方法比較 方法. Jelinek-Mercer. 計算公式. (. 參數.  (0.1~1.0).  (500~10,000). 適合環境. 短查詢、短索引. 長查詢、長索引. ). Dirichlet. . |. |. |. ∑. 資料來源:Zhai, C., & Lafferty, J. (2004). A study of smoothing methods for language models applied to information retrieval. ACM Trans. Inf. Syst., ACM Trans. Inf. Syst., 22, 179–214. 上述公式中,Jelinek-Mercer Smoothing 的計算公式 計檢索詞 w 在文件 d 出現機率, 的計算公式. |. |. 為以最大概率估. 為檢索詞 w 於字詞庫 C 出現機率;Dirichlet. 為檢索詞 w 於文件 d 中出現次數。. 二、查詢擴展 由於網路的快速發展,網路上的資料呈現爆炸性的成長,使用者想要搜尋網 路上的文件時,通常欠缺全面性的考量,使得所輸入的檢索詞過短,無法在檢索 過程中獲得使用者想要的所有文件。在 Chau, Fang, and Liu Sheng (2005)的研究 中,擷取一個網站 168 天內的使用者檢索紀錄,一共獲取 200 萬筆的檢索紀錄, 分析結果顯示,檢索詞的平均長度以及中位數分別為 2.25 和 2,這與 Spink, Wolfram, Jansen, and Saracevic (2000)的研究結果類似。Spink et al. (2000)分析 Excite 網頁搜尋引擎的使用者檢索紀錄,結果顯示使用者輸入的檢索詞平均長度 為 2。而在這篇研究中 Spink 等人更發現,有高達 30%的使用者會再修改他們的 檢索詞,而其中有 29.3%的使用者會增加一個以上的字詞再行查詢。這顯示有不 少的使用者對自己一開始使用的檢索詞檢索所得的文件並不滿意。 查詢擴展(Query Expansion)的目的即是為了輔助使用者重新進行檢索,提升 檢索效能。其作法是:根據檢索結果,將與檢索結果有關聯之關鍵字再加入至使 16.

(27) 用者之前的檢索詞之中。關於查詢擴展最早的研究之一是 Jones (1971),在 Jones 的研究中,將文件中共同出現的字詞分群,使用這些群集進行查詢擴展。查詢擴 展推薦字的的方式主要有兩種:自動化(automatic)以及半自動化(semi-automatic)。 自動化查詢擴展為自動增加與使用者所輸入的檢索詞相關的字詞至檢索之中,再 重新進行檢索(Buckley, Salton, Allan, & Singhal, 1995; Gauch & Smith, 1993)。半 自動化查詢擴展則是推薦字詞給予使用者,再由使用者自行新增或移除檢索詞 (Peat &Willett, 1991; Vélez, Weiss, Sheldon, & Gifford, 1997)。 Mitra, Singhal, and Buckley (1998)以 Blind Relevance Feedback 方式完成自動 查詢擴展,其主要的方式是以初次檢索所得文件中相關分數較高的前 N 篇文件 進行相關回饋,擷取這 N 篇文件中之可用資訊,例如摘要或關鍵詞,加入下一 次的檢索中,增強檢索時需要的資訊。查詢擴展對資訊檢索的成效非常有幫助, 甚至在部份全文資料庫中可提升檢索成效 20%(曾元顯, 1997)。 三、檢索成效評估 TREC、CLEF (Conference and Labs of the Evaluation Forum)和 NTCIR (NII Test Collection for IR Systems)等標準資訊檢索測試集的發展,使檢索技術大幅進 步之外,也建構公平合理的評估程序,並且採用適切的評估準則以及績效評分(陳 光華, 2004)。就傳統的文件檢索而言,最常用的評估指標就是查全率(Recall)與查 準率(Precision),以及結合二者的 F-measure,其計算式分別如公式 2-8、公式 2-9、 公式 2-10 所示。 檢索到的相關文件總數 檢索到文件總數. (公式 2-8). 檢索到的相關文件總數 所有相關文件總數. (公式 2-9). (公式 2-10) 但是,這樣的計算方式僅適用於無排序的檢索結果,並不適用於依「相關程 17.

(28) 度」排序的檢索結果。TREC 採用 trec_eval 評分程式用以評估排序的檢索結果 (http://trec.nist.gov/trec_eval) 。 trec_eval. 評 分 程 式 包 含 "Interpolated. Recall-PrecisionAverages" 、 "Average precision" 、 "Precision: At X docs" 以 及 "R-Precision"等四項針對有排序的檢索結果的評分方式。 (一) Interpolated Recall-PrecisionAverages:其查準率範圍由 0.0, 0.1, 0.2…1.0, 共 11 個值所組成,即是所謂的 11-pointPrecision,以內插法估計在固定 查全率下相對的查準率,其計算的基礎是以"Precision: At X docs"等數 據計算而得。 (二) Average precision:計算平均每篇相關文件被檢索出時的查準率,其公 式如公式 2-11。 ∑. (公式 2-11) 表示資訊檢索系統以編號 j 的查詢問題,一共檢索出的相關文件數。 (三) Precision: At X docs:表示在檢索出 X 篇文件時的查準率。 (四) R-Precision:則是表示檢索出第 R 篇相關文件時的查準率。 而 INEX 的測試集中,為了更強調檢索結果排序對使用者的影響,採用 nDCG 作為其評估指標。nDCG 是由使用者對於每一筆檢索回傳的結果,分別給予分數, 分數並不只有 0 和 1 兩種,可以接受多值的分數,以判斷其相關性的強弱(Järvelin & Kekäläinen, 2000)。計算 nDCG 的第一步,是將所有檢索結果所得的分數加總 得到 CG (cumulative gain),CG 的計算如公式 2-12。 ∑. (公式 2-12). m 為檢索系統回傳的文章總數 為使用者對第 i 篇文章所給的分數 但是 CG 的計算方式並未考慮檢索結果排序的問題,為了修正排序的問題, DCG(Discounted CumulatedGain)將排序的結果加入考慮,給予排序前面的結果更 高的權重,DCG 的計算如公式 2-13。 18.

(29) ∑. (公式 2-13). 最後,由於 DCG 的值會隨著使用者給分數的範圍大小而有不同,因此 nDCG 將 DCG 除上最佳的 DCG 來將 DCG 正規化如公式 2-14 所示。 (公式 2-14) 其中. 就是最佳的 DCG 值。. 第三節 圖書搜尋 一般而言,線上公用目錄(Online Public Access Catalog, OPAC)的檢索功能可 以區分為兩種類型:已知書目檢索(Known-item search)以及主題檢索(Subject Search)。所謂已知書目檢索是讀者已經知道書籍的相關資訊(如:書名、作者、 出版者…等),利用這些相關資訊來尋找特定作品;主題檢索是指讀者使用控制 詞彙(主題標目或索引典)、關鍵字或分類號進行館藏查詢(吳明德, 1993)。已知 書目檢索通常是資訊探求(Information Seeking)和資訊檢索(Information Retrieval) 模型的元素之一,或者用來說明使用者的搜尋模式。而且也是一種常用的任務格 式,用來評估資訊檢索系統或技術(Voorhees & Harman, 2005)。 隨著資訊科技的發展,圖書館界以及世界各地的商業公司均努力將書籍數位 化,如古騰堡計畫,自 1971 年開始,在全世界志工的共同努力之下,將超過 20000 冊 無 版 權 的圖 書 數 位化 (http://www.gutenberg.org) 。 而 UDL(Universal Digital Library)計畫,則是在卡內基美隆大學的主導下,將超過 150 萬冊的大學用書數 位化(http://www.ulib.org)。Google Books(http://books.google.com.tw)更是將大量的 書籍數位化,以方便世界各地的使用者取用。在擁有大量而且方便取得的資料之 後,陸續有專家學者以書籍的全文進行書籍的檢索實驗。 Wu, Kazai, and Taylor (2008) 將 一 萬 本 書 籍 的 OCR(Optical Character Recognition,光學字元辦識 )書籍全文作為樣本,分別將書目中的欄位資料以及 書籍內容的不同部份以 BM25 和 BM25F 演算法結予不同的權重之後,製作索引 19.

(30) 並評估其檢索結果。研究結果指出,書後索引的詞彙可以完整表達整本書籍的概 念,並且利用 BM25F 演算法可以提升圖書搜尋的效能。 Magdy and Darwish(2008)以四萬本 OCR 的書籍作為樣本,測試書籍的各部 份對於圖書搜尋的影響並以 nDCG 評估其結果。研究結果指出,書籍的書名以 及篇章名稱,有最大的檢索效益,如果混合書籍其他部份的內容,則會導致檢索 結果降低 20%,並且導致索引檔的大小增加超過 99%。 Koolen, Kazai, and Craswell (2009)則是利用維基百科(Wikipedia)作為查詢擴 展的詞庫來源,進行圖書搜尋的成效評估。研究結果指出,利用. 的關鍵. 字擷取方法,由維基百科的頁面擷取 10-20 個關鍵詞進行檢索,可以有效提升查 準率以及前十筆的平均查準率(MAP@10)。另外,以維基百科頁面共同引用的書 籍作為結果重新排序的參考來源,雖然可以提升 nDCG 的分數,但是效果非常 有限。. 第四節 社會標記與檢索系統 雖然研究證明社會標記可以有效提升傳統控制詞彙的檢索結果,但是社會標 記在更大範圍的價值並未被廣泛的研究。Morrison(2008)比較搜尋引擎(例如: Google, Microsoft Live)、網頁目錄(例如:Yahoo, Open Directory Project)以及社群 網站(例如:Delicious, Reddit)的查準率與查全率。研究結果發現,Del.icio.us 的 檢索結果和 Microsoft Live 的搜尋結果在查準率方面相當接近;在查全率方面, 搜尋引擎的表現則是明顯優於社群網站與網頁目錄。即便搜尋引擎在查準率與查 全率方面都有較好的表現,但是應用社群網站的資料於網頁搜尋引擎中,會得到 更好的結果。 Bao, Xue, Wu, Yu, Fei, and Su (2007)以社會標記的概念,提出社群相似排序 (SocialSimRank, SSR)以及社群網頁排序(SocialPageRank, SPR)兩種演算法,其中 社群相似排序演算法用來判斷社會標籤之間的關係,而社群網頁排序演算法則是 20.

(31) 利用社會標籤來重新排序搜尋到的網頁。他們以 Del.icio.us 上使用者標記的網頁 來驗證,結果顯示對 nDCG 有 14.8% 以上的提升。 Crecelius et al. (2008)提出一套名為 SENSE(Socially Enhanced Searchand Exploration)的研究框架,認為運用社群精神而建置的檢索或推薦系統應該要考量 使用者(user)、友誼(friendships)、文件(document)、連結(linkage)、標記(tagging)、 知識本體(ontology)、評價(rating)等面向,並且以 Flickr、LibraryThing 以及 del.icio.us 的部份資料驗證社會標記對檢索與推薦系統有正面的幫助。 Kato, Ohshima, Oyama, and Tanaka (2008)為了提高抽象概念詞彙的圖片檢索 效率,利用社群標記將抽象概念轉換為具體的詞彙。他們為了要將社群標記轉換 為檢索詞彙,在研究中採行四個步驟: 1. 搜尋 Flickr 上的社會標籤; 2. 以共現分析將搜集到的詞彙分群; 3.. 用 WordNet 在詞彙群集中挑選出具體的概念詞;. 4. 利用資料探勘中關聯分析技術找出代表抽象概念的具體詞彙集。 經過實驗驗證,這樣的方法有效提升搜尋的查準率,並且不會影響到查全 率。 Yan, Liu, Chang, Ji, and Chen (2009)搜集微軟商業網站上 100 個頁面,研究使 用者對這 100 個頁面的查詢以及標記的行為落差,提出一個 QTG(Query-Tag-Gap) 演算法用以重新排序搜尋結果,並使用微軟的搜尋引擎實際測試,測試結果顯示 對查準率以及 nDCG 都有明顯的提升。 綜上所述,利用社群的資料,不論是社會標記或社群連結來改善網路資料搜 尋均有一定的成效,因此,本研究將試圖利用社群資料於圖書搜尋系統上,期能 建構一更有效益之檢索系統。. 21.

(32) 第三章 研究方法與設計 本研究擬以社群資料重新建構圖書搜尋系統,整體系統架構中主要功能模組 有二:第一部分是文件擴充模組,結合資料處理的技術,將書目各欄位的資料整 合成一字詞-文件資料庫,用以支持圖書搜尋系統之索引建置以及結果排序模組; 第二部分則為結果排序模組,利用文件擴充模組建置之字詞-文件資料庫,將檢 索所得之文件重新排序。本章共有四節,第一節介紹本研究使用之書籍資料集; 第二節說明系統架構與流程;第三節說明圖書搜尋實驗的設計;第四節則是搜尋 結果的評估方式。. 第一節 資料集 INEX 是「可擴展標記語言檢索評估前導計畫(Initiative for the Evaluation of XML retrieval)」的簡稱,是國際上四大資訊檢索評估論壇( TREC、CLEF、NTCIR 和 INEX )之一,但是 INEX 有別於其他三者,主要以評估 focused retrieval 的搜 尋引擎為目標。INEX 自 2002 年起即提供結構化的 XML 資料予參賽單位,參賽 單位利用測試資料設計其搜尋引擎系統之後,再用 INEX 所提供的任務主題 (Topic)進行檢索,並將檢索結果回覆給 INEX。INEX 並不自行評估結果,而是 交由社群來評估,INEX 只保證結果的評比是在一個公平的平台上進行。本節將 分別說明書籍資料集、測試資料的主題以及相關判斷如下。 一、. 書籍資料集. 本研究以 INEX 所提供的 280 萬筆書籍資料作為測試資料集,資料集以 Amazon 網路書店的書籍資料為主,再加入擷取自 LibraryThing 的社群資料,並 且以 XML 格式提供。 每一筆書籍資料以國際標準書號(International Standard Book Number, ISBN) 識別,但是同一本書的不同版本也會有不同的 ISBN。書籍的書籍資料包含了一 22.

(33) 般圖書館書籍資料欄位,如國際標準書號(<isbn>)、題名(<title>)、作者(<author>)、 出版者(<publisher>)、頁數(<numberofpage>)、出版日期(<publicationdate>),以及 圖 書 館 常 用 的 杜 威 十 進 分 類 號 (Dewey Decimal Classification, DDC) 資 料 於 <dewey>。另外,擷自 Amazon 的主題標目(Subject Heading)資料則是在<subject> 欄位中,以及 Amazon 的分號標籤<browseNode>。此外,提供了部份的書籍內 容 , 如 開 頭 文 字 (<FirstWord>) 、 結 尾 文 字 (<LastWord>) 、 編 輯 評 論 (<EditorialReview>)。最後,也包含了 Amazon 和 LibraryThing 網站上的社群資 料:社會標記(<Tag>)、等級(<rating>)和評論(<Review>)。詳細的書籍資料欄位 如表 3-1,書籍資料範例如表 3-2 所示。 表 3- 1 書籍資料元素列表 標籤名稱. 標籤說明. isbn. 國際標準書號. title. 題名. ean. 商品條碼. binding. 裝訂. label. 商標. listprice. 訂價. manufacturer. 印刷者. publisher. 出版者. readinglevel. 閱讀分級. releasedate. 釋出日期. publicationdate. 出版日期. studio. 工作室. edition. 版本. dewey. 杜威分類號. numberofpages. 頁數. dimensions. reviews. height. 高度. width. 寬度. length. 長度. weight. 重量. review. author. 評論的作者. summary. 評論的摘要. 23.

(34) 標籤名稱. 標籤說明 content. 評論的內容. rating. 等級(1~5). helpfulvotes. 評論有幫助的票數. totalvotes. 所有評論的票數. editorialreviews. editorialreview. 編輯評論. images. image. url. 影像網址. height. 影像長度. width. 影像寬度. imagecategory. 影像分類. name. 創作者名字. role. 創作者角色. creators. creator. blurbers. blurber. 廣告. dedications. dedication. 貢獻. epigraphs. epigraph. 題詞. firstwords. firstword. 開頭文字. lastwords. lastword. 結尾文字. quotations. quotation. 引用. series. seriesitem. 系列. awards. award. 得獎. characters. character. 格式. places. place. 地點. subjects. subject. 主題標目(Amazon). tags. tag. 社會標記(LibraryThing). similarproducts. similarproduct. 類似作品. browseNodes. browseNode. 分類標籤(Amazon). 資料來源:Koolen, M, Kazai, G, Kamps, J, Preminger, M, Doucet, A, &Landoni, M. (2012). Overview of the INEX 2012 Social Book Search Track.In S. Geva, J. Kamps& R. Schenkel (Ed.),. (pp. 77-96). INEX,12 Workshop, Rome, Italy.. 24.

(35) 表 3- 2 書籍資料範例 <?xml version="1.0" encoding="UTF-8" standalone="no"?> <!-- version 1.0 / 2009-11-06T10:45:58+01:00 --> <!DOCTYPE book SYSTEM "books.dtd"> <book> <isbn>159953200X</isbn> <title>The Cincinnati Bengals (Team Spirit)</title> <ean>9781599532004</ean> <binding>Library Binding</binding> <label>Norwood House Press</label> <listprice>$26.60</listprice> <manufacturer>Norwood House Press</manufacturer> <publisher>Norwood House Press</publisher> <readinglevel>Ages 9-12</readinglevel> <releasedate/> <publicationdate>2008-08-15</publicationdate> <studio>Norwood House Press</studio> <edition/> <dewey>796.332640977178</dewey> <numberofpages>48</numberofpages> <dimensions> <height>40</height> <width>780</width> <length>910</length> <weight>65</weight> </dimensions> <reviews/> <editorialreviews/> <images/> <creators> <creator> <name>Mark Stewart</name> <role>Author</role> </creator> </creators> <blurbers/> <firstwords/> <lastwords/> <series/> <awards/> <subjects/> <tags/> <similarproducts/> <browseNodes> <browseNode id="4">Children's Books</browseNode> <browseNode id="2786">Ages 9-12</browseNode> <browseNode id="3371">Sports &amp; Activities</browseNode> <browseNode id="3400">Sports</browseNode> … 25.

(36) 在 280 萬筆書籍資料中,61%的書籍包含有 DDC 的資料,而其中 57%包含 至少一個主題標目。在社群資料的部份,則有 47%的書籍包含至少一篇的社會評 論(Review);以及 83%的書籍至少被標記了一次。詳細說明如表 3-3 所示: 表 3- 3 書籍資料包含內容比例. 包含內容. 比例(%). 分類號(DDC). 61. 主題標目(subject). 57. Amazon 分類標籤(browseNode). 100. 社會標記(Tag). 83. 評論(Review). 47. 表 3-4 為以 Amazon 的分類標籤來看書籍的分佈情況,Amazon 的分類標籤 (browseNode)是為了管理銷售和版本(平裝、精裝)而建立的,因此一本書可能有 許多的分類標籤。而 DDC 則是普遍使用於圖書館,為了方便排架,每一本書只 有一個 DDC 分類號,代表它在書架上的位置。表 3-5 所示為以 DDC 來觀察書籍 的分佈情況,其中文學(Literature, 800 類)是書籍最多的一類,包含 25%的書籍資 料。每一筆書籍資料都包含至少一筆 Amazon 的分類標籤,但是只有 61%的書 籍有 DDC。 表 3- 4 書籍資料的分類情況(Amazon. 分類標籤(borwseNode). 分類標籤). 比例(%) 分類標籤(browseNode). 比例(%). Non-fiction. 20. Science. 7. Literature and fiction. 20. Fiction. 7. Children. 14. Literature. 7. History. 13. Christianity. 7. Reference. 11. Health, Mind and Body. 6. Professional and Technical. 11. Arts and Photography. 5. Religion and Spirituality. 10. Business and Investing. 5. Social science. 10. Biography and Memoirs. 5. 資料來源:本研究整理. 26.

(37) 表 3- 5 書籍資料分類情況(DDC) DDC 主分類. 比例(%). Computer science, information and general works (000). 4. Philosophy and psychology (100). 4. Religion (200). 8. Social sciences (300). 16. Language (400). 2. Science(including mathematics) (500). 5. Technology and applied Science (600). 13. Arts and recreation (700). 13. Literature (800). 25. History, geography, and biography (900). 11. 資料來源:本研究整理. 二、. 主題(Topic). 為了準確描述使用者的資訊需求,INEX 擷取 LibraryThing 的主題論討串內 容。LibraryThing 的使用者在討論區中討論他們的書籍,每一個主題討論串都是 從書籍的資訊需求開始,不論其目的是為了興趣、功課或找尋有趣的新書;討論 串中的其他群組成員則憑藉著本身的經驗推薦或不推薦某些書籍。LibraryThing 應用一項名為 touchstone 的技術,讓群組成員很方便從其書庫中選出要推薦的書 籍,分享給其他的群組成員。因此,在每一個主題討論串的側邊,touchstone 欄 位內即是由群組成員推薦的圖書,如圖 3-1 所示。. 27.

(38) 圖 3- 1LibraryThing 主題討論串,群組成員推薦書籍於右手邊 資料來源:本研究整理. INEX 2013 主辦單位由 122 個不同的群組之中,擷取了 386 個主題討論串, 作為測試圖書搜尋的主題,主題的內容包含<query>、<title>、<group>、<narrative>, 四個主要欄位,內容的詳細說明如表 3-6。本研究進行搜尋實驗時,分別以<query> 和所有欄位內容做為檢索詞進行檢索。查詢主題以 XML 的資料格式提供,如表 3-7 所示。 表 3- 6 查詢主題資料元素列表 標籤名稱. 標籤說明. query. INEX 依據主題內容定義的查詢詞. title. 該討論串的標題. group. 該討論串所屬群組. narrative. 該主題的詳細說明. 28.

(39) 表 3- 7 查詢主題範例. <topic id="99309"> <query>Politics of Multiculturalism</query> <title>Politics of Multiculturalism Recommendations?</title> <group>Political Philosophy</group> <member>steve.clason</member> <narrative> I'm new, and would appreciate any recommended reading on the politics of multiculturalism. <a href="/author/parekh" rel="nofollow" target="_top">Parekh</a>'s <a href="/work/164382" rel="nofollow" target="_top">Rethinking Multiculturalism: Cultural Diversity and Political Theory</a> (which I just finished) in the end left me unconvinced, though I did find much of value I thought he depended way too much on being able to talk out the details later. It may be that I found his writing style really irritating so adopted a defiant skepticism, but still...<br /><br />Anyway, I've read <a href="/author/sen" rel="nofollow" target="_top">Sen</a>, <a href="/author/rawles" rel="nofollow" target="_top">Rawls</a>, <a href="/author/habermas" rel="nofollow" target="_top">Habermas</a>, and <a href="/author/nussbaum" rel="nofollow" target="_top">Nussbaum</a>, still don't feel like I've wrapped my little brain around the issue very well and would appreciate any suggestions for further anyone might offer. </narrative> </topic> 三、. 相關判斷. 相關判斷在測試資料集中扮演極重要的角色,相對也最困難,最花時間。圖 書搜尋的相關判斷之中,INEX 主辦單位擷取自 LibraryThing 討論串,所有群組 成員提到的圖書作品,作為相關判斷的來源依據。 當一個作品在討論串被提到,其基本的相關分數就是 2 分,之後再依以下的 標準調整其相關分數。如果該作品在討論串中僅被提到一次,則相關分數判斷標 準如表 3-8;如果該作品在討論串中被提到不只一次,則相關分數判斷標準如表 3-9。. 29.

(40) 表 3- 8 相關分數單一判斷標準 版主. 其他成員. 已讀. 未讀. 已讀. 未讀. 正向. 0. 8. 4. 3. 中立. 0. 2. 2. 2. 負向. 0. 0. 0. 0. 資料來源:http://inex.mmci.uni-saarland.de/‎. 表 3- 9 相關分數多次判斷標準 已讀. 未讀. 無負向. 6. 4. 正向 > 負向. 4. 3. 正向 = 負向. 2. 2. 全部中立. 2. 2. 正向 < 負向. 1. 1. 無正向. 0. 0. 資料來源:http://inex.mmci.uni-saarland.de/‎. 在上一節提到的共有 386 個圖書搜尋的主題,而圖書搜尋的相關判斷一共有 54,516 本書籍結果分布在 380 個主題之中,每一個主題最多有 2,986 筆相關結果, 最少只有 1 筆結果,平均則是 143.46 筆結果。在 380 個主題中之,有 10 個主題 的相關書籍結果均為 0 分。. 第二節 系統架構 本研究以實驗法進行,其控制變項為製作索引之欄位,評估不同索引組成對 於圖書搜尋結果之影響。本研究 利用開放原始碼(Open Source) 的搜尋引擎 Lucene(http://lucene.apache.org)作為實驗圖書搜尋系統。. 30.

(41) 圖 3- 2 系統架構圖 圖 3-2 為本研究實驗之圖書搜尋系統架構圖,主要之模組為 XML 檔案處理 (XML parser)、書籍資料庫(Text Database)、字詞前置處理(Text Operations)、索 引建置(indexing)、搜尋與結果排序(search and Ranking)、搜尋結果重新排序 (Re-Ranking Module)等五個部份,分述如下。 一、. XML 檔案處理. 依前一節所述,本研究主要使用 INEX 2013 書籍搜尋任務的資料集,其資 料集包含書籍資料、主題和相關判斷,其中書籍資料和主題均是以 XML 的檔案 格式提供,因此,正確讀取 XML 檔案中的資料,供後續實驗使用,就是相當重 要的步驟。 Dom4j(http://dom4j.org)是一套由 yxymedia(http://www.yxymedia.com)開發, 並免費開放使用的 java 程式套件,用於處理 XML 檔案。本研究使用 dom4j 套件 31.

(42) 中的 SAX(Simple API for XML)工具解析(parse)所有的 XML 檔案,將所有的資料 讀取並寫入 MySQL 資料庫。 二、. 書籍資料庫. 於上一步驟中處理之 XML 檔案,將取得資料寫入 MySQL 資料庫以建立語 料庫,並進行第三正規化(third normal form, 3NF)處理,資料庫之外來鍵(Foreign Key)參考圖如圖 3-3。. 圖 3- 3 書籍資料庫外來鍵參考圖 資料來源:本研究整理. 三、. 字詞前置處理:. 字詞前置處理之主要目的在於過濾語料庫中不必要的字詞與雜訊,以避免這 些低代表性的字詞降低搜尋之正確性。本研究的前置處理步驟包含:斷詞切字、 32.

(43) 詞幹處理、刪除停用字等。 (一) 斷詞切字和詞幹處理 斷詞切字(Tokenization)的目的在於找出文字的分界並從文字資料中擷取含 有意義的詞。由於本研究所使用之資料,是 INEX 2013 擷取自 Amazon 的書籍資 料,全部是為英文,並不包含其他語言資料。本研究採用 Lucene 內容的標準分 析器(Standard Analyzer),以空格和標點符號來區隔句子和單字。 在英文文件中有許多的名詞、動詞會以不同的型態出現像是單、複數型態, 或者現在式、過去式…等,但實際上它們的字義都相同,如果不加以處理的話, 在進行資訊檢索的過程中它們便會被視為不同的字,大幅增加檢索運算時間,因 此本研究在進行斷詞切字時,同時採用 Porter Stemming 演算法(Porter, 1980)進行 詞幹處理,以降低英文詞類變化對搜尋的影響。 (二) 刪除停用字 在自然語言(natural language)中,都有一些功能性、連結性的字詞,例如英 文中的冠詞、介系詞、連接詞。這些字詞由於出現頻繁,本身又沒有什麼意義, 因此在大多數的搜尋引擎中,會以停用字處理來去除這些字詞對於搜尋的影響。 本研究中停用字的處理,是利用 Lucene 內建的停用字引擎去除停用字,列 表如表 3-10。 表 3- 10 Lucene 停用字列表 "a", "an", "and", "are", "as", "at", "be", "but", "by","for", "if", "in", "into", "is", "it","no", "not", "of", "on", "or", "such","that", "the", "their", "then", "there", "these","they", "this", "to", "was", "will", "with", "from". 四、. 索引建置. 對 XML 檔案進行索引,是本系統最重要的工作之一。本研究使用 Lucene 33.

(44) 來進行搜尋任務,然而 Lucene 並非設計為 XML 索引的工具,因此必須將語料 庫中的資料,以 Lucene 的工具建置為 Lucene 可進行搜尋的索引檔案。Lucene 建置索引的流程如圖 3-4 所示。. 圖 3- 4 索引建置流程圖 資料來源:https://lucene.apache.org/core. 如圖 3-4 所示,Lucene 建立索引的基本單位是文件(Document)。文件是由欄 位(Fields)組成,欄位則是由名稱(name)、內容(value)、加權參數(boost)組成。在 下述實驗索引中,文件代表一本書籍,欄位則是索引的名稱,而欄位的內容則是 由該本書籍的各項資料組成。 本研究將 INEX 所提供的書籍資料依實驗的目的,分兩次製作索引,第一次 索引主要為分辨社群資料和傳統書籍資料對圖書搜尋的影響,索引所包含的 Field 如下: (一) Title:只以書名欄位的資料製作索引。 (二) Biblio:圖書館傳統索引的書目資料,包含書名、作者、主題、分類號 等欄位。 (三) All:所有書籍資料的內容。 (四) Review:由使用者產生的書籍評論資料,主要為擷取自 Amazon 的書籍 評論,不加任何的權重調整參數。 (五) ReviewHelpful:由使用者產生的書籍評論資料,加上其他使用者投票 為有用的次數(<helpfulvotes>)來調整評論的權重。 (六) ReviewHelpful-Total:由使用者產生的書籍評論資料,加上其他使用者 投票為有用的次數除以所有的投票數(<totalvotes>)來調整評論的權 34.

(45) 重。 (七) Tag:僅有擷取自 LibraryThing 的社會標記,不加任何的權重調整參數。 (八) TagCount:擷取自 LibraryThing 的社會標記,加上該社會標記被標記在 該本書籍的次數(取自 tag 的屬性 tagCount)來調整權重。 第二次的索引,則為了處理社會標記的圖書搜尋的影響,依社會標記被標記 於圖書中的次數,設定兩個過濾標準,來篩選社會標記製作索引。其一為 1,另 一為社會標記平均被標記的次數 2.73。依照這兩個標準,以社會標記製作另一 個索引,索引的 Field 如下: (一) TagF1:篩除被標記次數為 1 的社會標記,以其他的社會標記製作索引。 (二) TagFM:篩除被標記次數低於平均數 2.73 的社會標記,以其他的社會 標記製作索引。 五、. 查詢詞. 本研究所使用之主題中,包含<query>、<title>、<group>、<narrative>等四 個主要的欄位內容,其中<query>為 INEX 主辦單位以人工方式根據主題內容所 定出之查詢詞。因此在本研究之各實驗中,將分別使用長查詢以及短查詢,其內 容包含如下。 (一) 長查詢:主題中四個主要的欄位的內容。 (二) 短查詢:主題中的<query>欄位內容。 六、. 搜尋與結果排序. 本研究使用 Lucene 來進行搜尋任務,在索引建置完成之後,則是使用 Lucene 的搜尋工具進行搜尋。Lucene 搜尋的流程如圖 3-5 所示。. 35.

(46) 圖 3- 5 搜尋流程圖 資料來源:https://lucene.apache.org/core/. 如圖 3-5 所示,Lucene 搜尋的第一個步驟是解析查詢字串(parse query String),也就是將檢索詞中的文字經過如 Index Analyzer 一樣的字詞處理過程(斷 詞切字、詞幹處理、刪除停用字等),並且將處理過後的字串,轉換成為 Lucene Query 的格式,傳送至 Searcher 進行搜尋。 Searcher 則會預先載入上一步驟完成的索引檔案,與查詢字串進行比對,並 將結果回傳,回傳結果則是依照不同檢索模型的相關分數由大至小進行排序。 七、. 搜尋結果重新排序. 依上一步驟圖 3-5 所示,在搜尋結果呈現與使用者之前,有一 results list 步 驟,在本步驟將搜尋所得結果,再加入社群相關分數調整其相關分數並進行重新 排序,調整公式如公式 3-1。 (. 在公式 3-1 中, 則是調整參數,. ). (公式 3-1). 是調整過後之相關分數,並據以重新排序搜尋結果。 (. )則是上一步驟搜尋結果之相關分數。. 則是以相同的查詢詞,搜尋社群資料後所得之相關分數。. 36.

(47) 第三節 實驗設計 為探究社群資料與圖書搜尋之關係,本研究使用查詢主題中 query 以及所有 欄 位 資 料 進 行 圖 書 搜 尋 。 再 以 向 量 空 間 模 型 的 BM25 以 及 機 率 模 型 的 Jelinek-Mercer 和 Dirichlet Smoothing 進行 六次搜尋實驗,分別如下所述: 一、. 實驗一. 實驗一主要在試驗不同索引內容在不同索引模型下所得到結果不同。因此, 實驗的參數設定如下: (一) 查詢:分別使用長查詢以及短查詢。 (二) 索引:使用索引一中的 All、Biblio、Title、Review、Tag 等五個欄位。 (三) 搜尋模型:使用 BM25 以及機率模型中的 Dirichlet 和 Jelinek-Mercer 兩種平滑方法。 二、. 實驗二. 實驗二主要在試驗使用社群資料中的<helpvote>、<totalvote>、<tagCount> 等三個數值欄位的內容,分別對 Review 和 Tag 的資料加權,並比較觀察加權方 法對圖書搜尋的結果影響,其實驗設定如下: (一) 查詢:只使用短查詢。 (二) 索引:使用索引一中的 All、Review、ReviewHelpful、ReviewHelpful-Total、 Tag、tagCount 等六個欄位。 (三) 搜尋模型:使用 BM25 以及機率模型中的 Dirichlet 和 Jelinek-Mercer 兩種平滑方法。 三、. 實驗三. 實驗三主要在試驗以及機率模型中的 Dirichlet 和 Jelinek-Mercer 兩種平滑 方法,在不同參數設定的情況之下,對圖書搜尋的結果影響,其實驗設定如下: (一) 查詢:只使用短查詢。 37.

(48) (二) 索引:使用索引一中的 All、Biblio、Title、Review、Tag 等五個欄位。 (三) 搜尋模型:使用機率模型中的 Dirichlet 和 Jelinek-Mercer 兩種平滑方 法。並分別設定 Dirichlet 平滑方法參數由 1000~5000,參數設定之間 隔為 500;Jelinek-Mercer 平滑方法參數由 0~1.0,參數設定間隔為 0.1。 四、. 實驗四. 實驗四主要在試驗以不同的標準將 Tag 資料篩除之後,其對圖書搜尋結果 之影響。因此,實驗的參數設定如下: (一) 查詢:分別使用長查詢以及短查詢。 (二) 索引:使用索引二中的 Tag、TagF1、TagFM 等三個欄位。 (三) 搜尋模型:使用 BM25 以及機率模型中的 Dirichlet 和 Jelinek-Mercer 兩種平滑方法。 五、. 實驗五. 實驗五則是利用 Tag 以公式 3-1,將實驗一之結果重新排序,並觀察比較在 不同參數 的情況之下,觀察比較其對圖書搜尋結果之影響。實驗的參數設定如 下: (一) 查詢:使用短查詢。 (二) 索引:使用索引一中的 All、Biblio、Title、Review、tagCount 等五個欄 位。 (三) 搜尋模型:以短查詢使用 Jelinek-Mercer 平滑方法搜尋 tagCount 的分數 做為. ,並以設定 參數由 0~1.0 合併實驗一之結果分. 數,再依所得之分數重新排序搜結果。 六、. 實驗六. 實驗六則是利用論評以公式 3-1,將實驗一之結果重新排序,並觀察比較在 不同參數 的情況之下,觀察比較其對圖書搜尋結果之影響。實驗的參數設定如 38.

(49) 下: (一) 查詢:使用短查詢。 (二) 索引:使用索引一中的 All、Biblio、Title、Review、tagCount 等五個欄 位。 (四) 搜尋模型:以短查詢使用 Dirichlet 平滑方法搜尋 Review 的分數做為 S. ,並以設定 參數由 0~1.0 合併實驗一之結果,再依. 所得之分數重新排序搜結果。. 第四節 結果評估方法 本研究之目的為評估社群資料對於圖書搜尋系統之影響,因此以開放原始碼 之搜尋引擎 Lucene 建構一完整之圖書搜尋系統,並探究社群資料對圖書搜尋之 影響,主要評估應用社群資料於索引建置以及社群資料於結果重新排序之成效, 分別於系統中進行檢索結果評估以及排序結果評估兩項任務。 將上述搜尋實驗所得的結果,利用 INEX 所提供的相關判斷進行檢驗。nDCG 做為 INEX 評估搜尋結果最主要的評估指標,並加入結果排序對使用者的影響, nDCG 是依照相關度給分,排序愈前面其重要性愈高。本研究依照相關判斷對前 10 筆搜尋結果判斷,依照相關判斷給予其 CG(Cumulated Gain)分數為 0~8 分。 取所有查詢主題的得分平均數進行比較。評估進行流程如圖 3-6 所示,並分別於 以下說明評估進行方式。. 39.

(50) 圖 3- 6 結果評估流程圖 一、. 檢索結果評估. 為評估索引中包含社群資料對搜尋結果之影響,本步驟以 Lucene 搜尋結果 的排序進行評估,以 nDCG 為評估指標,分別評估索引中包含社群資料之影響、 不同索引模型之影響以及查詢詞對搜尋之影響。 二、. 重新排序結果評估. 在這個階段的實驗,則是以經過重新排序模組重新排序之結果以 nDCG 之 數據作為驗證之依據,並評估不同的權重分配對重新結果排序之影響情形。. 40.

(51) 第四章 結果分析 本章將前述實驗設計所得之圖書搜尋結果進行分析討論。本章共有兩節,第 一節為書籍資料搜尋結果分析,在未進行重新排序之前,就所得之圖書搜尋結果 進行分析討論;第二節則為應用社群資料重新排序結果分析,將前一階段所得之 結果加入社群資料之後,重新排序圖書搜尋結果之分析討論;第三節則是與參與 INEX 2013 Social Book Search 的各組結果比較。. 第一節 書籍資料搜尋結果分析 一、索引內容-檢索模型實驗結果 在實驗一中,本研究將所有的主題利用不同的檢索模型對不同的索引內容進 行搜尋實驗,得到的實驗結果如表 4-1 所示。 表 4-1 索引內容-檢索模型搜尋結果 Title. Biblio. All. Review. Tag. 短查詢. 0.0182. 0.0208. 0.0730. 0.0480. 0.0081. 長查詢. 0.0172. 0.0182. 0.0532. 0.0454. 0.0121. Dirichlet (2000). 短查詢. 0.0142. 0.0133. 0.0721. 0.0642. 0.0280. 長查詢. 0.0133. 0.0124. 0.0768. 0.0754. 0.0302. JelinekMercer (0.7). 短查詢. 0.0170. 0.0203. 0.0454. 0.0208. 0.0142. 長查詢. 0.0142. 0.0173. 0.0457. 0.0204. 0.0144. BM25. 從表 4-1 可以知道,使用 BM25 的檢索模型,在短查詢搜尋所有書籍資料索 引時,可以得到最好的結果,而使用長查詢時,其結果反而不如短查詢。這樣的 結果是因為 BM 是單純使用字串比對,而長查詢相較於短查詢其雜訊較多,導致 進行圖書搜尋時,其結果分數相對較低。 在機率模型的 Dirichlet 平滑方法下,短查詢搜所有書籍資料索引的結果雖然 不如 BM25。而在使用長查詢時,其結果反而高於 BM25。這樣的結果是因為機 率模型是比較兩兩字詞同時出現之機率,此時,長查詢較短查詢提供更多的字詞 關係做為判斷依據,因此長查詢結果分數高於短查詢。 41.

參考文獻

相關文件

For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the

 Retrieval performance of different texture features according to the number of relevant images retrieved at various scopes using Corel Photo galleries. # of top

 Create and present information and ideas for the purpose of sharing and exchanging by using information from different sources, in view of the needs of the audience. 

 Create and present information and ideas for the purpose of sharing and exchanging by using information from different sources, in view of the needs of the audience. 

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

We showed that the BCDM is a unifying model in that conceptual instances could be mapped into instances of five existing bitemporal representational data models: a first normal

The MTMH problem is divided into three subproblems which are separately solved in the following three stages: (1) find a minimum set of tag SNPs based on pairwise perfect LD

The grade of the children, education level of parents, the occupation of parents, and the number of times meals are cooked at home have a significant influence on a perception