緒論 - 社群資料對圖書搜尋系統效能之研究

第一章緒論

西元 2000 年之後，網路資料量大幅度的成長，人們習慣以搜尋引擎在網路上搜尋所需之資料。而隨著 Web2.0 的廣泛應用，各式網路書店以及網路書櫃均提供社群功能，讓使用者利用社群功能以自由形式的關鍵字組織個人的資訊，以評論分享個人的看法。

本研究旨在探討社群資料對圖書搜尋之影響，第一章共分五節說明，第一節闡述研究背景，說明搜尋引擎以及社群網站的發展；第二節說明研究目的以及方法；第三節說明研究範圍與研究限制；第四節則是相關名詞解釋；第五節敘述論文架構

第一節研究背景

數位化與網路化時代的來臨，使網際網路成為人們傳播與吸收資訊的主要來源。根據 IDC Digital Universe Study 指出，全球 2011 年的資料量達 1.8ZB，而至 2020 年，資料量可能達 35ZB，是 2011 年的 20 倍之多，機構所處理的資訊量更會超過 50 倍(Gantz and Reinsel, 2012)。伴隨如此龐大資料量而來的是資訊超載的問題，所謂的資訊超載係指接受太多資訊，反而影響正常的理解與決策。面對資訊超載的問題，人們已習慣以搜尋引擎(如 Google, Yahoo!...)找尋想要的資料。

搜尋引擎是資訊檢索(Information Retrieval, IR)技術的具體實現。全文索引 (full-text index)是搜尋引擎運作的基本機制，其將文件經過斷詞切字、停用字處理(stopword processing)、詞幹處理(stemming)、詞性判斷(POS tagging)等前置處理後，將詞彙建置成索引(index)，繼而運用向量空間模型(Vector Space Model, VSM)或機率模型(Probabilistic Model, PM)等方法比較使用者檢索策略與文件的相似度，並根據相似度高低列出符合使用者資訊需求的文件(Manning, Raghavan,

& Schtze, 2008)。

為因應網路上使用者對資訊檢索的需求，全球資訊檢索的專家學者均積極投入開發更有效率的檢索系統；然而在開發過程中，經常面臨缺乏完整的實驗環境，

對各自開發出來的系統進行公正與有效評估，以利比較與掌控檢索系統之優劣。

因此，美國國防部高等研究計畫署(Defense Advanced Research Projects Agency, DARPA)與美國國家標準暨技術局(National Institute of Standardsand Technology, NIST)，在 1992 年共同舉辦了文件檢索會議(Text REtrievalConference, TREC)，

TREC 建立大型測試集，伴隨測試項目、測試程序、評估準則的標準化，並提供論壇予參與者討論與分享結果，使得資訊檢索的測試環境得以更接近實際情況，

對檢索技術發展與系統績效評估提昇，有非常重要的貢獻(Harman, 1993)。

INEX(INitiative for the Evaluation of XML retrieval)計畫則是 XML 檢索研究中最重要的測試平台，它透過協作產生參考文件集、查詢集以及相關性判斷。

INEX 自 2002 年開始實施，該年提供的文件集包含約 12,000 篇來自 IEEE 期刊的文章。從 2006 年開始，INEX 開始使用資料量比較大的維基百科(Wikipedia)作為測試集。

另一方面，自從 O'Reilly 於 2005 年提出 Web 2.0 的概念之後(O'Reilly, 2005)，

Web 2.0 相關應用在資訊技術的推波助瀾之下，在網際網路上如雨後春筍般出現。

如部落格、維基…等網站，均應用 Web 2.0 概念以及相關技術，除允許使用者發佈內容之外，也允許使用者對其他使用者發布的內容進行評論、標記以及分享予他人。而 Web 2.0 最重要的精神係運用群體智慧(crowd wisdom)，創造、分享並評論使用者自身或他人的內容。

圖書是人類文化最重要的載體之一，在數位化圖書館與網際網路的浪潮下，

圖書館、網路書店、網路書櫃皆有豐富的數位化書目資料。隨著 Web 2.0 的風行，

這些網站也紛紛加入 Web 2.0 的元素或精神，由使用者自行創造、分享或評論其感興趣的內容。如 Darien Library 的 SOPAC 計畫，即是使用開放原始碼的架站軟體 Drupal 作為圖書館的線上公用目錄（Online Public Access Catalog, OPAC），

並允許使用者自由於 OPAC 中針對書籍進行評論、標記與分享予其他讀者(Hadro, 2008)。網路書店 Amazon 以及網路書櫃 LibraryThing 除了書目資料之外，還提供使用者自行評論、標記書籍，並且連結有相同興趣的讀者推薦圖書。這些由使用者基於自身興趣而創造、分享或評論的資訊，對於其他使用者尋書是否有助益，

或與傳統書目資料是否有互補之處，皆值得深入研究。

與搜尋引擎全文檢索機制相對的，則是透過後設資料(metadata)輔助檢索。

後設資料又稱詮釋資料，乃是描述資訊物件的結構化資料(data about data;

structured description of a data object)，其主要功能在於描述資訊物件、支援精確的條件檢索資訊物件、讓使用者判斷資訊物件是否符合其需求，並有助於資訊物件的管理與應用。而 INEX 以 XML 所提供之測試資料集，即具有後設資料之概念，即以結構化之資料來描述相關資料。

INEX 自 2007 年開始加入書籍檢索(Book Retrieval)任務，一開始使用約 10,000 本光學字元識別(Optical Character Recognition, OCR)的書籍作為測試資料集，自 2011 年使用擷取自 Amazon 與 LibaryThing 約 280 萬筆書籍資料作為測試集(http:// inex.mmci.uni-saarland.de)，該資料集除了書籍資料外尚包含使用者給予書籍的社會標誌與評論。本研究即是以 INEX 2013 所提供之圖書搜尋測試資料作為資料集。

第二節研究目的

網路搜尋引擎市場的競爭日益激烈，除了傳統的無序檢索結果評估方式之外，

檢索結果的排序，也會直接影響到用戶的滿意度。在檢索結果排序的方法中，最常被使用的演算法之一，是利用點擊日誌(click-through log)以使用者回饋(user feedback)的方式對搜索結果重新排序(Joachims, Granka, Pan, Hembrooke, & Gay, 2005)。而在最近的一些研究證實，應用社會標記將檢索結果重新排序是有效的做法(Bao et al., 2007)。

本研究擬探討如何應用社群資料提升圖書搜尋品質。具體而言，本研究希望

由索引建置、索引內容加權以及搜尋結果重新排序三個方面運用使用者建立之社群資料(Social Tag、Social Review…等)，比較其對圖書搜尋效能之影響，藉此達到以下目的：

一、應用不同的搜尋模型和平滑方法對不同圖書詮釋資料項目搜尋結果之影響。

二、針對不同的平滑方法，其參數設定對圖書搜尋之影響。

三、以社群資料對圖書資料索引加權對圖書搜尋之影響。

四、查詢語句長短，對機率模型不同平滑方法對圖書搜尋之影響。

五、應用社群資料將圖書搜尋結果重新排序對圖書搜尋之影響。

第三節研究範圍與限制

本研究以 INEX 2013 書籍搜尋任務所提供之 280 萬筆書籍資料為研究範圍，

並且以其測試主題(Topic)代替使用者實際輸入之查詢詞，因此本研究有以下 2 點限制：

一、處理語言限定英文格式。本研究採用之 INEX 2013 資料其原始來源為 Amazon 網路書店之英文書目，在其延伸之社會標記(Social Tag) 或有其他各國語言，但各國語言字詞與文法差異，進行前置處理需做不同的斷詞處理。各國語言間的特性以及處理方式並不在本研究探討之範圍。

二、測試主題內容並非實際使用者查詢。雖然測試主題是來自 LibraryThing 的主題討論串(topic thread)，足以代表使用者真實的資訊需求，但與使用者實際使用之查詢詞仍不相同。

第四節名詞解釋

本研究所用之相關名詞解釋如下：

一、 社群資料

Cambria, Rajagopal, Olsher and Das (2013)在對海量資料(Big Data)的探討中提到，所謂的社群資料(Social Data)泛社由社群網站或網站的社群功能中由使用者產出之資料，包含部落格(Blog)、維基(Wiki)中的文章、回應(comment)、投票 (vote)、標記(tag)…等。而本研究所採用之社群資料，係 INEX 擷取自 Amazon 網路書店的使用者對書籍之評論(review)、書籍的等級(rating)、對評論之投票 (vote)，以及擷取自 LibraryThing 網站的社會標記(tag)和標記被標記的次數 (tagCount)。

二、 重新排序

當搜尋引擎第一次的搜尋只依據結果以及查詢詞之相關分數排序，為了彌補搜尋結果不佳時，排名前面的結果中，包含相關結果的比率較低的情況，可以使用文件重排序(Document Re-ranking)的技術，在第一次檢索結果輸出後，用更精確的演算法對結果重新排序，讓排序在前面的結果中，能涵蓋較多與查詢相關的結果，以提升檢索的效能。

三、 相關判斷

相關判斷意指判定搜尋結果與查詢詞的相關性，並用之進行檢索績效的評量。

長久以來，已有許多學者討論多種相關的概念，例如心理相關、情境相關、主題相關等等，傳統上，以量化的方式評估相關性，採用的是「主題相關」。事實上，

相關判斷會因判斷者、判斷情境等諸多因素而可能產生很大的差異，加上進行相關判斷時往往囿於時間人力等種種限制，無法作十分周詳的考量，通常只能採取一些可行性較高的權宜方案。

INEX 對於圖書搜尋之相關判斷則擷取自 LibraryThing 討論串，討論串之發

起人描述其需求，由所有群組成員在討論串中提到的圖書作品，作為相關判斷的來源依據。

四、

nDCG

為了強調檢索結果排序對使用者的影響，nDCG 是由使用者對於每一筆檢索回傳的結果，分別給予分數，分數並不只有 0 和 1 兩種，可以接受多值的分數，

以判斷其相關性的強弱(Järvelin & Kekäläinen, 2000)。

INEX 2013 圖書搜尋為了更強調檢索結果排序對使用者的影響，採用 nDCG 作為其評估指標。INEX 2013 圖書搜尋所定義之單筆檢索結果之相關分數為 0-8 分。再依據單筆檢索結果的分數以及其結果排序計算該筆檢索的 DCG (discount cumulated gain)分數，INEX 2013 圖書搜尋取前 10 筆結果之 DCG 分數加總，並且正規化，得到 nDCG@10，作為其評估圖書搜尋效能的指標。

第五節論文架構

本論文各章節組織如下。第一章為研究背景動機、研究目的與方法描述、研究範圍與限制以及說明相關名詞。第二章探討目前文獻中各種相關的社會標記、

資訊檢索模型以及圖書搜尋相關之研究。第三章為本論文之實驗架構，包含所使用之資料集、實驗方法與設定以及結果評估方式。第四章針對實驗結果進行分析討論並於第五章提出結果與未來研究建議。

在文檔中社群資料對圖書搜尋系統效能之研究 (頁 11-18)

緒論

第一章 緒論

第一節 研究背景

第二節 研究目的

第三節 研究範圍與限制

第四節 名詞解釋