• 沒有找到結果。

第三章 研究方法與設計

第一節 資料集

INEX 是「可擴展標記語言檢索評估前導計畫(Initiative for the Evaluation of XML retrieval)」的簡稱,是國際上四大資訊檢索評估論壇( TREC、CLEF、NTCIR 和 INEX )之一,但是 INEX 有別於其他三者,主要以評估 focused retrieval 的搜 尋引擎為目標。INEX 自 2002 年起即提供結構化的 XML 資料予參賽單位,參賽 單位利用測試資料設計其搜尋引擎系統之後,再用 INEX 所提供的任務主題 (Topic)進行檢索,並將檢索結果回覆給 INEX。INEX 並不自行評估結果,而是 交由社群來評估,INEX 只保證結果的評比是在一個公平的平台上進行。本節將 分別說明書籍資料集、測試資料的主題以及相關判斷如下。

一、 書籍資料集

本研究以 INEX 所提供的 280 萬筆書籍資料作為測試資料集,資料集以 Amazon 網路書店的書籍資料為主,再加入擷取自 LibraryThing 的社群資料,並 且以 XML 格式提供。

每一筆書籍資料以國際標準書號(International Standard Book Number, ISBN) 識別,但是同一本書的不同版本也會有不同的 ISBN。書籍的書籍資料包含了一

23

般圖書館書籍資料欄位,如國際標準書號(<isbn>)、題名(<title>)、作者(<author>)、

出版者(<publisher>)、頁數(<numberofpage>)、出版日期(<publicationdate>),以及 圖 書 館 常 用 的 杜 威 十 進 分 類 號 (Dewey Decimal Classification, DDC) 資 料 於

<dewey>。另外,擷自 Amazon 的主題標目(Subject Heading)資料則是在<subject>

欄位中,以及 Amazon 的分號標籤<browseNode>。此外,提供了部份的書籍內 容 , 如 開 頭 文 字 (<FirstWord>) 、 結 尾 文 字 (<LastWord>) 、 編 輯 評 論 (<EditorialReview>)。最後,也包含了 Amazon 和 LibraryThing 網站上的社群資 料:社會標記(<Tag>)、等級(<rating>)和評論(<Review>)。詳細的書籍資料欄位

manufacturer 印刷者

publisher 出版者

readinglevel 閱讀分級

releasedate 釋出日期

publicationdate 出版日期

studio 工作室

edition 版本

dewey 杜威分類號

numberofpages 頁數

dimensions height 高度

24

標籤名稱 標籤說明

content 評論的內容 rating 等級(1~5)

helpfulvotes 評論有幫助的票數 totalvotes 所有評論的票數 editorialreviews editorialreview 編輯評論

images image url 影像網址

height 影像長度

width 影像寬度

imagecategory 影像分類 creators creator name 創作者名字

role 創作者角色

blurbers blurber 廣告

dedications dedication 貢獻

epigraphs epigraph 題詞

firstwords firstword 開頭文字

lastwords lastword 結尾文字

quotations quotation 引用

series seriesitem 系列

awards award 得獎

characters character 格式

places place 地點

subjects subject 主題標目(Amazon)

tags tag 社會標記(LibraryThing)

similarproducts similarproduct 類似作品

browseNodes browseNode 分類標籤(Amazon)

資料來源:Koolen, M, Kazai, G, Kamps, J, Preminger, M, Doucet, A, &Landoni, M. (2012).

Overview of the INEX 2012 Social Book Search Track.In S. Geva, J. Kamps& R.

Schenkel (Ed.), (pp. 77-96). INEX,12 Workshop, Rome, Italy.

25

表 3- 2 書籍資料範例

<?xml version="1.0" encoding="UTF-8" standalone="no"?>

<!-- version 1.0 / 2009-11-06T10:45:58+01:00 -->

<!DOCTYPE book SYSTEM "books.dtd">

<book>

<isbn>159953200X</isbn>

<title>The Cincinnati Bengals (Team Spirit)</title>

<ean>9781599532004</ean>

<binding>Library Binding</binding>

<label>Norwood House Press</label>

<listprice>$26.60</listprice>

<manufacturer>Norwood House Press</manufacturer>

<publisher>Norwood House Press</publisher>

<readinglevel>Ages 9-12</readinglevel>

<releasedate/>

<publicationdate>2008-08-15</publicationdate>

<studio>Norwood House Press</studio>

<edition/>

<awards/> <subjects/>

<tags/>

<similarproducts/>

<browseNodes>

<browseNode id="4">Children's Books</browseNode>

<browseNode id="2786">Ages 9-12</browseNode>

<browseNode id="3371">Sports &amp; Activities</browseNode>

<browseNode id="3400">Sports</browseNode>

26

Amazon 分類標籤(browseNode) 100

社會標記(Tag) 83 的分佈情況,其中文學(Literature, 800 類)是書籍最多的一類,包含 25%的書籍資 料。每一筆書籍資料都包含至少一筆 Amazon 的分類標籤,但是只有 61%的書 籍有 DDC。

表 3- 4書籍資料的分類情況(Amazon 分類標籤)

分類標籤(borwseNode) 比例(%) 分類標籤(browseNode) 比例(%)

Non-fiction 20 Science 7

Literature and fiction 20 Fiction 7

Children 14 Literature 7

History 13 Christianity 7

Reference 11 Health, Mind and Body 6 Professional and Technical 11 Arts and Photography 5 Religion and Spirituality 10 Business and Investing 5 Social science 10 Biography and Memoirs 5

資料來源:本研究整理

27

表 3- 5 書籍資料分類情況(DDC)

DDC 主分類

比例(%)

Computer science, information and general works (000) 4 Philosophy and psychology (100) 4

Religion (200) 8

Social sciences (300) 16

Language (400) 2

Science(including mathematics) (500) 5 Technology and applied Science (600) 13

Arts and recreation (700) 13

Literature (800) 25

History, geography, and biography (900) 11

資料來源:本研究整理

二、 主題(Topic)

為了準確描述使用者的資訊需求,INEX 擷取 LibraryThing 的主題論討串內 容。LibraryThing 的使用者在討論區中討論他們的書籍,每一個主題討論串都是 從書籍的資訊需求開始,不論其目的是為了興趣、功課或找尋有趣的新書;討論 串中的其他群組成員則憑藉著本身的經驗推薦或不推薦某些書籍。LibraryThing 應用一項名為 touchstone 的技術,讓群組成員很方便從其書庫中選出要推薦的書 籍,分享給其他的群組成員。因此,在每一個主題討論串的側邊,touchstone 欄 位內即是由群組成員推薦的圖書,如圖 3-1 所示。

28

圖 3- 1LibraryThing 主題討論串,群組成員推薦書籍於右手邊

資料來源:本研究整理

INEX 2013 主辦單位由 122 個不同的群組之中,擷取了 386 個主題討論串,

作為測試圖書搜尋的主題,主題的內容包含<query>、<title>、<group>、<narrative>,

四個主要欄位,內容的詳細說明如表 3-6。本研究進行搜尋實驗時,分別以<query>

和所有欄位內容做為檢索詞進行檢索。查詢主題以 XML 的資料格式提供,如表 3-7 所示。

表 3- 6 查詢主題資料元素列表

標籤名稱 標籤說明

query INEX 依據主題內容定義的查詢詞

title 該討論串的標題

group 該討論串所屬群組

narrative 該主題的詳細說明

29

表 3- 7查詢主題範例

三、 相關判斷

相關判斷在測試資料集中扮演極重要的角色,相對也最困難,最花時間。圖 書搜尋的相關判斷之中,INEX 主辦單位擷取自 LibraryThing 討論串,所有群組 成員提到的圖書作品,作為相關判斷的來源依據。

<query>Politics of Multiculturalism</query>

<title>Politics of Multiculturalism Recommendations?</title>

<group>Political Philosophy</group>

<member>steve.clason</member>

<narrative> I'm new, and would appreciate any recommended reading on the politics of multiculturalism. <a href="/author/parekh" rel="nofollow"

target="_top">Parekh</a>'s <a href="/work/164382" rel="nofollow"

target="_top">Rethinking Multiculturalism: Cultural Diversity and Political Theory</a> (which I just finished) in the end left me unconvinced, though I did find much of value I thought he depended way too much on being able to talk out the details later. It may be that I found his writing style really irritating so adopted a defiant skepticism, but still...<br /><br />Anyway, I've read <a href="/author/sen"

rel="nofollow" target="_top">Sen</a>, <a href="/author/rawles" rel="nofollow"

target="_top">Rawls</a>, <a href="/author/habermas" rel="nofollow"

target="_top">Habermas</a>, and <a href="/author/nussbaum" rel="nofollow"

target="_top">Nussbaum</a>, still don't feel like I've wrapped my little brain around the issue very well and would appreciate any suggestions for further anyone might offer. </narrative>

</topic>

30

表 3- 8 相關分數單一判斷標準

版主 其他成員

已讀 未讀 已讀 未讀

正向 0 8 4 3

中立 0 2 2 2

負向 0 0 0 0

資料來源:http://inex.mmci.uni-saarland.de/‎

表 3- 9 相關分數多次判斷標準

已讀 未讀

無負向 6 4

正向 > 負向 4 3

正向 = 負向 2 2

全部中立 2 2

正向 < 負向 1 1

無正向 0 0

資料來源:http://inex.mmci.uni-saarland.de/‎

在上一節提到的共有 386 個圖書搜尋的主題,而圖書搜尋的相關判斷一共有 54,516 本書籍結果分布在 380 個主題之中,每一個主題最多有 2,986 筆相關結果,

最少只有 1 筆結果,平均則是 143.46 筆結果。在 380 個主題中之,有 10 個主題 的相關書籍結果均為 0 分。

相關文件