• 沒有找到結果。

Web 2.0概念的圖書館個人化推薦系統

N/A
N/A
Protected

Academic year: 2021

Share "Web 2.0概念的圖書館個人化推薦系統"

Copied!
91
0
0

加載中.... (立即查看全文)

全文

(1)〜 獻 給 我 的 父 母 〜.

(2) 國立交通大學 資訊管理研究所 碩 士 論 文. Web 2.0 概念的圖書館個人化推薦系統 A Web 2.0-based Personalized Recommendation System for Library. 研 究 生:羅子文 指導教授:柯皓仁. 教授. 中 華 民 國 九 十 六 年 七 月.

(3) Web 2.0 概念的圖書館個人化推薦系統 A Web 2.0-based Personalized Recommendation System for Library. 研 究 生:羅子文. Student:Tzu-Wen Lo. 指導教授:柯皓仁. Advisor:Hao-Ren Ke. 國 立 交 通 大 學 資 訊 管 理 研 究 所 碩 士 論 文. A Thesis Submitted to Institute of Information Management College of Management National Chiao Tung University in partial Fulfillment of the Requirements for the Degree of Master in Information Management July 2007 Hsinchu, Taiwan, Republic of China. 中華民國九十六年七月.

(4)    .  .

(5)      .  .

(6)  .

(7) Web 2.0 概念的圖書館個人化推薦系統 A Web 2.0-based Personalized Recommendation System for Library 研究生:羅子文. 指導教授:柯皓仁博士. 國立交通大學資訊管理研究所. 摘要 Web 2.0 的精神是想透過社群的集體力量,創造、分享並評論屬於使用者自身或他人觀 點的內容。而自 2002 年以後,從 Wikipedia 可以證明此種以群眾意見為基礎的內容創造及評 論模式,不論在客觀數據及社會觀感中均具有可信的份量。 而在 Web 2.0 之前,網路商店提供的推薦清單,個別使用者並無法回饋有關推薦精確度 的訊息,而其他使用者也無法自他人的意見回饋中獲益。 因此本論文將 Web 2.0 的精神與個人化推薦系統相結合,並應用在圖書館推薦系統中。 本論文使用資料探勘 (Data Mining) 的協力式過濾 (Collaborative Filtering) 得出個別讀者的 推薦清單,再經由讀者們對書籍難易度的評價、與個別讀者設定難易度的等級,過濾出難易 適中的推薦書籍;同時經由讀者們對書籍 tagging 等 Web 2.0 的活動,重新對館藏進行分類, 使得圖書館的藏書以一種更貼近當代讀者的面目呈現,以消除讀者對圖書館的隔閡。 本論文希望由量變產生質變,透過社群參與難易度的評價。讓讀者自行決定書籍的適當 閱讀順序與分類,讀者將透過更親切、容易的方式找書,同時也讓前人的閱讀經驗得以留存, 幫助後進者的求知之路。. 關鍵字:Web 2.0、群眾標記、推薦系統、關聯規則探勘、圖書館. i.

(8) A Web-2.0 based Personalized Recommendation System for Library Student: Tzu-Wen Lo. Advisor: Dr. Hao-Ren Ke. Institute of Information Management National Chiao Tung University. ABSTRACT True to the Web 2.0 spirit of creating, sharing and tagging by open-communities, the content of websites are no longer provided by site owners but users. After 2000, Wikipedia, as one of the paradigms of Web 2.0 websites, proved that this kind of running model which made of people, tagging and review by people has earned trustworthy reputation in objective data and general impression. Before Web 2.0 era, users could not response their feedback to recommendation list of online stores, with the result that stores could not improve the system by collecting feedback. In order to solve the problem and offer an adaptive recommendation system that automatically adjusts recommendation result to users’ preference by collecting response of users, our research combined Web 2.0 features with personal recommendation system and put in use in library. First of all, our research applies Collaborative Filtering, one of solutions of Data Mining, to obtain individual recommendation list. Secondly, system filters out unsuitable results depends on personal rating records, and in proportion to overall rating by all of the users. Therefore, the final recommendation list should be more accommodate to each user. Furthermore, users’ tagging would also reconstruct library catalog, which could break down the barrier between library and readers. Our research expects of quantitative and qualitative change phenomenon by encouraging community participation. Hence, by archiving and analyzing forerunners’ rating, review and tagging records, following readers would be easier to find right books quickly.. Keywords: Web 2.0; collaborative tagging; recommendation system; Association Rule Mining; library. ii.

(9) 誌謝 二零零五年我到了島嶼內知名的晶圓城市,學校就在這些晶圓巨人旁,中午時分會看到圍繞在 學校週邊公司的員工走回學校餐廳用午餐,從他們識途老馬的行走路線,我可以知道他們不久前曾是 這裡的學生。 這裡大抵是這個國家產學結合得最緊密的示範園區,範圍內兩所學校與園區公司保持著少見的 親密。學校建築以公司名號起名、實驗室研發計畫與業界合作;學生畢業了,也到附近的公司上班。 我一個好朋友,從大學到博班都在另一所以梅為別名的學校,未來也該是在這個穩定發展的聚落,支 持著百分之三十的國家 GDP。而我深深知道,我是多麼想望著遠方的風景。 一個夏天我認識了我的指導教授,在一個極短的時間內他對我投注極大的信任,給我完成論文 與計畫足夠的發揮空間與權限。我像是一個擁有珍稀畫材與無窮顏料的畫家,在一個愉快的環境內, 完成了二件重要作品。姑且不論我承受著歷來最大的身心壓力,從他而來的支持與收穫是我能夠安然 渡過的最大原因,而對此我深深感激,他是柯皓仁博士,我的指導教授。有些人以姓名諧音叫他為好 人,我覺得名符其實。 圖書館的同仁,思羽、玉菱、媛媛與佳欣,感謝你們傳授的 know-how,希望我不是歷來最難纏 的學生。圖書館數位典藏工作室林孟玲小姐,身為一位專業的館員,對於我的論文與計畫給予的建議 往往啟迪了更多創意的發想,而這價值非凡;我要謝謝孟玲姐在生活上的照料與忠告,這與平常的閱 讀分享,共同成為我在圖書館工作期間最美好的經驗。 以交情度認購最低消費額、幫助填寫問卷的眾家親朋好友們,謝謝你們的鼎力相助,助我完成 最後一章。謝謝實驗室歷屆學長的技術支援與學弟的支持,希望這互相支援的義氣(或說風格)得以 傳承下去。 我的父母,我無後顧之憂的最大支柱,我們每年見面如報稅的次數,但任誰都知道彼此心裡的 牽掛。胞弟子仁,雖然你大部份作的事都令我頭痛、但有在成長;我個人希望你速度快一點,我不想 要習慣性頭痛。 資訊大樓前莫內的畫,凌晨四點伴我歸途的月。我要離開了,再見。. iii.

(10) 目錄 壹、 緒論............................................................................................................................................ 1  一、 研究目的與動機 .................................................................................................................................................. 1  二、 研究方法與目標 .................................................................................................................................................. 3  三、 論文架構 .............................................................................................................................................................. 4 . 貳、 WEB 2.0 相關研究 ................................................................................................................... 5  一、 WEB 2.0 的定義與起源 ....................................................................................................................................... 5  二、 WEB 2.0 的現象與意義 ....................................................................................................................................... 9  三、 WEB 2.0 的相關技術 ......................................................................................................................................... 11  四、 與本研究相關的 WEB 2.0 網站......................................................................................................................... 14 . (一) . Eurekster .............................................................................................................................................. 14 . (二) . Library Thing ....................................................................................................................................... 15 . (三) . Shelfari ................................................................................................................................................. 17 . 參、 推薦系統與資料探勘相關研究.............................................................................................. 19  一、 推薦系統與資訊過載 ........................................................................................................................................ 19  二、 圖書館的圖書推薦與資料探勘 ........................................................................................................................ 20 . (一) . 使用者導向之網路資源組織 .............................................................................................................. 20 . (二) . 使用者導向之網路資源檢索 .............................................................................................................. 24 . 三、 推薦系統主要架構 ............................................................................................................................................ 27 . (一) . 輸入與輸出.......................................................................................................................................... 28 . (二) . 推薦方法.............................................................................................................................................. 30 . (三) . 個人化與傳遞...................................................................................................................................... 31  iv.

(11) 四、 協力式過濾與關聯規則探勘 ............................................................................................................................ 33 . (一) . 關聯規則探勘...................................................................................................................................... 33 . (二) . Microsoft SQL Server 2005 的資料探勘解決方案 ............................................................................. 36 . 肆、 系統實作.................................................................................................................................. 38  一、 系統架構 ............................................................................................................................................................ 38  二、 資料預處理 ........................................................................................................................................................ 40  三、 建立關聯規則模型及演算法預測查詢 ............................................................................................................ 41  四、 排序個人書單及難易層級 ................................................................................................................................ 47  五、 系統實際操作畫面 ............................................................................................................................................ 51 . 伍、 資料分析與討論...................................................................................................................... 54  一、 受訪者網路使用行為及接觸圖書資訊行為分析 ............................................................................................ 54  二、 受訪者圖書館使用行為分析 ............................................................................................................................ 57  三、 WEB 2.0 推薦功能需求分析 ............................................................................................................................. 62  四、 ABU 使用滿意度分析 ........................................................................................................................................ 63  五、 綜合討論 ............................................................................................................................................................ 64 . 陸、 結論與未來發展方向.............................................................................................................. 67  一、 結論 .................................................................................................................................................................... 67  二、 未來發展方向 .................................................................................................................................................... 68 . 柒、 參考文獻.................................................................................................................................. 70 . v.

(12) 表目錄 表 1 XMLHTTPREQUEST 示例 ...................................................................................................................................... 12  表 2 XMLHTTPREQUEST 於不同平台瀏覽器示例 ....................................................................................................... 12  表 3 APRIORI 演算法。資料來源:(AGRAWAL AND SRIKANT 1994) ............................................................................ 35  表 4 ABU 必要軟體需求。資料來源:本論文 ............................................................................................................ 40  表 5 PREDICTIONASSOCIATION 預測查詢示例。資料來源:本論文 .......................................................................... 45  表 6 受試者對於 ABU 功能的滿意度分析─平均數與標準差 ................................................................................... 64  表 7 受試者對於 ABU 系統的綜合滿意度─平均數與標準差 ................................................................................... 65 . vi.

(13) 圖目錄 圖 1 WEB 2.0 概念圖。資料來源:(TIM O'REILLY 2005/9/30) ..................................................................................... 7  圖 2 WEB 2.0 BUBBLE MAP。資料來源:(MARKUS ANGERMEIER 2005/11/11) ............................................................ 8  圖 3 TIME BAR OF WEB 2.0 BUZZ WORDS。資料來源:(JÜRGEN SCHILLER GARICA 2006/9/21) .................................. 11  圖 4 EUREKSTER 以 GOOGLE WEB API 為基礎的社群搜尋引擎。資料來源:EUREKSTER 網站 ............................. 13  圖 5 使用 GOOGLE MAPS 混搭而成的 FON MAPS。資料來源:FON 網站 .............................................................. 14  圖 6 EUREKSTER 的回饋意見機制。資料來源:EUREKSTER 網站............................................................................. 15  圖 7 LIBRARYTHING 的書籍頁面。資料來源:LIBRARYTHING 網站 ......................................................................... 16  圖 8 LIBRARYTHING 列出書籍的評價分佈。資料來源:LIBRARYTHING 網站 ......................................................... 17  圖 9 SHELFARI 的書架畫面。資料來源:SHELFARI 網站 ........................................................................................... 18  圖 10 推薦方法分類。修改自資料來源:(卜小蝶 2007) .......................................................................................... 21  圖 11 交通大學學科資源網。資料來源:交通大學圖書館 ...................................................................................... 21  圖 12 賓州大學 PENNTAGS。資料來源:賓州大學圖書館 PENNTAGS 網站 ............................................................. 22  圖 13 交通大學圖書館讀者興趣屬性。資料來源:交通大學圖書館 PIE@NCTU 網站 ........................................ 23  圖 14 交通大學圖書館的個人化新書通告。資料來源:交通大學圖書館 PIE@NCTU 網站 ................................ 24  圖 15 圖像檢索示例。資料來源:GETTYIMAGES 網站.............................................................................................. 25  圖 16 GOOGLE 的關鍵字推薦。資料來源:GOOGLE.COM ......................................................................................... 26  圖 17 交通大學圖書館目前提供的推薦服務。資料來源:本論文 .......................................................................... 27  圖 18 推薦系統主要架構。修改自資料來源:(SCHAFER 2001) ................................................................................ 28 . vii.

(14) 圖 19 AMAZON.COM 的個人化推薦。資料來源:AMAZON.COM 網站 ....................................................................... 32  圖 20 MICROSOFT SQL SERVER 2005 的圖形化探勘結果示例。資料來源:本論文 ................................................ 37  圖 21 ABU 架構圖。資料來源:本論文...................................................................................................................... 39  圖 22 ABU 功能架構圖。資料來源:本論文 .............................................................................................................. 39  圖 23 ABU 借閱資料。資料來源:本論文 .................................................................................................................. 41  圖 24 ABU 關聯規則模型。資料來源:本論文 .......................................................................................................... 42  圖 25 ABU 探勘結果之相依性網路。資料來源:本論文 .......................................................................................... 44  圖 26 PREDICTIONASSOCIATION 預測查詢結果。資料來源:本論文 ........................................................................ 46  圖 27 預先批次處理完所有讀者之預測查詢。資料來源:本論文 .......................................................................... 46  圖 28 ABU 網站之個人推薦畫面。資料來源:本論文之 ABU 網站 ......................................................................... 47  圖 29 ABU 網站中書籍評價畫面。資料來源:本論文 ABU 網站 ............................................................................. 48  圖 30 ABU 網站中讀者之閱讀階段畫面。資料來源:本論文 ABU 網站 ................................................................. 49  圖 31 ABU 過濾法則。資料來源:本論文 .................................................................................................................. 49  圖 32 阿布的個人化書單。資料來源:本論文 ABU 網站 ......................................................................................... 50  圖 33 圖書分類目錄。資料來源:本論文 ABU 網站 ................................................................................................. 51  圖 34 ABU 的 TAG CLOUD。資料來源:本論文 ABU 網站.......................................................................................... 52  圖 35 在 ABU 查詢 AMAZON.COM 書目。資料來源:本論文 ABU 網站 ................................................................... 52  圖 36 ABU 名家書單。資料來源:本論文 ABU 網站 ................................................................................................. 53  圖 37 受訪者每天上網時間.......................................................................................................................................... 54 . viii.

(15) 圖 38 受訪者上網資歷.................................................................................................................................................. 55  圖 39 受訪者逛書店或接觸書籍的頻率 ...................................................................................................................... 56  圖 40 受訪者閱讀新書的比例...................................................................................................................................... 56  圖 41 受訪者閱讀學校教科書、參考書的比例 .......................................................................................................... 57  圖 42 受訪者親自到訪交大圖書館的頻率 .................................................................................................................. 57  圖 43 受訪者使用交大圖書館電子資源的頻率 .......................................................................................................... 58  圖 44 受訪者親自到訪與使用電子資源之比較 .......................................................................................................... 58  圖 45 受訪者使用館藏目錄與新書目錄之比例 .......................................................................................................... 59  圖 46 受訪者對於圖書館電子資源查詢及排序的結果滿意程度 .............................................................................. 59  圖 47 受訪者對於圖書館提供新知的滿意程度 .......................................................................................................... 60  圖 48 受訪者接觸新書的管道...................................................................................................................................... 61  圖 49 受訪者選書時會參考其他熱中閱讀讀者意見之比例 ...................................................................................... 61  圖 50 受訪者對於 WEB 2.0 推薦功能的需求分析 ...................................................................................................... 62  圖 51 受訪者對於 ABU 的滿意度分析......................................................................................................................... 63  圖 52 受訪者對於 ABU 系統的綜合滿意度................................................................................................................. 64 . ix.

(16) 方程式目錄 方程式 1 PROBABILITY 公式示例。資料來源:本論文.............................................................................................. 42  方程式 2 IMPORTANCE 公式示例。資料來源:本論文............................................................................................... 43  方程式 3 書籍評價計算公式。資料來源:本論文 .................................................................................................... 47  方程式 4 讀者閱讀階段計算公式。資料來源:本論文 ............................................................................................ 48 . x.

(17) 壹、緒論 一、研究目的與動機. 圖書館在歷史上,對於保存及交流人類智慧佔有極重要的角色。諸如馬克斯(Marl Marx) 、狄更斯(Charles Dickens)及蕭伯納(George Bernard Shaw)都是大英圖書館(British Library)的常客(The British Library ),孫中山更是在大英圖書館寫下了三民主義(Casey 2002-06-24),足見圖書館的實質貢獻。 然而,在 1979 年美國 Pittsburgh 大學調查報告中指出(Kent and And Others 1979),圖書館 的館藏資源只有少部份被有效利用。各圖書館無不利用各種方式,帶領讀者博覽更多尚未被 發掘的藏書。 其中,為發揮導覽群書的功能,圖書館通常了圖書分類系統。以國內常用的中國圖書分 類法為例,將中文圖書依哲學、宗教、自然科學、應用科學、社會科學、史地、語文及美術 等略分為十類。針對英文圖書則採用美國國會分類法,以學科分成二十四類。此類的分類方 式,本文稱為 Taxonomy 分類法。分類的目的是為了檢索與瀏覽,然而,這類相對屬於小眾 的、專業人士才熟知了解的分類方式,卻也限制了大眾的、業餘讀者面對知識的角度。 博客來網路書店張天立總經理指出,中國圖書分類法的十大類除圖書館員外,一般讀者 之反應皆不佳(張天立 民 93)。若仔細觀察圖書館的分類並與網路書店比較,可以發現兩者的 分類方式完全不同。網路書店為了更接近讀者的需要、同時也基於便於行銷上的考量,使用 了對讀者而言較為親近的分類方式。 若能更進一步讓讀者自行「標記」 (tagging)書籍的分類,再透過網站排序、重新分類書 籍,便能夠提供比中國圖書分類法及美國國會分類法更為貼近讀者的分類制度,進而幫助讀 者從檢索中更容易看到相關書籍。(游子賢 2005)也提到:「組織分群後的標籤的確能讓使用 者更快熟悉其搜尋的概念,以及幫助其導覽」 。因此,本研究採用了讓讀者自行標記的方式, 重新定義書籍的分類。 1.

(18) 欲將分類的權力重新交回讀者手中,便需依賴眾多讀者的共同參與,才能使圖書館的分 類隨著標記資料筆數的累積愈來愈貼近讀者需求。而標記以及依賴群眾力量,即是 Web 2.0 典型的活動之一。 Web 2.0 的精神,是想透過社群的集體力量,創造、分享並評論屬於使用者自身或他人 觀點的內容。而自 2000 年以後,社會大眾從 Wikipedia 可以證明此種以群眾意見為基礎的內 容創造及評論模式,不論在質與量上、於客觀數據及社會主觀評價中均具有可信的份量。其 中著名的一項事證,即是國際知名期刊《自然》(Nature)在 2005 十二月發表的一份研究報 告指出,Wikipedia 條目的正確性,與大英百科全書(Encyclopedia Britannica)不相上下(Jim 2005/12/14)。研究者相信,同樣藉由讀者共同標記的活動,一種更符合讀者需求的分類制度 將可由讀者自己創造。 除了分類系統之外,推薦亦是圖書館常用的推廣方法之一。推薦系統(Recommendation Systems)應用最廣的領域原是電子商務,目的是欲在無人服務的電子商業環境中塑造有專人 服務的效果,以補足電子商務較不人性化的缺失。在傳統書店交易,由於經常往來,老闆常 會根據個人需求與喜好額外推介相關書籍,此類客戶關係管理(Customer Relationship Management, CRM)的活動在電子商務裡就以推薦系統取而代之。而以圖書館而言,讀者的 借閱歷史即是讀者與圖書館往來的記錄,也是圖書館利用資料探勘(Data Mining)技術實踐 推薦時進行分析的資料來源。 本論文提出的推薦方法,主要是基於協力式過濾(Collaborative Filtering)的概念,以關 聯規則探勘(Association Rules)找出在借閱記錄上具有相同興趣的讀者,作為推薦的依據。 而為了能夠進一步蒐集讀者對於推薦的反應,以及對讀者提供更為精準的推薦清單,本論文 提出一種讓讀者自定書籍難度的功能,該功能另一方面也定義了讀者本身的閱讀階級。 讀者可以提出他對推薦結果是否符合閱讀現況的回饋,以簡單、中間偏易、中間偏難到 困難以四級表示。舉例而言,若推薦一讀者一系列關於經濟學的書籍,讀者大部份皆回饋書 籍屬於中間偏難或困難,即表示讀者目前屬於入門階段,其他進階甚至專業書籍並不符合他 2.

(19) 的需求。因此在系統儲存回饋後再次顯示的結果,將只顯示被歸類為入門的書籍。而書籍屬 於四級中的哪一級,則視群體讀者的回饋而定。前述讀者的分級,同樣也自入門、進階、高 級至專業分為四級,相同級別的讀者只會得到相同難易程度的書籍。本論文籍由此種協力式 標記(Collaborative Tagging)的方式,進一步可為讀者過濾掉將近四分之三的推薦結果,留 下的結果將更貼近讀者在閱讀程度上的需求。 (吳晨帆 2004)指出,推薦的形式中,以「專家測試報告」的命中度最高,而「討論區文 章」效果最差。(余明哲 2003)也提到,人工選粹(Manually Selected)式、由專家人工建立 推薦清單讓讀者自行參考的方式,具有相當高的準確度。意即與其讓讀者自行「爬文」 、找尋 資訊,不如由圖書館提供各式專家推薦清單。因此本論文建立的示範網站中建有名家書單功 能,提供讀者閱讀的導引,同時也是讀者除了借閱歷史及自行檢索外,第三種標記及評價難 易程度的來源。. 二、研究方法與目標. 本論文建立的「交大阿布 A.bu」系統(以下簡稱 Abu),以國立交通大學浩然圖書館讀 者借閱記錄為基礎,利用資料探勘的技術,探索讀者借閱書籍的相關程度,並藉由讀者自行 評價書籍的活動,擬出一份屬於個別讀者的推薦清單,提供讀者作為借閱的參考。 此外,本論文亦希望藉由讀者參與書籍 tagging 及評價的活動,累積讀者對於圖書館藏書 的回饋,並期望藉由評價資料的量變造成質變,使得書籍的標記與評價記錄可以成為除了既 有的圖書館詮釋資料(Metadata)之外,讀者借閱書籍前的另一重要參考資源。一方面除了 使後人能夠減少在書目之間重新摸索的時間,另一方面也藉由此一電子化服務強化圖書館在 閱讀導引上的服務。 本論文提出的推薦系統,結合了自動化推薦、讀者自行分群及社群的特色,提供了推薦 清單、清單過濾及群體標記的功能,最大的目的是希望經由讀者對於書籍的回饋,重新組織 圖書館藏書,以另一種別於 Web 1.0 的、小眾的、專家的方式,重新以一種更能夠讓新世代 3.

(20) 大學圖書館讀者能夠接受的方式,引介圖書館的藏書,讓讀者能夠更有效利用圖書館的資源, 並提昇圖書館的價值。. 三、論文架構. 本論文第二章,將會介紹 Web 2.0 發展的相關研究,以及將之與推薦系統整合後所顯現 的價值。第三章說明推薦系統與資料探勘的相關研究,以及 Microsoft SQL Server 2005 提出 的解決方案。第四章介紹推薦系統與讀者評價的整合方法,及應用於國立交通大學浩然圖書 館 A.bu 系統的狀況。第五章以問卷調查分析讀者對於 A.bu 系統的使用滿意度。第六章為結 論及針對 Web 2.0 之推薦系統未來的發展方向。. 4.

(21) 貳、Web 2.0 相關研究 本論文所提出的個人化推薦系統與現今大部份推薦系統的差異在於:使用了 Web 2.0 的 技術手段,讓讀者能夠回饋推薦系統,並且能夠即時反應每次回饋的結果;同時,讀者有能 力重塑圖書館藏書的分類。而為了能夠達成這些目的,必須使用一些 Web 2.0 的技術,達成 Web 2.0 網站所能夠期待的結果。 在本章中,第一節介紹 Web 2.0 的定義與起源;第二節說明 Web 2.0 在文化上的現象與 意義;第三節則為 Web 2.0 網站經常使用(但非充要條件)的技術;第四節介紹與本研究或 推薦系統相關 Web 2.0 網站。. 一、Web 2.0 的定義與起源. Web 2.0 一詞由提姆‧歐萊禮(Tim O’reilly)在 2004 與 MediaLive 公司的一場會議中第 一次出現。這位創立 O’reilly Media 同名公司的網路先驅和他的共同創辦人戴爾‧多爾帝(Dale Dougherty)認為,2001 年後的 dot-com 泡沫化狂潮及股市的衰退不盡然像是媒體所宣稱的, 是一種過份炒作的結果,而是所有技術革命的共同特徵。歐萊禮認為,dot-com 的泡沫化及 股市的衰退,不過是這些嶄新的技術開始佔領產業的中心舞台、而實力不夠堅強的冒牌貨 (pretender)被淘汰的過程(Tim O'Reilly 2005/9/30)。 歐萊禮觀察,能夠在 dot-com 泡沫化後倖存的網站都有一些共同特徵,而這些共同特徵 正是網站為了生存下來而進行的改變。歐萊禮認為,Web 2.0 即是一種下個世代軟體的設計 形態與商業模式(a design patterns and business models for the next generation of software)(Tim O'Reilly 2005/9/30)。由於這種觀察在當時獲得眾人的支持,Web 2.0 一詞便開始廣為流傳。 由於 Web 2.0 並不完全偏重技術性或文化性,而是一個融合技術與文化的新詞;Web 2.0 的內涵也並未明確定義,遂引起諸多爭論,使得各家評論者紛紛以自身觀察定義了 Web 2.0。 其中,又以活躍於各式媒體的科技評論家及專業部落客(blogger)的見解最為精采。例如, 英國巴斯大學(University of Bath)UKOLN 研究中心的 Davis, Ian 認為:「Web 2.0 是一種態 5.

(22) 度而非技術」(an attitude not a technology)(Ian 2005/7/4)。Web 2.0 Journal 及 AJaxWorld Magazine 的主編─Dion Hinchcliffe 認為,對他而言最好的詮釋(Dion Hinchcliffe ),是「Web 2.0 是由群眾所構成(Web 2.0 is made of people) 。而台灣的網路家庭董事長詹宏志認為: 「Web 2.0 是指網路上的服務、內容和行為」(吳靖雯 2006)。 有鑑於各家言論不一,歐萊禮於 2005 年的 Web 2.0 研討會提出了一個更完整的說明,認 為 Web 2.0 應該包含以下原則(Tim O'Reilly 2005/9/30): 將 Web 視為一種平台;能夠駕馭群體智慧;資料將變成未來的「Intel Inside」 (即資料在 未來即是最核心的元素) ;軟體不斷發行與升級的循環將會終結(即 Web 2.0 應該是「永遠的 Beta 版」);輕量型程序設計模型;透過內容與服務的整合使得輕量型的商業模式變得可行; 軟體執行將跨越單一設備;豐富的使用者體驗;分享和參與的架構所驅動的網路效應;透過 帶動分散的、獨立的開發者把各個系統和網站組合形成大整合的改革;具備拉動長尾的能力; 快速的反應與具備雙向的互動。 歐萊禮將以上原則,以一張 Web 2.0 概念圖表現(見圖 1) 。這張圖目前仍在演變,由於 Web 2.0 並沒有一個明確的界限,因此歐萊禮建議在解釋 Web 2.0 時以原則視之。同樣的,圖 1 的各項概念,以概念距離核心遠近的方法組成類似太陽系的圖形,方便表示 Web 2.0 的各 項原則。. 6.

(23) 圖 1 Web 2.0 概念圖。資料來源:(Tim O'Reilly 2005/9/30). 之於歐萊禮的 Web 2.0 概念圖,Markus Angermeier 提供了一個變形(Markus Angermeier 2005/11/11),以一種更 Web 2.0 的表示法、即 tag cloud 來視覺化歐萊禮的定義(見圖 2) 。不 同的是,Angermeier 加上了一些詮釋,諸如在「可用性」層面上(Usability)考量的「使用 的愉悅」 (Joy of Use) 、 「專注把一件簡單的事作好」 (Focus on Simplicity)等。相較於原始的 歐萊禮定義,Angermeier 的圖示更具體而微、視覺化了 Web 2.0 的內涵。. 7.

(24) 圖 2 Web 2.0 Bubble Map。資料來源:(Markus Angermeier 2005/11/11). 而在技術層面上,PHP 的發展者、同時也是 Zend 的創辦人 Andi Gutmans 提供一個較為 簡潔的解釋,它認為 Web 2.0 應由三個部份組成,分別是 RIA(Rich Internet Applications)、 SOA(Service-Oriented Architecture)及 Social Web(Andi Gutmans )。RIA 指的即是諸如 Flash, AJAX 等能讓視窗操作方式同樣應用於 Web 的技術;而 SOA 的開放及互通則是 Web 2.0 應用 所能夠互相混搭(Mash-Up)的關鍵(見 Web 2.0 的相關技術,頁 11),例如 Google 開放的 API 間接造就了以 Google Web Services 為基礎的各式網路服務;而 Social Web(社交網路) 提高了使用者與使用者的互動性,因而使得使用者不再是服務的使用者,同時成為服務的參 與者、創造者。 因此,不論由歐萊禮從宏觀面上提出的 Web 2.0 定義,或是 Gutmans 從技術層面上提出 的見解,可以得知 Web 2.0 至少應包含三項特徵: 1.. 網站必須是一個開放性的平台:透過資料交換可以方便的存取資訊。. 2.. 使用者有自己資料的擁有權:使用者貢獻的內容其版權屬於自己而不是平台的提供 者。. 3.. 完全的 Web 化:使用瀏覽器即可操作。 8.

(25) 當然,依據 Web 2.0 的精神,Web 2.0 的精簡定義不會只有一家之言。 《數位時代》認為(盧 諭緯 2006),Web 2.0 三大特點為: 1.. 網站所有做的事,都要以使用者為中心出發。. 2.. 透過開放的討論,使用者的經驗才能愈來愈豐富。. 3.. 強調使用者網路的外部延展性。. 而台灣師範大學圖書資訊學研究所卜小蝶認為(卜小蝶 2006),Web 2.0 是: 1.. 由大量使用者個別提供少數資訊,集成龐大的資料庫。. 2.. 全民參與:任何人可以輕易加入的網路環境,而不只是電腦怪才(Geek)的玩具。. 3.. 混搭系統:Google、eBay、Amazon 與 Yahoo 提供 API,新興系統創意無限。. 二、Web 2.0 的現象與意義. 網路家庭董事長詹宏志認為: 「進入 Web 2.0 時代,對整個社會來說,是一個很大的權力 轉移…這個權力轉移的過程,從中心化(centralized)到去中心化(decentralized) ,去中心化 並不見得沒有力量,去中心化是透過每一個人獨力表達,最後可以找到中心化的方法」(吳靖 雯 2006)。 以圖書館現存的分類系統而言,不論是中國圖書分類法或是美國國會分類法,皆是以專 家意見為依歸,即是一種 centralized 的成果。此類分類法,即是 taxonomy。 Taxonomy 中譯為「分類學」,原義是表示生物體間的進化發展關係,然而演變至近代, 在不同的領域下即有不同的意義,但主要功能在於對特定領域進行分類組織,形式上不脫樹 狀圖或各式筆劃、字母等排序清單。然而,taxonomy 訂定後由於缺乏定期更新,反而使得當 代讀者難以藉由分類找尋資訊。(Godfray 2002)也提到,若欲定期更新解決此一問題,又要找 回同一批或相同領域的專家重新訂定分類,所費不貲。 9.

(26) 與 taxonomy 互補的 folksonomy,是一個由 folks 與 taxonomy 組成的複合字,由 Thomas Vander Wal 在網路論壇(mailing list)中的討論所創(Gene Smith ),意即非由特定專家、而是 由讀者自發性的經由大量的標記定義出分類的活動,意即詹宏志提到去中心化的具體案例。 Folksonomy 最適合使用的場合,在於有很多使用者共同描述特定領域或範圍的資料。例如在 del.icio.us 中每個人都對 Web 2.0 相簿網站 Flickr 下了不同的 tag,在這些不同的 tag 中, del.icio.us 會顯示最常被使用的語彙,例如 photo、sharing、photography 等。相同的 tag 在其 他網站,諸如 Gmail 也常使用,然而在 Gmail 下 tag 不會是 folksonomy 的原因在於,Gmail 的使用者並不能互相分享所下的 tag,進而形成某種分類。 有趣的是,若以圖書館為例,在 taxonomy 的分類制度下,一本書僅能屬於一個分類。但 在 folksonomy 的多標籤定義下,書籍可以同時屬於好幾種分類。圖文書、跨領域的書種,在 folksonomy 的分類制度下將能夠更有效的被分類,而不只是就既有分類擇一。使用者也能就 分類不當的書重新下 tag,當出現共識時(相同標籤數量多於門檻值)就可以取代舊有的、較 不適合的分類,圖書館藏書分類遂逐漸趨向讀者的認知。Jon Udell 認為(Jon Udell 2004/8/20): 這類系統其基本上的差異,在於使用者的回饋(the fundamental difference in these systems is feedback)。由於 folksonomy 貼近讀者的優點,Amazon.com 書店也開放讀者能夠自行標記書 籍,同時保留 Amazon.com 現有的分類。由此可知,taxonomy 與 folksonomy 並不是取代而是 互補的關係。 也由於使用者的共同參與,在分類制度、知識創造及分享上的成就,時代雜誌(Time Magazine)2006 首次以抽象的「你」作為年度風雲人物。時代雜誌認為:「你」為數位社會 奠定了新的框架,無償的提供內容並在專業領域中擊敗專家(And for seizing the reins of the global media, for founding and framing the new digital democracy, for working for nothing and beating the pros at their own game, TIME's Person of the Year for 2006 is you)(Lev 2006)。前者 指的是 folksonomy,而後者指的便是 Wikipedia 條目的正確性與大英百科全書不相上下的成 就(Jim 2005/12/14)。. 10.

(27) 三、Web 2.0 的相關技術. Enterprise 2.0. Web 2.0 im Unternehmen 一書作者,德裔的 Jürgen Schiller Garica 針對 Web 2.0 相關技術提供了一張加上時序尺度的圖表(見圖 3),從其中可以看到數項 Web 2.0 關鍵 技術的演進(Jürgen Schiller Garica 2006/9/21)。. 圖 3. Time bar of Web 2.0 buzz words。資料來源:(Jürgen Schiller Garica 2006/9/21). 其中最值得注意的,是名為 AJAX(Asynchronous JavaScript and XML)的技術。傳統的 Web 1.0 應用程式,在瀏覽器與伺服器之間傳遞資訊必須依靠 get、post 等動作完成,在使用 經驗(User Experience)上是一連串的點選動作,網頁並無法在不重新載入網頁的情況下顯 示最新的資訊。以往在視窗應用程式(Windows Applications)可以輕易達成從下拉式選單選 擇一個項目、就可以直接帶出詳細訊息的畫面,反而在網頁上難以實現了。 AJAX 綜合了多種呈現(Presentation)、傳遞資訊、交換格式上的既有技術,包括 XHTML+CSS、JavaScript、DOM(Document Object Model)、SOAP、XML 等等,重新包裝 成一種新的應用方式,因此它並不是指一種單一的技術。在前述的 Web 1.0 應用困境上,AJAX 採取了以 SOAP、XML 等技術傳遞必要資訊的方式,並在瀏覽器端以 JavaScript 和 CSS 處理 來自伺服器端的回應,因此不需要重新載入整個畫面;因為傳遞的訊息變少,使用者可以發 現網頁的反應速度變快了。此外,很多本來要送回伺服器端完成的工作,可以在瀏覽器端完 11.

(28) 成,所以伺服器的工作負擔也減輕了。 AJAX 的核心是 JavaScript 的 XMLHttpRequest,用來處理伺服器與瀏覽器間的非同步訊 息交換而不需重新載入網頁。一個最簡單的 XMLHttpRequest 範例如表 1 所示。 表 1 XMLHttpRequest 示例. <script type="text/javascript"> var xmlHttp = new XMLHttpRequest(); </script>. AJAX 在本質上是一個瀏覽器端的技術,無可避免的會面臨瀏覽器的相容性問題。 由於 各家瀏覽器在 JavaScript、DOM、CSS 的支援不完全相同,甚至同一瀏覽器的不同版本之間 也有支援度上的差異,使得 AJAX 的大部份開發時間都必須調整成相容成各家瀏覽器。以表 1 的範例而言,XMLHttpRequest 在不同瀏覽器的宣告方法則要改成表 2 之示例。 表 2 XMLHttpRequest 於不同平台瀏覽器示例. xmlhttp_request = new ActiveXObject("Msxml2.XMLHTTP.3.0"); xmlhttp_request = new ActiveXObject("Msxml2.XMLHTTP"); xmlhttp_request = new ActiveXObject("Microsoft.XMLHTTP"); xmlhttp_request = new XMLHttpRequest();. 此外,由於 AJAX 依靠非同步的訊息傳遞,如果有多個 AJAX 同時送出要求,會造成伺 服器應用程式的多程序(process)或多線程(thread)的競爭,因此程式設計師必須手動處理 或避免此種情況發生,無形之中加重了工作負擔、也恐怕模糊了工作重心。然而也有許多有 志之士致力研究 AJAX,想要開發一套解決方案根本解決上述問題,例如開放原始碼 ZK 及 Microsoft ASP.NET AJAX Framework。 其他純粹的技術性名稱,諸如 Social Software、ASP、SOAP 等,是達成 Web 2.0 功能的 背後技術手段,本論文中不詳述。值得注意的是透過 RSS、SOAP、Web Services 等基礎建設, 一種新的服務應用方式在 Web 2.0 時代應運而生,那便是「混搭」(Mash-Up) 。 12.

(29) 《數位時代》認為(盧諭緯 2006): 「Mash-up 的觀念,就是將各個網站不同的內容,不同 的工具組合在一起」。Wikipedia 的定義提到(Wikipedia contributors ):「Mashup 是一種結合多 種內容來源成為一個完整體驗的網站或軟體」(A mashup is a website or application that combines content from more than one source into an integrated experience.)。BusinessWeek 的解 釋言簡意賅(Robert D. Hof 2005): 「主流服務的尋常(意指技術皆是現有的)組合」 (homespun combinations of mainstream services)。 對於傳統的網站來說,能夠吸引人潮、並且盡量使人潮停留在自己的網站,是在 Web 1.0 時代重要的獲利關鍵(以吸引廣告量) 。然而既有的網站無法提供滿足使用者的服務,有些專 業使用者便開始抓取網站的內容、並剖析成自己需要的格式,重新呈現在自己的網站上。例 如 Findbook.tw 即是一例(http://findbook.tw)。Web 2.0 的網站開始開放了 API,使得使用者 可以免費的、無償使用來自各種不同網站的內容,建立或拼湊出自己需要的服務。 例如 Eurekster(http://www.eurekster.com)是一個以 Google 為基礎的社群搜尋網站(見 圖 4),本身並不擁有一個搜尋引擎,而是藉由 Google Web API 送回搜尋結果再加值成以社 群偏好為主的特定需求搜尋引擎,目的是希望能夠更準確命中社群成員的內在需求。. 圖 4. Eurekster 以 Google Web API 為基礎的社群搜尋引擎。資料來源:Eurekster 網站 13.

(30) 另一個有趣的混搭案例是 FON Maps(http://www.fon.com)。FON 是一個提倡使用者與 其他需使用無線網路的使用者分享其無線頻寬,藉由 FON 用戶的串連,FON 的使用者走遍 全球便可以免費使用其他同是 FON 使用者的無線網路(假設自己也是免費分享)。為了方便 使用者快速尋找可以使用 FON 上網的地點,FON Maps 使用了 Google Maps API,在 FON Maps 上呈現世界地圖,以便讓使用者在地圖上標明自己開放 AP 的位置;同樣的,其他使用者旅 經異地時,也可透過 FON Maps 找到開放的 AP(見圖 5)。. 圖 5 使用 Google Maps 混搭而成的 FON Maps。資料來源:FON 網站. 四、與本研究相關的 Web 2.0 網站. 與本研究相關的 Web 2.0 網站皆是利用某一特定技術,例如 community-based search 或 social web 完成一件應用。本節列舉三個與本研究相關的新應用,並說明其應用的功能與特色。. (一) Eurekster Eurekster(http://www.eurekster.com)是一個以 Google 為基礎的社群搜尋網站。網站使 14.

(31) 用者可以成立一個自己的搜尋引擎並預先定義好該社群的偏好事物關鍵字,並邀請朋友加入 社群。每當一位使用者使用該社群搜尋引擎查詢某一關鍵字並回饋意見,下一位同樣搜尋相 同議題的使用者就可以分享到之前的搜尋結果。 以圖 6 為例,當使用者查詢 Mash up 一詞,並對結果清單的項目表示符合所需(點選 vote for this result 連結) ,下次相同的搜尋時,該項目就會提高順位。反之,便會愈來愈往下排序。 針對完全不滿意的結果,可以表示「很不滿意」(點選 vote against for this result 連結),那麼 該結果會直接刪除,下次相同搜尋便不再出現。 由於社群成員的稀少性,每個人的意見相較於 Google 有全世界的使用者而言,權重顯然 大得太多,也因此每次意見的回饋都可以更快速地反應在下一次的搜尋。在社群成員具有相 同愛好的偏好下,Eurekster 藉此種回饋機制增進搜尋的精確度。. 圖 6. Eurekster 的回饋意見機制。資料來源:Eurekster 網站. (二) Library Thing LibraryThing 對有大量閱讀習慣的讀者而言相當實用,讀者可以記錄已經讀過、準備閱 讀以及想要推薦的書目,是目前使用者數量最多的個人藏書管理網站。LibraryThing 的一大 15.

(32) 優勢在於可查詢全球近七十個圖書館的藏書,因此年代久遠或較學術類的書都可納入; LibraryThing 不想讓使用者自行建入書籍資料,實際上也沒有這個功能。使用者僅需輸入書 名或 ISBN,LibraryThing 即會自 Amzon.com 或其他資料來源擷取書籍的詮釋資料(Metadata) 及封面。讀者可自行評價書籍、加上 tag。如圖 7,研究者加進了 Tuesday with Morrie 一書, 便可以看到其他讀者為這本書下了什麼 tag,進而透過該 tag 找到類似書籍,發揮分類導引的 功能。 此外,LibraryThing 還會列出其他同樣讀過這本書的讀書,推薦你其他類似的書籍。因 此,Mitch Albom 繼 Tuesday with Morrie 後再次推出的同類型動人小說,The Five People You Meet in Heaven 就會在推薦清單之列。同樣的,LibraryThing 也利用了直觀的評價機制,書籍 的評價從一到五顆星分為五級,並會列出評價分佈(見圖 8)。. 圖 7. LibraryThing 的書籍頁面。資料來源:LibraryThing 網站. 16.

(33) 圖 8. LibraryThing 列出書籍的評價分佈。資料來源:LibraryThing 網站. (三) Shelfari Shelfari 是另一個藏書管理網站,它的圖書資料來源完全來自 Amazon.com,營運模式也 是透過連結導引使用者到 Amazon.com 購書獲取佣金。而它的營運模式也被證實可行,是極 少數 Web 2.0 網站、尤其是此類藏書管理網站能有正向現金流量的典範,在 2007 年獲得 Amazon.com 投資(Josh )。 與 LibraryThing 不同的是,Shelfari 強化了社群的機制。讀者可自行成立 My Groups,一 個類似讀書會的討論版並邀請朋友加入。另可將書籍歸類到 Top 10 List(十本必讀好書) 、 Wish List(最想要的贈書清單)等內建分類,於是每位讀者將會有自己的 Top 10 List,無疑 是另種去中心化後的「名家書單」。. 17.

(34) 圖 9. Shelfari 的書架畫面。資料來源:Shelfari 網站. 18.

(35) 參、推薦系統與資料探勘相關研究 自 Amazon.com 以它優異的推薦系統精準地分析客戶的偏好,適時推薦客戶購買商品, 極大程度滿足了客戶的需求,並藉此成為市場上最成功的網路書店後,人們對推薦系統的熱 情又再度燃起。而要達成推薦,背後需依靠資料探勘技術的支援,才能在大量的書籍及客戶 資料中找出其關聯,主動提供推薦清單,免除客戶資訊過載的困擾。 在本章中將說明推薦系統的目前發展。第一節說明資訊過載與推薦系統的應用;第二節 為現今推薦系統的主要架構及設計上需考量的議題。第三節說明推薦系統常用的協力式過 濾,以及本研究使用的 Microsoft SQL Server 2005 在關聯規則探勘上提供的解決方案。. 一、推薦系統與資訊過載. 以國立交通大學浩然圖書館為例,館藏數量至 2007 年二月底止有近二百萬筆書籍、期 刊、微縮資料片等物件,每月另有新書一批批上架,在如此大量的資料內找尋所需資料,造 成了讀者的資訊過載(Information Overloading)。資料過多,變成一個問題。如何過濾這些 「大量」資料找到自己需要的「少量」資料,成為一個更關鍵的課題;對於在圖書館內遍尋 不著的讀者而言,更是一種不愉快的尋書經驗。高震于的研究提到,在網路購物情境中,消 費者在高資訊量以及沒有資訊過濾機制的情況下,所認知到的資訊過載的確比在低資訊量以 及有過濾機制的情況下來得高…此外,認知到較高的資訊過載的消費者,對於他們的購物決 策結果傾向於有較差的感受(高震宇 2004)。 為了能更有效率的檢索資料,各種加強搜尋結果的技術與研究遂百花齊放,諸如資訊過 濾、自然語言查詢、多媒體資訊檢索技術、個人化、網路代理人、資料檢索等等工具便應運 而生。 其中,資訊檢索(Information Retrieval)是使用者最為熟知的查詢方式之一,普遍應用 在各種搜尋引擎上,包括輸入搜尋條件的介面、搜尋演算法及資料庫(Oard and Marchionini 1996)。此類的搜尋引擎都是使用搜尋關鍵字與資料的內容進行比對並找出符合條件的資料, 19.

(36) 但前提條件是,使用者必須先知道自己要查詢的確切字彙。而在進階搜尋中提供較多的功能 選項,諸如布林邏輯、同音字元比對等,目的是幫助使用者透過更仔細的描述,找出為數較 少的候選資料。然而曾元顯提到(曾元顯 民 86),一般使用者對布林邏輯的運用較不熟悉、檢 索結果沒有依照符合程度排序、檢索字串要求精確無誤等原因,導致較高的檢索失敗率 (search failure)與資訊過載(information overloading) 。 資訊過濾(information filtering)則是藉由去除資訊流(information stream)中重覆或不 符條件的資料以達成過濾的功能,希望藉此降低資訊過載及語意上的雜訊(semantic signal-to-noise ratio) 。為了達成過濾,技術上是比對使用者身份設定(profile)與文件的特性, 並篩選出相符的資料。 然而,不論是資訊檢索或過濾,皆是被動式地反應使用者的輸入而回應,對於資訊超載 並不能起較大的效用,因此需要一個能夠因應不同使用者偏好而主動出擊的解決方案,減少 使用者需手動檢索,再逐一從結果清單中挑選所耗費的心力(effort)。而推薦正是一個適當 的選擇,也普遍應用於各電子商務網站。Resnick 認為(Resnick 1997),推薦除了過濾資訊之 外,還能夠給使用者有興趣的資訊。Schafer 的觀點較偏向電子商務,他認為推薦系統即是電 子商務網站對客戶提供足夠的訊息,以幫助他們購買時的決策(Schafer 2001)。. 二、圖書館的圖書推薦與資料探勘. 資料探勘大多使用於具有大量交易或歷史資料的應用情境,諸如零售業、網站書店等等, 由於資料都不具匿名性、可追蹤到單一客戶的偏好,因而能夠推薦個別使用者有興趣的物件。 對網路書店而言,推薦能夠提高顧客的回店誘因,進而促進消費;對圖書館而言則屬於經營 層次,能夠提高圖書資源的能見度,吸引讀者來館借閱,提高資源的利用率。. (一) 使用者導向之網路資源組織. 能夠達到推薦目的有很多種方法,大致可以區分為「被動式目錄」 與「主動式檢索」。 20.

(37) 卜小蝶以更 Web 2.0 的方式,將應用在圖書館的推薦區分為「使用者導向之網路資源組織」 與「使用者導向之網路資源檢索」(卜小蝶 2007)。該架構以圖 10 表示如下。. 圖 10 推薦方法分類。修改自資料來源:(卜小蝶 2007). 主題式資源指引網站(SG, Subject Gateway)是一種經過高品質篩選、並以各特定學科或 研究領域將網路資源分類的目錄索引。SG 通常由圖書館建置維護,由專業館員及學科專家 貢獻內容,故多以學術性見長,也符合圖書館要服務的目標讀者。國內目前建置有 SG 的圖 書館包括了交通大學、台灣大學等校。. 圖 11 交通大學學科資源網。資料來源:交通大學圖書館. 21.

(38) 交通大學圖書館採取自行建置的方案,提供分類目錄及搜尋的功能,現階段以人工處理 的方式建置,並以經營社群的方式鼓勵各學科專家無償貢獻內容。圖 11 即為交大學科資源 網的分類索引畫面。以交通大學圖書館而言,設有常態性的推廣活動鼓勵學生主動推薦學科 資源,以增加學生參與的誘因快速累積資源,是國內圖書館較少見的「虛實整合」的行銷案 例。台灣大學圖書館則與 Yahoo!奇摩合作,以搜尋方式為應用主軸,同樣以社群方式鼓勵學 生主動推薦學術資源。 為了能解決人工建置 SG 的成本及效率問題,國際上另在進行 SG 自動索引及分類的研 究計畫,包括 INFOMINE、GERHARD 及 Scorpion。目前執行成果較佳的 INFOMINE 是由美 國加州大學河濱分校(UCR, University of California, Riverside)圖書館建置,已具有超過十萬 筆網路資源索引,其中約四分之三是機器自動產生、四分之一是人工建置。UCR 圖書館用來 建置 INFOMINE 的開放原始碼軟體相關套件名為 iVia,主要功能是網頁的抓取(Crawling) 及詮釋資料自動編製(Metadata Assignment),UCR 圖書館也無償提供下載1。. 圖 12 賓州大學 PennTags。資料來源:賓州大學圖書館 PennTags 網站. 1. iVia Project 網址 http://ivia.ucr.edu/ 22.

(39) 「社會性標記網站」(Social Tagging Web)則是圖書館較少參與的領域。一方面原因是 Web 2.0 的風氣與應用在 2000 後才陸續發酵,二方面圖書館對於標記的精確度與品質也持保 留態度,反倒是圖書館之外的網站對於 tagging 的應用顯得更為熱中。 學術性的社會性標記網站有賓州大學圖書館的 PennTags2(見圖 12),其標記目標較多 元,包括網頁、文件、書籍等,也與賓州大學圖書館相結合,可反查標記書籍是否可供借閱 及館藏地點等。LibraryThing 則是專注在書籍的標記與評價(見「與本研究相關的 Web 2.0 網站」一節,頁 14),不能標記其他電子資源。. 圖 13 交通大學圖書館讀者興趣屬性。資料來源:交通大學圖書館 PIE@NCTU 網站. 「使用者導向之圖書分類關聯分析」為圖書館著力最多的部份。透過大量讀者的借閱歷 史,圖書館研究的目的在於分析讀者的借閱類別及數量,以便將有限的預算花費在最值得投 資的館藏中;或分析讀者的閱讀模式,以了解讀者中是否形成數個具有明顯特徵的族群,預 測其未來的借閱需求並提供推薦服務。技術上常採用關聯規則探勘或分群分析,找出書籍與. 2. PennTags 網址 http://tags.library.upenn.edu/ 23.

(40) 書籍的關係、讀者與讀者的關係及圖書與讀者的關係等三種預期的結果。 戴玉旻就曾以交通大學圖書館借閱記錄作資料探勘(戴玉旻 2001)、找出圖書與圖書之間 的關係,並針對不同系所讀者找出相關規則。為了讓規則更容易使用,探勘結果導入交通大 學個人化數位圖書資訊環境 PIE@NCTU 中(楊雅雯 民 90),讀者可以在網站上了解自己的興 趣屬性,如圖 13。 余明哲更將交通大學圖書館的推薦系統推進到了個人化的層次(余明哲 2003),以乏析式 的協力式過濾找出讀者間的關聯性並得出推薦清單,再以內容導向過濾排序,找出符合讀者 興趣的館藏。. (二) 使用者導向之網路資源檢索. 「網路使用者之檢索行為」則指使用者自行輸入關鍵字查詢,從分類目錄瀏覽、全文網 頁搜尋到使用者導向排序,網路使用者歷經了 Yahoo!早期、AltaVista 到 Google 等三個搜尋 時期的應用典範。關鍵字查詢的方式無疑是現今最容易使用且無需學習的檢索方式。. 圖 14 交通大學圖書館的個人化新書通告。資料來源:交通大學圖書館 PIE@NCTU 網站 24.

(41) 然而隨著使用者的多元發展,逐漸無法照顧到個別使用者的需要,搜尋引擎開始利用檢 索記錄分析(Log Analysis)的方法來記錄使用者的操作,並依此產生一些系統關鍵字來代表 使用者的興趣。楊雅雯應用在交通大學圖書館的 PIE@NCTU 便是一套以智慧型個人化查詢 系統來處理查詢館藏的應用範例(楊雅雯 民 90)。當使用者查詢館藏資料時,系統會利用系統 判斷關鍵字、使用者自訂關聯字和使用者自選類別等三類資訊,過濾、排序出最需要的館藏 並得出清單。另外,此份個人興趣設定也同步套用到圖書館的新書通報功能上。當圖書館有 新書到館時,系統會過濾使用者的興趣,並發送符合條件的新書通告給讀者,如圖 14 的操 作畫面。 「網路圖像檢索行為」指的是搜尋目標為「圖像」而非文字,例如輸入關鍵字「林懷民」, 應該出現的結果是「林懷民」的圖像而不是文字資料。概念式的圖像檢索(Concept-based) 通常以圍繞在圖像旁邊的文字(Surrounding Texts)建立文字索引,而使用者輸入關鍵字後, 系統再以關鍵字查詢索引,這點與文字搜尋並無相異之處。圖像內容式的檢索(Content-based) 則與圖學有關,以顏色、形狀、樣式(Texture) 、空間(Spatial)等特徵為主,利用圖像擷取 技術依此建立索引,使用者再利用這些特徵查詢圖像。. 圖 15 圖像檢索示例。資料來源:GettyImages 網站 25.

(42) 著名圖庫網站 GettyImages 便使用概念式的索引方法為使用者建立品質較高(因為人工 處理)的圖像搜尋引擎。從圖 15 輸入 taiwan 回傳結果包含有台灣地圖、大中至正門、京劇 演員、台北 101 等內容的多樣性看來,的確是圖像內容式檢索較難達成的效果。 以圖書館較偏重文字閱讀的發展方向而言,類似的圖像檢索較少見到實際應用。 「搜尋記錄於關鍵字推薦之應用」是一種利用關鍵字自動抽取(Keyword Extraction)及 互動式資訊檢索技術(Interactive Information Retrieval)發展的推薦方法,其推薦的方法是在 輸入關鍵字時、自動建議相關的關鍵字,而兩關鍵字經常能組合成一關鍵詞。利用此種方法, 能夠有助聯想並擴大檢索範圍。. 圖 16 Google 的關鍵字推薦。資料來源:Google.com. Google 應是目前最好的關鍵字應用示範,圖 16 是輸入交通大學的畫面。Google 依據搜 尋的結果數量及 PageRank 分數過濾並排序建議關鍵字清單。 圖 17 整理了目前交通大學圖書館提供的推薦服務,楊雅雯、戴玉旻與余明哲合力接續 研究發展的 PIE@NCTU 為交通大學圖書館使用者導向之圖書分類關聯分析與智慧型檢索功 能奠下基礎;2007 新開放的交大學科資源網則為大學圖書館讀者建立了主題式資源索引的交 26.

(43) 換分享平台;本論文實作的 Abu 系統兼具社會性標記網站及使用者導向之圖書分類關聯分析 功能,補足了交大圖書館在「使用者導向之網路資源組織」上的功能。. NCTU SG. PIE@NCTU. NCTU Abu. 圖 17 交通大學圖書館目前提供的推薦服務。資料來源:本論文. 三、推薦系統主要架構. 推薦系統的主要架構,一般認為以 Schafer 提出的架構較為完整(Schafer 2001)。在此架 構下,Schafer 將系統分為社群輸入變數(Community inputs)、個人化程度(Degree of personalization)、遞送(Delivery) 、個人輸入變數(Target customer inputs)及推薦方法 (Recommendation method),其架構如圖 18。. 27.

(44) 圖 18 推薦系統主要架構。修改自資料來源:(Schafer 2001). (一) 輸入與輸出. 「輸入」指進行推薦分析之前需要輸入的資料,Schafer 將之區分為個人輸入變數及社群 輸入變數。個人輸入變數包括了以下五個項目(Schafer 2001),若能完整記錄則能較完整的描 繪使用者的「樣貌」(profile)。 1.. 隱性輸入(Implicit Navigation):由使用者的瀏覽記錄可以得知使用者有興趣的物 件,這些平常的瀏覽活動,包含停留時間、順序、點選流向等都在在表示了使用者 獨特的興趣與偏好。例如 Amazon.com 就是使用隱性輸入的典型網站。. 2.. 顯性輸入(Explicit Navigation) :以問卷方式請使用者自行填入偏好,通常在加入會 員時輸入,平時也可修改。Amazon.com 在新會員註冊時也會要求(選填)新用戶 28.

(45) 填寫。 3.. 查詢關鍵字(Keywords/Item Attribute):將使用者輸入的關鍵字也視為喜好。. 4.. 評價(Rating) :使用分級制(如一至五顆星)或二元式(喜歡不喜歡)對購買過的 物件評分。. 5.. 購買歷史(Purchase History) :使用者真正去購買的物件表示了最強的偏好,此類記 錄也應視為是一種隱性輸入。. 社群輸入變數可以描繪群體對物件的偏好。由於是社群總體對物件的大量記錄,因此可 以取得物件的屬性資料,這是與「個人輸入變數」欲取得個人資料最大的不同。社群輸入變 數包括了: 1.. 物件屬性(Item Attribute) :包括物件目標、客戶標籤與物件類別。例如「影片」類 型相較於「二次世界大戰後期紀錄片」的等冷門類型,前者較可能擴大目標客戶群。 由此可以判定商品是屬較熱門或冷門商品。. 2.. 熱門程度(External Item Popularity) :特定節日如耶誕節會有大量需求,或是本身已 是熱門商品,通常銷量較高。由此可以判定商品是平常即暢銷或節日熱銷。. 3.. 社群購買記錄(Community Purchase History) :社群的購買記錄是由個人記錄構成, 因此可以找出商品的銷售趨勢,或是相似商品之間的關係(例如替代性、互補性)。 應視為另一種隱性輸入。. 4.. 商品評價(Rating and Text Comments) :有些網站特別鼓勵使用者留下文字評價。文 字比星等或喜不喜歡等更容易吸引顧客。. 一個優良的推薦系統應該綜合個人以及社群輸入變數,以便作出最符合客戶需求的推薦。 在「輸出」部份,Schafer 的架構將推薦的輸出分為三級(Schafer 2001),包括: 1.. 建議(Suggestion) :指未排序過的推薦。通常直接放在網頁上以「試試這個(try this)」 29.

(46) 的形式呈現、通常是單獨項目(只會一次出現一個推薦項目) ,例如 Amazon.com 的 個人化首頁。 2.. 預測(Prediction):有結合或不結合個人化偏好二種預測推薦。Schafer 指出 MovieFinder 對電影即提供了「大家的評價」與「我們的評價」兩種預測推薦。 Amazon.com 對書籍也有專家書評以及讀者書評兩種,其評分也是獨立計算。. 3.. 評價記錄(Rating) :讓使用者除了看到總分之外,還可以看到個別評分記錄,以方 便了解大家的評價是否一致。. (二) 推薦方法. Schafer 的架構(Schafer 2001)將推薦方法整理為五類,而此五類各有優缺點、並非是替代 關係,通常可整合多種方法達成所需的推薦效果。 1.. 基本搜尋(Raw Retrieval):即網站上的搜尋功能,以關鍵字比對。以 Amazon.com 為例,其提供的是全文檢索,然而大部份網站僅提供特定欄位之搜尋,在此狀況下 使用者不一定可以找到未登錄在主要欄位關鍵字之資料。. 2.. 人工選擇(Manually Selected):人工建立推薦清單,由於通常是專家建立,具有較 高的參考價值,例如《中國時報》人間副刊的年度選書、誠品選書等名家書單。. 3.. 統計分析(Statistical Summaries) :提供總體使用者的統計數據,這也是網站常使用 來推薦熱門商品的方法,例如熱門一百大、每月暢銷書榜等。此類排行榜通常能發 揮導引功能並成為閱讀指標,然而也招致可能造成閱讀普及化障礙的疑慮(陳慧 敏 )。. 4.. 屬性基礎(Attribute-based):以產品的詮釋資料屬性作為推薦的判斷,通常會與使 用者的偏好或動作連結。例如推薦新商品給曾買過同類產品的使用者,即內容導向 過濾(Content-based filtering)。 30.

(47) 5.. 商品間關聯性(Item-to-Item Correlation) :商品之間可能存在某些關聯,例如印表機、 印表耗材的互補關聯,或單冊書籍、散文精選的替代性關聯等。例如 Amazon.com 在使用者將一商品放入購物車時,會看到一頁「買這件商品的人,也會同時買下列 商品」的資訊。. 6.. 顧客間關聯性(User-to-User Correlation):根據使用者與使用者之間的關聯性作為 推薦基礎,即協力式過濾(見協力式過濾與關聯規則探勘,頁 33)。使用者之間可 能因類似的操作習慣或偏好,可歸為同一類別中,而相同類別的群體意見會影響個 人的推薦結果。. (三) 個人化與傳遞. Schafer 提到仍有其他在設計上需要考慮到的議題(Schafer 2001),包括了個人化與傳遞。 個人化包括了三種,分別是無個人化(Non-Personalized) 、暫時性的個人化(Ephemeral Personalization)以及長期性的個人化(Persistent Personalization)。無個人化指的是大家在同 樣的操作下會得到相同的推薦,例如查詢某本書,網站會推薦同類型的書籍。暫時性的個人 化是以一個時期(Session)作為推薦基礎,例如瀏覽時的點選流向作為推薦基礎(見圖 19 紅框處,Recommended Based on Your Browsing History) 。通常是以「項目間的關聯性」與「屬 性基礎」兩種方法作出推薦。長期性的個人化需要追蹤使用者長期的使用記錄,例如交易歷 史或圖書館的借閱歷史檔,並利用資料探勘的方法找出使用者之間的關聯。. 31.

(48) 圖 19. Amazon.com 的個人化推薦。資料來源:Amazon.com 網站. 在經過輸入、分析後,最後即是傳遞推薦的方法。好的網站通常會巧妙的融合以下三種 傳遞方式,在最適當的時機送出推薦結果,得到事半功倍的效果;反之,則容易干擾使用者, 甚至降低推薦效果。傳遞包括了推式(push) 、拉式(pull)及被動式(passive) 。推式即指使 用者無需任何動作網站即會自動送出推薦結果,常見的例子如廣告信;此種效果通常最低, 因為大部份廣告推薦信皆未作到個人化,且發送太頻繁造成困擾;至今除了 Amazon.com 少 量使用外,其他網站少見廣告推薦信。拉式即是使用者主動要求,例如點選連結後才看到推 薦清單。被動式是現在最常見的方式,也是效果最好的一種;原因在於它藉由使用者的操作 作為推薦基礎,在行為上產生互動,使用者的接受程度較高,例如輸入關鍵字後再送出相應 的推薦清單(見圖 19 黃框處,Customer with similar Searches Purchased)。 在 Schafer 的架構中可以發現,推薦的輸入是後續分析以及輸出的關鍵,具有連動的影 響性。若需要作到長期性的個人化,便需要在顧客資料之間找出關聯、定義所要解決的商業 問題並因應資料結構使用適合的推薦演算法(Recommendation Algorithm),輸入變數部份就 必須包含歷史交易資料。也就因為從輸入到輸出整個過程之中,包含了商業面及技術面的考 量,而使得推薦系統各不相同。 32.

(49) 推薦系統的終極願景,在於每個使用者都能夠看到一份屬於自己偏好的網站內容。使用 者不再需要自行一一挑選、過濾想看的內容。資訊沒有超載的問題,因為出現的都是根據偏 好及互動而過濾出來。Amazon.com 的執行長 Jeff Bezos 說(Schafer 2001):「如果我有三百萬 個客戶,那麼我應該就有三百萬個網路商店」。. 四、協力式過濾與關聯規則探勘. 協力式過濾(Collaborative Filtering)由 Goldberg 在 1992 提出(Goldberg et al. 1992)。它 的原始想法很直觀,來自使用者決策之前常會徵詢前人的經驗,作為自己的參考。技術上是 建立一個顧客─商品的矩陣(Customer-Product Matrix) ,矩陣中的值為使用者對商品的評分。 透過觀察商品評分矩陣,可以得知使用者間的喜好相似程度,再以此結果和其他使用者對商 品的評分推估使用者對未評分商品的評價。關聯規則探勘(Association Rule Mining)即是協 力式過濾的一種應用。. (一) 關聯規則探勘. 關聯規則常用來找出物品間的關係(Item Association)與使用者間的關係(User Association)(Lin 2002)。物品間的關係係指商品之間可能存在某種關係,造成特定商品常常 被一起購買。這類規則可以應用在若使用者購買了某種商品,系統即推薦其他也同樣常被一 起購買的商品,此例在「個人化與傳遞」一節中已提到(頁 31) ,應用圖例請見圖 19。使用 者間的關係係指找出具有相似購買習慣的使用者,而當要提供某使用者推薦時,由於歸屬相 同類的群組具有相似購買習慣,便可一起送出推薦。例如某使用者群組常常購買某類書,若 歸屬同類的使用者欲購買新書,便可推薦所屬群組中其他人購買過的書籍作為推薦。 關聯規則可以找出來的隱含資訊分為三大類(尹相志 2006): 1.. 有用的規則(Useful) :指高品質的有效情報。通常不難驗證,而且可以用來設計成 有意義的產品組合。例如買了 A 產品的了也會購買 B,那麼促銷時就可以合併兩種 33.

數據

圖 1  Web 2.0 概念圖。資料來源:(Tim O'Reilly 2005/9/30)
圖 2  Web 2.0 Bubble Map。資料來源:(Markus Angermeier 2005/11/11)
圖  3    Time bar of Web 2.0 buzz words。資料來源:(Jürgen Schiller Garica 2006/9/21)
圖 4  Eurekster 以 Google Web API 為基礎的社群搜尋引擎。資料來源:Eurekster 網站
+7

參考文獻

相關文件

平均會期(日) Duração média (dias) Average Duration (day). 活動數目 N o de

ESTATÍSTICAS PRINCIPAIS SOBRE REUNIÕES, CONFERÊNCIAS E EXPOSIÇÕES SEGUNDO O TEMA - 2 o TRIMESTRE DE 2009 PRINCIPAL STATISTICS ON MICE EVENTS BY SUBJECT- 2 ND QUARTER OF

Reunião do Governo Government Meeting 協會或組織會議 Reunião da associação/organização Association Meeting 公司會議 Reunião da sociedade Corporate Meeting

按主題劃分的會展活動主要統計 (2010年第1季) ESTATÍSTICAS PRINCIPAIS SOBRE REUNIÕES, CONFERÊNCIAS E EXPOSIÇÕES SEGUNDO O TEMA - 1o TRIMESTRE DE 2010 PRINCIPAL STATISTICS ON

4.按類型劃分的會展活動主要統計 (2010年上半年) ESTATÍSTICAS PRINCIPAIS SOBRE REUNIÕES, CONFERÊNCIAS E EXPOSIÇÕES SEGUNDO O TIPO - PRIMEIRO SEMESTRE DE 2010 PRINCIPAL

4.按類型劃分的會展活動主要統計 (2010年首3季) ESTATÍSTICAS PRINCIPAIS SOBRE REUNIÕES, CONFERÊNCIAS E EXPOSIÇÕES SEGUNDO O TIPO - PRIMEIROS TRÊS TRIMESTRES DE 2010

(In Section 7.5 we will be able to use Newton's Law of Cooling to find an equation for T as a function of time.) By measuring the slope of the tangent, estimate the rate of change

Keywords: Requesting Song, Information Retrieval, Knowledge Base, Fuzzy Inference, Adaptation Recommendation System... 致