於數位典藏建立社會性標記之研究

(1)

國立交通大學

資訊管理研究所

碩

士

論

文

於數位典藏建立社會性標記之研究

Social Tagging Construction on Digital Archives

研究生：鄧有盈

指導教授：柯皓仁博士

(2)

於數位典藏建立社會性標記之研究

Social Tagging Construction on Digital Archives

研究生：鄧有盈 Student：Yu-Ying Teng

指導教授：柯皓仁 Advisor：Hao-Ren Ke

國立交通大學

資訊管理研究所

碩士論文

A Thesis

Submitted to Institute of Information Management College of Management

National Chiao Tung University in partial Fulfillment of the Requirements

for the Degree of Master

in

Information Management

July 2008

Hsinchu, Taiwan, Republic of China

(3)

於數位典藏建立社會性標記之研究

Social Tagging Construction on Digital Archives

研究生：鄧有盈指導教授：柯皓仁博士國立交通大學資訊管理研究所

【摘要】

隨著Web 2.0 概念及應用的普及，衍生出許多運用 Web 2.0 精神的創作平台，其中社會性標記是近來網路上最熱門的服務之一。社會性標記指的是由使用者針對網站服務內容(如照片、網站連結、藝術品)提出標籤或註解，從而創造出由眾多使用者自行產生的分類，可稱之為大眾分類法。線上美術館或博物館的優點是讓人們可隨時隨地從網路上觀賞藝術作品，將社會性標記應用於數位典藏網站的目的在於將人們觀賞藝術品的觀感串連起來，希望能透過大眾集思廣益讓每件藝術品的描述能更完整、更多面向，並建立一般人甚至於專家都看不見的巧妙關聯性。本研究是將Web 2.0 的精神應用於楊英風數位美術館，透過 CKIP 中文斷詞系統處理每一個藝術作品的內容，然後依據權重萃取其關鍵詞彙，代表此藝術品專業的說明；再透過標記活動，讓一般使用者自由地對楊英風美術作品提供標籤；最後系統會結合作品關鍵詞和使用者加註的標籤進行階層式標籤分群，自動產生每一類作品的標籤地圖，此標籤地圖就是經由大家共同建立的分類，達到大眾分類的目的。關鍵字：Web 2.0、社會性標記、標籤、大眾分類、分群法、楊英風

(4)

Social Tagging Construction on Digital Archives

Student: Yu-Ying Teng Advisor: Dr. Hao-Ren Ke

Institute of Information Management National Chiao Tung University

【ABSTRACT】

With the widespread of the concept and applications of Web 2.0, a lot of online platforms are created based on the spirit of Web 2.0. One kind of applications is social tagging. Social tagging allows users to provide labels or notes for Web content such as photographs, web links, artwork, and others. Through such behavior, classification of the tagged contents is achieved together by many people. Classification by social tagging is called “folksomony”.

Digital archives let people appreciate artworks from the Internet without the constraints of time and space. Therefore, the purpose of applying social tagging to digital archives is to provide the visitors a tool to express their personal feelings and opinions about the artworks, so that comprehensive comments and descriptions of the artworks will be available to everyone. Hopefully in doing so, latent relationships unnoticed by the experts can be revealed.

This research is to apply the spirit of Web 2.0 to Yuyu Yang Digital Art Museum. First of all, it uses CKIP Chinese Segmentation System to process the metadata of every artwork and extract the keywords according to their weights. The extracted keywords represent professional descriptions about the artwork. Second, public users can tag artworks freely with any vocabulary. Finally, the tagging system will combine the extracted keywords and the tags from the users to form hierarchical tag clusters and generate a tag map for every category of artwork. This tag map reflects the classification by the public users and achieves the goal of folksomony.

(5)

誌謝

在來交大念書之前，我曾經問我自己會不會後悔，捨棄美好的工作，只為了進一步求得知識學位，如今兩年過去了，當初猶豫的決定，在今日卻認為來交大是我這一生中最幸運的事情，尤其完成了學業，並達成了人生的夢想。這兩年裡，我真的要感謝很多人給予我的幫助，首先感謝恩師柯皓仁老師給予我的指導，他不辭辛勞地修改我的論文寫作及研究過程中觀念架構的釐清，實在是一位難得且認真負責的好老師。其次，要感謝論文口試委員陳光華、謝建成兩位老師的細心的指導，使我的論文更加完整，學生在此對幾位老師獻上由衷感謝。感謝研究室及所上的同學們，看到你們就像看到過去自己純真洋溢的一面，讓我又再度充滿活力，對人生充滿朝氣，如同剛畢業的莘莘學子對生命滿懷憧憬，感謝學妹在短時間內接下我手中的案子，使我不需分心，得以專注於我的研究論文裡。另外，要感謝母親給我的支持與鼓勵，讓我這兩年完全不用擔心經濟上的壓力，可以毫無後顧之憂繼續完成我的學業，感謝弟弟及眾多親朋好友死黨們，給予我論文無限的支援與協助，讓我順利完成我的論文。兩年的碩士生涯想不到一下子就過去，在這期間我生活周遭的每一個人都將在我人生佔有一席之地，師長、朋友、同學缺一不可，畢業在即，多少都有些依依不捨，即使將要回到工作崗位上，心裡仍冀望不知未來何時才能再度享受這美麗的校園生活。有盈謹誌於交通大學資管所 2008.7

(6)

目錄

【摘要】 ... I 【ABSTRACT】 ... II 誌 謝 ... III 目 錄 ... IV 表 目錄 ... VI 圖 目錄 ... VII 壹、 緒論 ... ‐ 1 ‐ 一、研究背景與動機 ... ‐ 1 ‐ 二、研究方法與目的 ... ‐ 4 ‐ 三、論文架構 ... ‐ 4 ‐ 貳、 文獻探討 ... ‐ 5 ‐ 一、 WEB 2.0 相關研究 ... ‐ 5 ‐ 1. Web 2.0 起源及意義 ... ‐ 5 ‐ 2. Web 2.0 主要原則 ... ‐ 9 ‐ 3. Web 2.0 的應用類型 ... ‐ 13 ‐ 二、社會性標記 (SOCIAL TAGGING) ... ‐ 16 ‐ 1. 標籤與標記的起源 ... ‐ 17 ‐ 2. 大眾分類法 (Folksonomy) ... ‐ 18 ‐ 3. 大眾分類的優缺點 ... ‐ 20 ‐ 4. 社會性標記網站的應用 ... ‐ 22 ‐ 5. 社會性標記與知識管理 ... ‐ 26 ‐ 6. 標籤之相關研究 ... ‐ 28 ‐ 三、中文斷詞的相關研究 ... ‐ 30 ‐ 1. 中文斷詞簡介 ... ‐ 30 ‐ 2. 中文斷詞的困境及方法 ... ‐ 31 ‐ 3. 未知詞擷取之研究探討 ... ‐ 32 ‐ 四、資訊檢索 ... ‐ 33 ‐ 1. 關鍵字擷取 ... ‐ 33 ‐ 2. 空間向量模型 ... ‐ 34 ‐ 五、文件及關鍵字分群 ... ‐ 35 ‐ 1. 分割法(Partition Method) ... ‐ 35 ‐ 2. 密度基礎法(Density‐based Method) ... ‐ 36 ‐

(7)

4. 階層分群法(Hierarchical Method) ... ‐ 37 ‐ 參、 系統架構與實作 ... ‐ 38 ‐ 一、核心概念 ... ‐ 38 ‐ 二、系統架構 ... ‐ 40 ‐ 三、資料庫設計 ... ‐ 41 ‐ 四、中文斷詞處理 ... ‐ 43 ‐ 五、線上標籤蒐集 ... ‐ 47 ‐

六、階層標籤產生器 (TAG HIERARCHY GENERATOR) ... ‐ 49 ‐

七、產出結果 ... ‐ 56 ‐ 八、系統操作畫面 ... ‐ 58 ‐ 肆、 問卷評估與結果分析 ... ‐ 62 ‐ 一、問卷設計 ... ‐ 62 ‐ 二、評估項目 ... ‐ 63 ‐ 三、受測者基本資料與網路使用行為分析 ... ‐ 64 ‐ 四、社會性標記應用之需求分析 ... ‐ 67 ‐ 五、關鍵詞、標籤、推薦詞內容分析 ... ‐ 68 ‐ 六、社會性標記功能評估 ... ‐ 70 ‐ 七、社會性標記實作滿意度分析 ... ‐ 72 ‐ 八、綜合討論 ... ‐ 73 ‐ 伍、 結論與未來展望 ... ‐ 76 ‐ 一、結論 ... ‐ 76 ‐ 二、未來發展方向 ... ‐ 77 ‐ 參考文獻 ... ‐ 79 ‐ 附錄一、中研院平衡語料庫詞類標記集 ... ‐ 83 ‐

(8)

表目錄

表 1：WEB 2.0 VS WEB 1.0 (整理自TIM O’REILLY “WHAT IS WEB 2.0”)[25] ... ‐ 7 ‐

表 2：楊英風數位美術館開發軟體需求 ... ‐ 41 ‐

表 3：美術作品擷取資料欄位表 (資料來源：HTTP://YUYUYANG.E‐LIB.NCTU.EDU.TW/) ... ‐ 44 ‐

表 4：CKIP用戶端傳送之XML格式[46] ... ‐ 44 ‐ 表 5：CKIP伺服器傳回XML格式的處理結果[46] ... ‐ 45 ‐ 表 6：CKIP回傳另外三種XML格式的處理結果[46] ... ‐ 45 ‐ 表 7：中文斷詞詞類擷取列表(整理自附錄一) ... ‐ 46 ‐ 表 8：關鍵詞標籤合併範例表 ... ‐ 49 ‐ 表 9：標籤向量表 ... ‐ 50 ‐ 表 10：各標籤被標記的資源數量與總標記次數 ... ‐ 51 ‐ 表 11：計算鋼筆與速寫間的相互關係 ... ‐ 52 ‐ 表 12：計算水墨與速寫間的相互關係 ... ‐ 53 ‐ 表 13：計算鉛筆與速寫間的相互關係 ... ‐ 54 ‐ 表 14：計算水墨與鋼筆間的相互關係 ... ‐ 54 ‐ 表 15：計算鉛筆與鋼筆間的相互關係 ... ‐ 55 ‐ 表 16：計算鉛筆與水墨間的相互關係 ... ‐ 55 ‐

(9)

圖目錄

圖 1：史帝夫標籤計畫 (HTTP://TAGGER.STEVE.MUSEUM) ... ‐ 3 ‐

圖 2：WEB 2.0 VS WEB 1.0 (資料來源：WEB 2.0: EVOLUTION TOWARDS A READ/WRITE PLATFORM) [7] ... ‐ 7 ‐

圖 3：WEB 2.0 MEME MAP (資料來源: TIM O’REILLY “WHAT IS WEB 2.0”)[25] ... ‐ 8 ‐

圖 4：WEB 2.0 八個核心模式 (WEB 2.0 DEFINITION UPDATED AND ENTERPRISE 2.0 EMERGES)[12] ... ‐ 9 ‐

圖 5：LONG TAIL DIAGRAM [36] ... ‐ 13 ‐

圖 6：URMAP (HTTP://WWW.URMAP.COM/) ... ‐ 14 ‐

圖 7：無名小站 (HTTP://WWW.WRETCH.CC/)... ‐ 15 ‐

圖 8：黑米共享書籤 (HTTP://WWW.HEMIDEMI.COM/) ... ‐ 16 ‐

圖 9：社會性標記之概念架構[44] ... ‐ 20 ‐

圖 10：DEL.ICIO.US (HTTP://DEL.ICIO.US) ... ‐ 22 ‐

圖 11：DEL.ICIO.US架構圖[11] ... ‐ 23 ‐

圖 12：PENNTAGS 讀者分享註解與標籤的範例 (HTTP://TAGS.LIBRARY.UPENN.EDU/) ... ‐ 24 ‐

圖 13：STEVE.MUSEUM (HTTP://TAGGER.STEVE.MUSEUM) ... ‐ 25 ‐

圖 14：STEVE.MUSEUM 資料模組架構[6] ... ‐ 26 ‐ 圖 15：WIIG知識管理流程[39] ... ‐ 26 ‐ 圖 16：本研究之核心概念 ... ‐ 39 ‐ 圖 17：本研究之系統架構 ... ‐ 41 ‐ 圖 18：資料庫設計圖 ... ‐ 43 ‐ 圖 19：中文斷詞處理步驟 ... ‐ 43 ‐ 圖 20：楊英風網站標記資源範例圖 ... ‐ 48 ‐ 圖 21：楊英風網站搜尋資源範例圖 ... ‐ 48 ‐ 圖 22：本研究之關鍵詞擷取流程 ... ‐ 48 ‐ 圖 23：標籤與數位資源的關係圖 ... ‐ 50 ‐ 圖 24：第一輪階層分群過程 1 ... ‐ 53 ‐ 圖 25：第一輪階層分群過程 2 ... ‐ 53 ‐ 圖 26：第一輪階層式標籤分群的結果 ... ‐ 54 ‐ 圖 27：第二輪階層式標籤分群的結果 ... ‐ 55 ‐ 圖 28：Λ為 0.5 時的階層式標籤分群結構 ... ‐ 56 ‐ 圖 29：Λ為 0.8 時的階層式標籤分群結構 ... ‐ 56 ‐ 圖 30：繪畫類標籤地圖部分擷取畫面 ... ‐ 57 ‐ 圖 31：楊英風美術作品的推薦詞 ... ‐ 58 ‐ 圖 32：楊英風美術作品的中的關鍵詞、標籤、推薦詞資訊... ‐ 59 ‐ 圖 33：楊英風數位美術館標籤搜尋畫面 ... ‐ 60 ‐ 圖 34：浮雕類標籤地圖部分擷取畫面 ... ‐ 61 ‐ 圖 35：受測者系所分佈圖 ... ‐ 65 ‐

(10)

圖 37：受測者學歷分佈圖 ... ‐ 66 ‐ 圖 38：接觸網路的資歷分佈圖 ... ‐ 66 ‐ 圖 39：每日使用網路的時間分佈圖 ... ‐ 67 ‐ 圖 40：使用過的社會性標記系統分佈圖 ... ‐ 67 ‐ 圖 41：受測者對於社會性標記應用之需求分析 ... ‐ 68 ‐ 圖 42：景觀雕塑類別作品分析 ... ‐ 69 ‐ 圖 43：繪畫類別作品分析 ... ‐ 70 ‐ 圖 44：標記功能評估分析 ... ‐ 71 ‐ 圖 45：標籤地圖功能評估分析 ... ‐ 72 ‐ 圖 46：受測者評估楊英風網站之標記功能是否具有實用性分佈圖 ... ‐ 73 ‐ 圖 47：受測者評估楊英風網站之標記功能是否具有創意分佈圖 ... ‐ 73 ‐ 圖 48：靜物與香蕉的階層式結構 ... ‐ 74 ‐ 圖 49：繪畫類作品─窗外 ... ‐ 75 ‐ 圖 50：繪畫類作品─香蕉 ... ‐ 75 ‐

(11)

壹、

緒論

一、

研究背景與動機

近年來Web 2.0 逐漸流行，其核心概念強調眾人的集體智慧，使用者可透過網路平台創建各種內容，使用者間也能透過網路彼此互相交流知識。Web 2.0 打破了個人的界線，讓網路上的知識互相連結，形成一個巨大的架構，就好比大腦內的突觸網路型態，藉由密集重複的連結，不斷成長下，讓網路平台變得更緊密更強大[57]。許多應用Web 2.0 概念的網站，例如：Del.icio.us、Flickr、Youtube等，提供了讓使用者自由地對網站內容定義關鍵字的功能，這些關鍵字通常稱為標籤 (Tag)。例如在Flickr上貼標籤的對象是照片，在Del.icio.us上就是一個網路連結 (Web Link)[56]。社會性標記(Social Tagging)是一種運用集體力量收藏和分享標籤的機制，因為收藏的標籤可以讓許多人在網路上分享，因此有人將標籤稱為社會性書籤 (Social Bookmark)或網路書籤(Bookmark)。使用者可以利用標籤來收集、分享感興趣的資訊，如新聞、圖片、資料、網站等。同時，也能方便地與其他人分享自己個人的收藏。而社會性標記指的就是由使用者針對服務內容(如照片、網站連結、藝術作品)提供標籤，從而創造出一種極具創意的自行分類，可稱之為大眾分類法(Folksonomy)。這種分類與古典分類法(Taxonomy)形成對比，並非毫無彈性的分類方式，而是讓使用者透過自然的思維來運行。之所以運用社會性標記於線上美術館或博物館的想法原因如下：藝術品或美術作品的創作少則幾十年甚至幾百年的歷史，當走進美術館時，可以很輕易地看到畫作上的名稱及作者，也可以知道是甚麼時代的作品以及畫作的特色風格，但是從線上美術館或博物館尋找藝術或美術作品時，除非知道畫的名稱及作者名字否則根本無法找到想看的畫。「美術館已經發覺線上收藏品並沒有發揮應有的功能，現在的作法根本是把

(12)

內容藏起來，讓專家以外的人無所適從」，多倫多檔案與博物館資訊公司(Archives and Museum Informatics)的合夥人之一珍妮佛川特(Jennifer Trant)這麼說[55]；另外，丹佛美術館新科技部主任布魯斯韋曼(Bruce Wyman)說：「讓大眾下標籤，給了我們一雙從沒有的眼睛」[55]。

社會性標記提供了一種直接且直覺的方式讓大眾透過標籤來了解或評判藝

術作品的特質，如梵谷的名畫《星夜》(Starry Night)可能出現的標籤，就會有「星

星」、「星球」、「漩渦」或是「精神錯亂」等；佛萊斯(Joachim Friess)的裝飾

雕塑作品《黛安娜與雄鹿》(Diana and the Stag)，「鹿角」、「箭術」和「女獵手」

等標籤如預期出現，但「珍貴的」、「奢華的」等意想不到的標籤也同樣出現[55]。大都會美術館收藏品資訊規劃總經理鍾蘇珊(Susan Chun)表示：「美術館和大眾之間的確存在著巨大的語義鴻溝」[55]。史帝夫美術館(Steve.museum)就是由多家美術館聯合進行的標籤計畫[35]，讓一般民眾可以在線上美術館加註標籤，除了縮短學者專家和一般民眾對藝術作品感知的鴻溝，更提供對藝術作品意想不到的視野，同時讓這些專業的說明與標籤並列(圖 1)。除此之外，尚有多個線上美術館進行標籤研究，如：澳洲雪梨動力博物館(Powerhouse Museum in Sydney, Australia)、史密森創新攝影(Smithsonian Photography Initiative)，其目的都是運用Web 2.0 的精神，對藝術及美術作品提供新型態的語彙。

(13)

圖 1：史帝夫標籤計畫 (http://tagger.steve.museum) 本研究即是將Web 2.0 的精神應用於楊英風數位美術館 (http://yuyuyang.e-lib.nctu.edu.tw)，線上美術館的優點是讓人們可隨時隨地從網路上觀賞藝術作品，將社會性標記應用於線上美術館的目的在於將人們觀賞藝術品的觀感串連起來，希望能透過大眾集思廣益讓每幅畫的描述能更完整、更多面向，並建立一般人甚至於專家都看不見的巧妙關聯性。

本論文系統實作先以中研院中文詞庫小組(Chinese Knowledge and

Information Processing, CKIP)所開發的中文斷詞系統依據權重萃取出每一個藝術作品的關鍵詞彙，代表此藝術品專業的說明；再透過標記(Tagging)活動，讓一般使用者自由地對楊英風美術作品提供標籤；之後系統會結合作品關鍵詞和使用者標記的標籤進行階層式標籤分群法(Hierarchical Tag Clustering)，自動產生每一類作品的標籤地圖。此標籤地圖就是結合專業的字彙加上大眾標記的標籤共同建立的大眾分類法，當愈多人對楊英風數位美術館的內容提供愈多標籤時，則標籤地圖便會愈完整，而大眾分類法就會自動創造出更完整的分類。當標籤地圖建立時標籤間的關聯性也建立了，系統會根據此關聯性產生對每一藝術品的推薦詞，其

(14)

實也就是符合Web 2.0 的精神，當愈多人使用得到的回饋也愈多。

二、

研究方法與目的

本研究是以交通大學數位典藏計畫的楊英風數位美術館網站為基礎架構，採用CKIP 詞庫小組的中文斷詞系統先萃取出網站內藝術品關鍵詞，除了擴充既有作品的詮釋資料(Metadata)外，也可當作使用者建立標籤前參考的來源。接下來會將使用者建立的標籤與系統萃取的詞彙進行合併，自動產生階層式標籤分群，利用此技術可有效彙整資訊來源並利用標籤產生每一類別藝術作品導覽之標籤地圖。本研究之目的如下： 1. 透過社會性標記創造標籤之間的關聯性，並自動建立大眾分類法，破除以往耗時間及耗人力的傳統分類。 2. 利用標籤地圖提供線上美術館完整的索引架構，讓使用者可以快速搜尋並了解站上的資源。 3. 建立標籤地圖後，當使用者瀏覽線上美術館時，可利用標籤之間的關聯性推薦相關聯的詞彙，進一步發掘作品與作品之間的關聯性。

三、

論文架構

本論文第二章為文獻探討，將會依序介紹Web 2.0 概念、社會性標記、中文斷詞研究、資訊檢索技術、文件及關鍵字分群。第三章說明系統架構及系統實作。第四章以問卷調查分析使用者對社會性標記應用於楊英風數位美術館的需求、標籤內容分析、標記工具評估及使用滿意度。第五章為結論及未來的發展方向。

(15)

貳、

文獻探討

本論文將社會性標記應用於數位典藏，結合資訊檢索技術、中文斷詞處理，將標籤與關鍵詞合併後，利用階層式標籤分群法建立標籤地圖，並將結果應用於標籤推薦與資源搜尋上。第一節將對Web 2.0 的概念作探討；第二節介紹社會性標記之相關文獻，包含社會性標記與知識管理及現階段標籤之相關研究；第三節介紹中研院詞庫小組中文斷詞的研究；第四節介紹本研究中用到的資訊檢索技術；第五節介紹文件及關鍵字分群。

一、

Web 2.0 相關研究

Web 2.0 並非一種新的技術，而是一種精神，在於讓每個人成為資訊的創作者而非只是使用者，藉由大家使用資料、創作資料，不斷互動與增長，促成一個龐大的知識平台，目前崛起的網站如：維基百科(Wikipedia)、Del.icio.us、Flickr、 YouTube 等皆屬 Web 2.0 的應用。

1. Web 2.0 起源及意義

「Web 2.0」的概念是來自於O'Reilly與MediaLive這兩家網路公司於一場國際研討會所提出來的。在2001 年的秋天，許多美國網路公司股價大跌，大家開始認為網路只是誇大不實的科技而已，認為網路就此泡沫化，相反地，Dale Dougherty這位O'Reilly公司的副總經理認為自2000 年網路泡沫以來，網路產業正處於一個新的演進時期，新的網路應用、網站經營型態會慢慢誕生，甚至可以稱之為網路的文藝復興時期，因此，他採用軟體版本更新的命名方式，稱呼過去的網路時代為Web 1.0，現在的網路時代為Web 2.0[50]。事實上雖然網路泡沫化的現象讓網路產業陷入一片低迷，但這只不過是將一些體質不佳的公司淘汰，完全符合適者生存的道理。許多專家發現一些重要、受歡迎的網路新應用順利度過此次網路泡沫化危機，如：網路書店

(16)

路公司，都具有一些共同的特色，即Schauer[30]所提出的Web 2.0 特徵：「使用者貢獻價值」、「長尾定律」、「網路效益」。 O`Reilly公司在研討會中曾經比較Web 2.0 與Web 1.0 差異(如表 1)，說明如下： (1) DoubleClick 曾是一家最大廣告網路服務商，在 Web 1.0 時代的網路廣告，多以橫幅廣告的方式呈現，大多置放於網頁最上方，以廣告被刊登的次數向廣告主收取費用，其優點是簡單明瞭，但七彩絢麗的橫幅廣告

圖成為網頁瀏覽最大的負擔。於Web 2.0 時代，Google 推出 AdSense 服務，揚棄華麗的橫幅廣告，改用文字廣告，且以「每次點擊成本」向廣告主收取費用，並且長期收集使用者的習慣來播放廣告。

(2) Web 1.0 時代 Ofoto 只能以相簿使用者來搜尋相簿，而 Web 2.0 時代 Flickr 則提供使用者標籤功能，讓使用者能依據標籤搜尋相簿。

(3) Akamai、Mp3.com 提供資料或音樂的網站只能被動讓使用者登錄，挑選

檔案來下載，但到了Web 2.0，BitTorrent 或 Napster 可以讓使用者直接點對點連接分享互相電腦內的資源，不再只是從特定網站上抓取資料。 (4) 維基百科的誕生就是一個Web 2.0 最重要的特質─ 群眾智慧，它摒棄大英百科全書權威智慧的方式，而採用眾人集體編輯，在短短幾年間就已經有一百多種語言的內容[52]，其所呈現的是一種共同創作的模式。 (5) 個人網頁通常只能瀏覽網站主人所公布的資訊，而部落格不僅擁有個人網頁的各種功能，並且整合了相簿、留言版、日記等，而使用者更可與作者共同參與網站內容的編輯。 (6) 在Web 1.0 時代，Evite 是透過網路寄發邀請函，由網站經營者自己對外

發佈訊息，而Web 2.0 社交行事曆的 Upcoming 以及社交軟體(EVDB) 則是將訊息放在網路上由大家共同來編輯及創造。

(7) 在互動方式上，Web 1.0 時代的資訊通常只由網站提供，使用者只是被

(17)

(8) Web 1.0 的目錄分類俗稱「古典分類」或是「專家分類」(Taxonomy)，

是由專家來決定分類的名稱；而Web 2.0 的標記功能讓使用者自行為喜

愛的項目給予標籤，讓大家共同制定的標籤形成大眾分類，使得分類更符合使用者的需求。

表 1：Web 2.0 vs Web 1.0 (整理自Tim O’Reilly “What is Web 2.0”)[25]

Web 1.0 Web 2.0 DoubleClick Google AdSense

Ofoto Flickr Akamai BitTorrent

Mp3.com Napster 大英線上百科全書Britannica Online 維基百科全書Wikipedia

個人網站Personal Websites 部落格 Blogging Evite Upcoming.org and EVDB 網域名稱投機化Domain Name Speculation 搜尋引擎最佳化Search Engine

Optimization

頁面瀏覽次數Page Views 每次點擊成本Cost Per Click 螢幕抓取Screen Scraping 網路服務Web Service 發佈Publishing 參與Participation 內容管理系統Content Management Systems Wikis

目錄Directories (Taxonomy) 標籤Tag(Folksonomy) 黏性Stickiness 聚合Syndication

Jim Cuene[7]提出從使用者觀察Web 1.0 與Web 2.0 的差異(如圖 2)，不難發現Web 2.0 網站的共同點都是以人為基礎，無論是 Wikipedia、

Flickr、YouTube、Del.icio.us，這些網站都是由大量使用者各自提供少量的資訊，最後集成龐大的資料庫。

(18)

O’Reilly認為Web 2.0 並沒有一個很明確的界線，如同圖 3所示，它呈現的是一種核心精神所形成各種概念及應用的延伸，上方的七個橢圓代表各種網站的應用，如：Flickr、Del.icio.us、Wikipedia、Blog等，下方則是所延伸的概念，如：長尾理論、觀念創新並非技術、參與、豐富使用者體驗等，中間則代表Web 2.0 最核心的精神，如：策略定位、使用者定位、核心競爭力等。

圖 3：Web 2.0 Meme Map (資料來源: Tim O’Reilly “What is Web 2.0”)[25]

O`Reilly認為Web 2.0 最重要的觀點就是以使用者為中心，包含下列三項重點[54]： 1. 鼓勵使用者參與內容創作，或是使用者之間的互動，如 YouTube 或部落格都是強調使用者間的互動與參與創作。 2. 開放的重要性，透過開放的討論，互相分享創造，才能豐富使用者彼此的經驗與網站資源。 3. 強調使用者網路的外部延展性，也就是去中心化的型態，如 Skype、 BitTorrent。

(19)

時代，主要以單向閱讀為主，Web 2.0 則強調雙向、互動、分享「讀─寫」

發展，而現今最新提出的Web 3.0 概念，一般被闡釋為智慧更高的網路服務，

不管是Web 1.0、 2.0 或 3.0，目地都是希望最終能創造更貼近使用者的網路

服務。

2. Web 2.0 主要原則

O’Reilly在 2005 年發表的一篇文章(What is Web 2.0：Design Pattern and Business Model for the Next Generation of Software)[25]，提出Web 2.0 應用的七個原則，以及Musser和O’Reilly在 2006 年定義的Web 2.0 八個核心模式(如圖 4)，可說是目前Web 2.0 的主導思想，將之綜合整理如下[12][57]：

圖 4：Web 2.0 八個核心模式 (Web 2.0 definition updated and Enterprise 2.0 emerges)[12]

(1) 網路應當被視為平台 (The Web as Platform)

Web 2.0 並沒有嚴格的界線範疇，但是卻有一個重要的核心，就是去中心化，它是由「原則」與「實踐」兩個面向所構成的，如同一個擴散式的地圖，環繞於此核心，可向外延伸出許多原則與實踐。

(20)

者，兩個網站都是利用與其它網站的合作，以獲得營業收入。之後Web 2.0

的後進者便深入地應用這些特性，如Google 集合眾多小網站的力量提供廣

大的資訊給使用者，這就是一種去中心化，將網路遍及每一處。

(2) 運用集體智慧 (Harnessing Collective Intelligence)

集體智慧是網路平台化後的一個必然發展趨勢。如eBay、Amazon 皆是不斷地由使用者累積參與網路平台的結果，讓後來的使用者可以獲得更好的服務。另外一種創新的概念是像Wikipedia 線上百科全書或是 Del.icio.us 線上書籤網站，讓使用者自動自發撰寫資料、維護百科全書的詞條，或是自訂書籤的分類標籤，這無疑是一種使用者彼此之間信任的概念，內容創建更是一種集體智慧的發揮。 O'Reilly 認為在 Web 2.0，使用者願意貢獻他們自有資料與內容，對資料再使用將可獲取更高價值的方式。在Web 2.0 網路應用的關鍵競爭優勢，就是創造一個參與架構，最重要的核心便是將使用者納入所創造的集體智慧。

(3) 資料是下一個「Intel Inside」(Data is the Next Intel Inside)

「Intel Inside」的含義原本出自於不論何種電腦，只要在外殼上貼上「Intel Inside」的標籤就代表電腦內部的CPU是由Intel所生產。在Web 2.0 裡，資料是下一個「Intel Inside」意味著對於一個成功的網路平台而言，指

的是資料而非功能，例如：Google 的搜尋引擎、Amazon 的產品型錄、eBay

的拍賣資料，MapQuest 的地圖資料庫，Napster 的分散式歌曲庫以及 YouTube 的影片資料庫等，許多重要性的網路應用系統背後都有一個專屬的資料庫。所以，資料庫管理將會變成Web 2.0 公司的核心競爭力[57]。

(4) 軟體不斷發行與升級的循環將會終結(「永久的 Beta 版」) (End of the Software Release Cycle)

網路時代最重要的特徵就是以服務為目的，這使得過去軟體公司營運模式產生了徹底的變化。其變化有二：第一是日常營運必須成為核心能力，如

(21)

Google必須不斷地搜尋網路，更新其索引目錄，並淘汰無效的連結，還必須持續地回應成千上萬不同步的使用者查詢，並在提供結果的同時顯示與查詢項目有關的廣告，這種日常營運已成為Google主要的核心競爭力。第二，使用者成為共同開發者，即是指開放原始碼與使用者共同開發的過程，現在的軟體開發每一天、每個星期、每個月都推出新的功能，這代表了軟體開發永遠沒有結束的一天，即所謂「永遠的試用版」。如Gmail、Google Maps、Flickr、 Del.icio.us，推行好幾年，仍然只是試用版，其中某些使用率太低的功能可能會被取消，受歡迎的功能則會留下來[57]。

(5) 輕量型程序設計模型 (Lightweight Programming Models)

網路之所以獲得如此巨大的成功，其原因之一便是採用一種簡單輕巧的開發模式，如RSS 之所以成為應用最廣泛的網路服務，就是因為簡單，Web 2.0 是一種創新的網路模式，正是一種鬆散耦合的系統，輕巧的程式撰寫正符合這種模式。 (6) 組合的創新 (Innovation in Assembly) 組合式的創新是透過混合的資料與服務創造更多新的商業機會，如 Google 近來的 Google Maps，就是將簡單 AJAX 加上新的資料成為新的服務，透過這種狀態，網路服務將出現更多混和運用。

(7) 軟體執行將跨越單一設備 (Software Above the Level of a Single Device) Web 2.0 的另一項特徵便是不再侷限於個人電腦的平台上，軟體與應用服務的設計，需要能夠適用於個人電腦、行動裝置，以便整合更多的資料與服務。iTunes可說是落實這項原則的最佳典範，這項應用從個人手提裝置緊密連結到龐大的網路後台，如iPod / iTunes的結合就著眼於跨越不同裝置[57]。在Web 2.0的領域，將會有越來越多外在裝置與網路平台相連，當電話、汽車所提供的是輸入資料的話，而這個新興平台將可呈現交通流量、市民新

(22)

(8) 豐富的使用者體驗 (Rich User Experience)

在歷經網路泡沫化之後，網路曾經被視為誇大不實的應用，一直到了

Gmail 和 Google Maps的發展，不但具備豐富的使用者介面，也有與個人電

腦同等級的互動，才算喚醒主流市場。

Gmail 在電子郵件發展出許多有趣的創新服務，結合網路的優勢，可在

任何地點收發以及具有深度的資料庫功能、搜尋能力，利用AJAX 簡單的技

術呈現接近個人電腦方便性的介面，事實上，這種正逐步結合E-mail、即時

通訊軟體(Instant Messenger)、手機，並運用 VoIP 技術讓語音傳輸能力結合至網路應用將會慢慢地展開。

(9) 拉動長尾的能力 (Leverage the Long Tail)

一間商店裡，80%的收入來自 20%的貨品；一所圖書館裡，有 20%的藏書為80%的讀者借閱；由Chris Anderson在 2004 年發表的「長尾效應」卻顛覆了80/20 法則(如圖 5)，它是指只要發布渠道夠大，又能夠集合零散的需求，非主流商品的利潤同樣可觀。以亞馬遜(Amazon)網上書店為例：傳統書店裡滯銷的書籍，在亞馬遜卻有不錯的銷量，據統計，熱門的書籍與冷門的書籍同佔銷量的50%[36]。

Google 的 AdSense 及 Adwords 廣告策略，就是長尾理論應用的最佳實證，它著重於為數眾多的小企業和個人網站，讓所有小企業都能在全世界任何網站上賣廣告。這種透過網路所賦予低成本且廣泛的接觸性，正是拉動長尾的能力。

(23)

圖 5：Long Tail Diagram [36]

(10) 輕巧模式且節省成本的架構 (Lightweight Models and Cost-effective Scalability) 透過輕巧的軟體以及經營模式的改變與創新，都是在根本上改變網路軟體的發展，為成本效益的提升，提供強而有力的武器。

3. Web 2.0 的應用類型

Web 2.0 創新應用案例集[59]中將Web 2.0 網站的服務型態，以應用方式區分為混搭服務(Mashup)、網路軟體(Webware)、共享平台(Social Media)、社群網路服務(Social Network Service)以及播客服務(Podcast)等五大類。

(1) 混搭服務 (Mashup) 混搭是將不同的服務、資料搭配在一起，創造出一種新的服務。混搭系統運用巧思與創意提升網站的附加價值，提供使用者多元的服務，主要重點就是網站之內容與功能係整合於其他網站所提供之API。目前如UrMap (如圖 6)、Google Map、HousingMap.com、eBay、Amazon與Yahoo等皆提供API供其他網站整合。

(24)

圖 6：UrMap (http://www.urmap.com/)

(2) 網路軟體 (Webware)

Web 2.0 概念的崛起使各種不同的網路軟體持續吸引使用者的使用，其功能與操作介面已和傳統桌面電腦的應用軟體相似，可直接在網站上使用，如Google 買下了 Writely.com 之後提供了 Doc & Spreadsheets 工具，等同於 Microsoft 的 Word 跟 Excel 的功能，網路軟體將成未來的趨勢，亦即只要上網，需要甚麼軟體就可以用到甚麼軟體。 (3) 共享平台 (Social Media) 共享平台是由服務業者在網站上提供一個儲存與展示的空間，而使用者一般需註冊為會員，將數位內容上傳到網站上，由眾多使用者上傳的內容形成廣大的資源，基本上以文字、圖片、影片、音樂等數位內容檔案，讓使用者之間互相分享，如無名小站(圖 7)。

(25)

圖 7：無名小站 (http://www.wretch.cc/)

(4) 社群網路服務 (Social Network Service, SNS)

社群網路服務是讓使用者根據不同的理念、主題、興趣在社群網站中形成線上社群，服務業者在網站上提供各式工具與技術，包括共享書籤、共享照片，讓使用者藉此進行聯絡、溝通與分享，因而創造出非主流的新聞、音樂、照片、影片等媒體內容。目前社群網路服務所提供的型態越來越多樣化，這也是經營者之間差異化的基礎，如黑糯米共享書籤(圖 8)透過網友收集不同網路書籤，進而產生各式各類的社群，讓使用者在其上分享彼此的興趣與喜好。

(26)

圖 8：黑米共享書籤 (http://www.hemidemi.com/)

(5) 播客服務 (Podcast)

Podcast 是由「iPod」與「Broadcast」兩字組合而成，意即 MP3 Player 與廣播功能的結合，是數位廣播技術的一種，它改變了過去人們被動收聽廣播的方式，使聽眾成為主動參與者。而Podcast 與傳統廣播最大的不同在於能夠透過RSS 訂閱的方式，讓聽眾即時下載電台或網站上最新的 MP3 檔案，透過隨身裝置即可進行收聽，如iPod。Podcast 可以自由選擇收聽的內容、收聽的時間以及以何種方式與其他人共享，讓創作者能夠擁有自己的宣傳管道，找到喜愛自己創作的聽眾，顛覆過去傳統媒體的播放權，人人都可能成為網站的主播。

二、

社會性標記 (Social Tagging)

社會性標記是一種Web 2.0 的概念，透過共同建立標籤的方式，讓使用者在同一平台上共同參與及分享資源，一些代表性的網站如：Del.icio.us、Flickr 受到大家的歡迎，而且也引起廣泛討論；WWW 2006 研討會中亦舉辦 Collaborative Web Tagging Workshop 探討如何從標籤中擷取資訊。

(27)

標記行為包含三個層面：使用者、資源、標籤，並衍生一個重要的概念，就是大眾分類，詳細內容會在本節所述。

1. 標籤與標記的起源

標籤起源於社會性書籤，即個人儲存與分享網站資源的服務，因為收藏的超連結可以被許多人在網路上分享，因此也有人稱之為網路書籤或是線上書籤[40]。它就像內建於瀏覽器的「我的最愛」功能。社會性書籤的優點是第一：任何電腦都可以連結到收錄在社會性書籤中的網站或網頁，並不侷限於單機電腦中；第二：社會性書籤網站可以將喜歡的網頁大量地收錄起來，並且給予標籤，即可達到分類、管理、收錄龐大的網頁資料等目的，形成一種個人的資料管理中心。最早提供書籤服務的是Del.icio.us(http://del.icio.us)這家公司，其網址的三個部份組合起來是英文字delicious (美味、好吃)，所以又稱「美味書籤」。在臺灣至少有兩家公司提供了社會性書籤的服務：一家是智邦的 MyShare 服務；另一家就是前一節所提到的黑糯米共享書籤 HEMiDEMi。使用者為網站內容給予標籤的行為稱之為標記，是Web 2.0 時代出現的典型應用，所收藏的內容不再侷限於網址，開始擴展包括音樂、影片、相簿、書籍等任何事物，社會性書籤變成眾多資源類型中的一種應用，舉例來說，某一篇文章講述的內容是社會性書籤，如果使用者想把它記下來，日後保留或跟別人分享，就可以把它收錄進書籤裡，並貼上標籤如：「網路書籤」、「社會性書籤」、「共享書籤」、「網路服務」、「Web 2.0」、「服務介紹」或是其他想的到的詞做為標籤。這些標籤可以作為搜尋資源的依據，不僅能拓展個人閱讀的範圍，更可找到與自己興趣相同的人，了解該領域其他人所搜集、閱讀的訊息。社會性標記已儼然成為Web 2.0 的典型應用，在 2005 年O’Reilly掀起了一股Web 2.0 相關議題與應用的熱潮後，同年 3 月Yahoo!正式收購影像分享

(28)

網站Flickr，並於同年 12 月，再度收購網路書籤分享網站Del.icio.us。身為大型主要入口網站的Yahoo! 收購這兩家提供社會性標記服務的網站之主要原因來自於：「透過龐大的志工，依照詮釋資料來作搜尋，並且共同替資訊作分類」[26]。龐大的使用者自由地進行標記，累積出的獨特分類目錄，更能貼近使用者體認，以有別於傳統以知識為中心的分類方式，如圖書館所習用的分類系統[19]。根據Mathes[38]的研究從給予的標籤可以發現總共有 60,000 名到300,000 名使用者(累計從各地的Del.icio.us和Flickr使用者)，並創造出多達四百萬個文件。相信隨著日後使用者人數的逐日攀升，其影響力將會擴及整個網路的生態。這種由共同創作所形成自由標記的分類系統，已經衍生一種新的分類方式名詞，一般稱為大眾分類法或通俗分類，將在下一小節介紹。

大眾分類法

2. (Folksonomy)

是由 Tomas Vander Wal在討論Flickr和

」是由Taxonomy(古典分類、學科分類或專家分類)所發展而來

「Folksonmy」這個新的詞彙

Del.icio.us的資訊架構時，將「Folks」和「Taxonomy」組合，創造出新的詞彙。他定義Folksonomy是：”A folksonomy is the result of personal free tagging of

information and objects (anything with a URL) on the internet for one’s own retrieval. The tagging is performed in a social environment (shared and open to others). The tagging action is done by the person consuming the

information.”[37]

「Folksonmy

，並以「Folks」顯示其自由分類的特性。Folk表示一群人，一伙人的意思，-sonomy是由Taxonomy一字演變而來，表示有系統、專門的學科知識分類法；合而為一的意思為大眾所產生的一種分類知識，也可稱為一種「由下而上的社會分類法」(Bottom-up Social Classification)[37]，或是Shirky[32]所形容的「社會性創造的平面化命名空間」(Socially Created, Typically Flat Name-spaces)，強調其社會性分類(Social Classification)的概念，而較不去區

(29)

分專家與大眾之別。在翻譯上則有「分眾分類法」，「通俗分類法」，「大眾分類法」，「民眾分類法」，「民俗分類法」等。 Folksonomy因其涵義甚廣，還可發現存在多種說法，包括如協力式分類 (Col 類(Social 發現Folksonomy存在許多譯名，同一個名詞卻代表許多種意念， oto 的概念產生。 g laborative Classification)、協力式標記(Collaborative Tagging)、自由標記 (Free Tagging)、標籤分類學(Tagsonomy)、基層分類(Grassroots

Classification)[20]、民眾分類(Ethnoclassification)[20]、社會性分

Classification)[9]等。相關概念還包括強調社會性或互動取向的社會性軟體 (Social Software)、社會網路(Social Networks)；或強調資訊組織取向的命名 (Labeling或Naming )、關鍵詞索引(Keyword Indexing)、分類(Categorization)、分類(Classification)、分面分類法(Faceted Classification)、分面索引法(Faceted Indexing)、知識本體(Ontology)、語意網(Semantic Web)等概念，相當多元與龐雜[44]。在此可以實不易單用一個名詞來定義，每個名詞所關注焦點不同，也反映出不同領域對同一概念的各種觀點。卜小蝶[44] 指出Folksonomy可由三種概念思考，依序為使用者、資源、及分類(如圖 9)，說明如下： (1) 使用者角度：產生如 Social、Ethno 的概念。 (2) 資源角度：有各類物件資源如 Bookmark 、Ph (3) 分類角度：Tagging、Labeling、Classification、Categorization、Indexin 等則是常見的概念。

(30)

圖 9：社會性標記之概念架構[44]

故可知Social Tagging 強調的是 Social 與 Tagging 兩種構面，Social 關心的是使用者，而Tagging 則較關心資源及分類的內容與結構，而 Social Tagging 的結果，最後形成Folksonomy。總體來說，大眾分類是一種分散式分類系統的類型，根據Wikipedia 歸納具有三項特點[41]： 1. 大眾分類是由個人自發性標記與定義而來的。 2. 標籤是公開分享，可以被所有使用者看到。 3. 大眾分類是由使用者群體標記詞彙的頻率來決定分類法。由使用者、分類、資源(網站內容)組成的大眾分類與專家分類進行比較，雖然大眾分類的架構並不嚴謹，也未事先定義，且內容也是因個人所好、自由發揮，而顯得品質參差不齊。反觀專家分類其架構多事先製定也較為嚴謹，但大眾分類擺脫了固化的現象，跟使用者的認知程度密切的結合，而且方便、靈活，不受條件限制。所以這種以自訂標籤形式的大眾分類在目前流行的社會性網路服務中得到了廣泛的應用。

3. 大眾分類的優缺點

從前一節最後可知大眾分類法雖然有許多項優點，但也有許多缺點需要

(31)

解決，列舉優點如下[43]： 1. 定義標籤者即為內容使用者，使用者認同感較高。 2. 具回饋性，可幫助社群創造溝通與分享空間。 3. 具集體智慧，如透過字彙與概念的變化，呈現流行主題。 4. 直接反應使用者需求，如資源排序是以使用者點擊數為主，較其它以連結數為計算基礎的排序方式，更符合使用者需求。 5. 具語言及文化的豐富性，例如同一網站，各國人士所訂定關鍵字，可以反映不同文化觀點。 6. 可以包含少數人興趣，較無偏差，網路應用兼容並蓄，可以大者恆大，也容許少數人的興趣存在。 7. 成本低廉。 8. 開放性、機動性強。 9. 具啟發性，可協助使用者發現、探究，以尋得原先未知的資源。大眾分類法也有不少缺點，舉例如下[43]：

1. 單詞索引(Single Word Indexing) ，關鍵字只能以一個單詞表示，造成的不一致現象。如Google Maps 就有 googlemaps、google_maps、google-maps 等不同形式，造成檢索時相當困擾。此外，單詞也不易表達複雜概念。 2. 缺乏控制字彙，降低資料的有用性與接受度。許多標籤語意模糊、不精確、無區分性，又缺乏同義詞、同形異義詞等控制，標籤的重複比例相當高。 3. 錯別字太多。 4. 無分類架構，較無脈絡可循。 5. 不易瀏覽，查詢功能過於簡略。 6. 無標記指導原則，標籤格式及給定原則缺乏標準，不易達成一致性。

(32)

4. 社會性標記網站的應用

由於社會性標記網站眾多，本節將介紹三個應用於不同領域的標記網站，第一個是一般社會性書籤網站Del.icio.us，第二個是將標籤運用於大學圖書館的PennTags，第三個是與本研究應用相關，將標記的概念應用於線上博物館網站Steve.museum。 (1) Del.icio.us Del.icio.us (圖 8)是早也是最著名的社會性書籤網站，是由 Joshua Schachter 於 2003 年 9 月成立的，它的概念很簡單，源自於個人瀏覽器的「我的最愛」，讓大家將自己的「我的最愛」書籤儲存於網路上，主要目的就是透過每個人儲存的書籤達到分享群眾知識的目的。Del.icio.us 是一個網路化的書籤管理工具，除了可以保存網站連結之外，還能與同好分享書籤，也可以透過標記自行為網站分類。圖10：Del.icio.us (http://del.icio.us)

Hend and Hugh[11]描繪出一個Del.icio.us的架構圖(如圖 11)，第一部分 Fetch a resource是將標籤、資源標題、URL等資訊截取出來，作為標籤的修正與擷取，為下一階段的前置作業。第二部分Tags則是透過使用者運用標籤

(33)

進而對知識本體予以加值。第三部分Resource with added value則產生資訊語義化的詮釋資料。 Del.icio.us 的標籤可讓使用者靈活運用，並可自由的新增或刪減，以符合自己的需求，隨著使用時間的增長，則會發現有愈來愈多相同興趣的使用者與資源，進而促進網站使用率提升。圖11：Del.icio.us架構圖[11] (2) PennTags 美國賓夕法尼亞州大學將社會性標記應用於圖書館而創造了 PennTags，它可以用Bookmarklet工具，只要在瀏覽器上安裝Bookmarklet之後，在書目記錄頁面時，點選一下瀏覽器上的「Add to PennTags Link」後便可以建立標籤。舉例來說：找到某本書名叫「Broadcasting it」時，會顯示出有哪些人為它加入了哪些標籤，當點擊到「television」這個標籤時，則可以連到television這個標籤類別，查看這個類別裡有哪些人加入了哪些書(如圖 12)。在PennTags 網站上，有五項功能，介紹如下： 1. 可以讓使用者訂閱某一類別的 RSS feeds，例如：訂閱 television 的RSS。

(34)

2. 可以用分類標籤來搜尋。 3. 顯示出相關的標籤，例如：顯示出和「television」有關的標籤。 4. 顯示出某位使用者分類過哪些標籤。 5. 顯示出所有的計畫(Projects)、標籤擁有者(Owners)、和標籤 (Tags)。圖12：PennTags 讀者分享註解與標籤的範例 (http://tags.library.upenn.edu/) (3) Steve.museum Steve.museum (圖 13)在本論文研究動機與背景曾經提到，它是一個應用社會性標記於線上博物館的系統，在2005 年 4 月由Cataloguing by Crowd組織將社會性標記概念帶入博物館館藏內容裡[5]。主要任務是探索使用者對藝術作品給予的標籤，透過分析來改善館藏的擷取。過往博物館的館藏文件皆由專家進行詮釋[34]，但卻讓內容不容易為大眾所了解，並且失去以使用者

(35)

的興趣與觀點來描述文件[35]，該計畫採用社會性標記於數位博物館的目的有三種[6]： 1. 改善博物館線上館藏的使用。 2. 透過非正式的人員給予標籤，去驗證社會性標記可融入專家分類中。 3. 透過標籤讓線上博物館也享有社群的參與力量。 Steve.museum 的研究主要對使用者來源及詞彙內容作分析，以了解標籤的錯誤來源，進而改善系統對詞彙控制的依據，目前分析皆是為了用社會性標記及大眾分類來搜尋藝術作品效能所作的前置研究。現在已有多個博物館受到Steve.museum 的影響，如：丹佛美術館(Denver Art Museum)、古根漢博物館(Guggenheim Museum)、克里夫蘭美術館(The Cleveland Museum of Art)、印地安納波里美術館(Indianapolis Museum of Art)等，逐漸想將社會性標記應用於數位美術館，以貼近使用者的方式增進資料檢索的效能。

圖13：Steve.museum (http://tagger.steve.museum)

(36)

(User)、藝術品(Image)、標籤(Tag)之間的關係。物件(Object)以藝術品影像 (Image)的方式呈現，使用者透過博物館(Institution)與物件(Object)產生聯繫，然後跟資訊環境(Environment)互動提供標籤(Tag)給予藝術品(Image)。所以在 Steve.museum中，使用者、標籤、藝術品是主要核心，這與圖 9的社會性標記架構不謀而合。圖14：Steve.museum 資料模組架構[6]

5. 社會性標記與知識管理

標籤與知識管理都是資訊與知識探勘的重要工具。於前幾節所述，標記活動是經由電腦網路的媒介，透過人們的溝通、互動與合作，為數位資源加註標籤，是一種由下而上的資訊分類方法，由使用者儲存與組織標籤的行為，逐漸延伸為一種知識管理的工具。學者對知識管理的定義，多是由上而下的靜態設計，Wiig[39]認為包括四個流程：圖15：Wiig知識管理流程[39] 知識應用知識傳播知識累積知識創造 (1) 知識創造：知識創造不一定是新發明的知識，而是將既存的資訊賦予新的價值，知識不斷地創新，才能建立永續經營的活動。

(37)

(2) 知識累積：藉由對資訊的有效編輯、分類、整理，讓使用者得以有系統的快速搜尋知識，並透過完整的資料庫進行知識累積的工作。 (3) 知識傳播：將知識彼此分享，達到交流的目的，並進一步產生創新，才是真正知識傳播。 (4) 知識應用：將知識達到真正重複的利用。另外，O’Dell[24]也提出知識管理模型包含七個步驟：確認、收集、採用、組織、應用、分享、創造；Despres and Chauvel[8]也定義知識管理流程為描繪/掃描、獲取/捕捉、彙整/儲存、分享/移轉、再利用。由上可知，學者們所定義的知識管理流程雖然在名詞或順序上略有不同，但是其內涵是大同小異的，對應於社會性標記則演變為一種參與式的知識管理，以下根據 Despres and Chauvel所定義的知識管理流程，將社會性標記知識管理活動闡述如下[47]： (1) 知識描繪/掃描：透過瀏覽及建立標籤的方式，對知識重新描繪與定義，並建立高效率的參考資源。 (2) 知識獲取/捕捉：透過標籤分享將知識重新組織與連結。 (3) 知識彙整/儲存：對於社會性標記而言，知識彙整/儲存常與知識獲取/捕捉相互連結，因其使用上相當直觀，故程序上常是一起進行，資訊是立即被發現，然後便彙整/儲存起來。 (4) 知識分享/移轉：使用者運用標籤產生知識的內容，達到分享，並透過標籤協助搜尋。 (5) 知識再利用：經由標籤的重複使用，並衍生出新的知識。社會性標記是利用使用者在網路上的互動，彼此互相銜接，形成一種社會網路，將議題延伸到真實生活互動中，促成彼此相互的理解，並透過一些管理工具，達到動態及參與式的知識管理，它的優點在於能夠適應使用者，而非強迫使用者改變。傳統的知識管理系統大多包含數種資訊技術，如：資

(38)

電子郵件等，必須結合數種科技，才能建構完整知識管理系統，不像社會性標記建構方便且使用上非常直覺，其與傳統的知識管理的主要差異如下： (1) 在知識的搜尋上，經由人們加註標籤後，搭配搜尋檢索功能，就能產生檢索效果；而知識管理則需要由系統建立資料倉儲或關聯資料庫，搭配網站後端管理才能啟動。 (2) 知識管理是屬於規劃的性質，需要開發、建置、知識儲存、導入等階段，比較有知識歸納的特質，用在可族群化資訊與社群的分類；標籤是經由使用者瀏覽與經驗累積，採用共通的語句，來找出資訊的交集與共同點。 (3) 在知識產生的過程與程序差異上，知識管理系統知識的產生與定義是由組織者與資訊發行者決定；標籤則是由使用者自行對數位資源加註標籤，透過知識描繪、獲取、儲存、分享而達到知識的連結。

6. 標籤之相關研究

標籤的研究是近年來一個新興的主題，包括：社會性標記、大眾分類、社會性書籤網站等，相關文獻大多著重於描述性的介紹。Seldow[31]將標籤的研究分為兩種類型： (1) 標籤趣味面：內容多為介紹社會性網路，傾向發揚社會性網路、頌揚社會性標記的優點，鼓勵使用者體驗及應用標籤。 (2) 標籤實作面：內容以標籤資料庫的技術性實作、標籤群聚的演算規則、或探討標籤、使用者與資源的關係等。本節將著重於標籤的實作面，並介紹部分與本研究相關的分群演算。 Millen等人[21]將社會性書籤網站Dogear的使用者設定為研究對象，以網站資源、標籤與使用者來觀察社會性書籤的特性，研究顯示使用者經常運用相似詞彙來標記資源，於2007 年，Millen, Yang, Whittaker and Feinberg又繼續以Dogear為實驗對象，觀察三種搜尋行為：社群式瀏覽、個人書籤的搜尋、

(39)

關鍵字搜尋，觀察結果顯示社群式瀏覽使用頻率最為頻繁，證實社會性標記網站的的確有其應用價值[22]。

從社會性標記建立標籤間的關連最常用的方式就是分群法，Begelman 等人[1]是透過標籤與文件，將標籤間的關聯建立一標籤關係圖，然後利用遞迴執行分割演算法(Partition Algorithm)建立標籤分群；而Yu and Chien [42]則是採用Web-based clustering approach與Graphical approach的方法建立標籤分群。研究結果發現三點：(1)自動分群與手動分群的差距不大；(2)不同使用者分群的結果大不相同；(3)分群後的標籤能幫助使用者更快熟悉其搜尋概念。

Hsieh等人[13]提出的是一個概念階層法(Concept Hierarchy)，是利用 Concept Space Generator(CSG)分析一群標籤(關鍵字)集合(Concept Space)，利用標籤與文件之間的關係，建立標籤階層的架構，將標籤的階層關係建立起來後，則標籤(關鍵字)之間的關係也建立起來，在本研究中，將運用這個觀念來建立標籤間的關係，以下是CSG’s Algorithm的步驟：

(1) 使用tag vector 描述每一個 tag：對每一個 tag tj，用vector Tj代表tag 與

所有resource 的關係。T(i)代表一個 tag 標記了 resource i 多少次，例如： tag “programming”被描述在三個 resource 上分別為 8、3、7 次，則 tag vector 為Tj = (8,3,7)。

(2) 將所有的tag vectors 依照下列順序排序：

1. 一個 tag 被描述在多少個 resource 的數量(resource count) 。

2. 在條件 1 中相同時，則依照 tag 被描述在所有 resource 的總使用次數(total use count)排序。

3. 當條件 1 與條件 2 都相同時，則按照 tag 最早使用的時間排序。

(3) 使用在步驟二排序好的結果建立Concept Hierarchy：

(40)

λ > ∩ | | | | A B A R R R 公式2-1

2. λ 是一個臨界值，代表 tag A 與 tag B 之概念距離(Concept Distance)的下

界，其介於0 到 1 之間，λ 愈接近 1 時，則兩者關係愈強烈，愈靠近 0

時，兩者愈無關係。當tag A 與 tag B 滿足公式 2-1 時，則 tag B 為 tag A 的父節點，概念距離則是利用Consine Similarity 計算其相似度。

三、

中文斷詞的相關研究

中研院的中文斷詞系統(CKIP)已廣泛運用於各個領域中[58]，只要研究涉及中文字的處理多會利用此工具或是與其效能做比較。本研究藉由中文斷詞的可靠性運用於數位典藏網站中。以下將介紹中文斷詞、目前的困境及方法與未知詞的處理。

1. 中文斷詞簡介

詞是最小有意義且可以自由使用的語言單位。任何語言處理的系統都必須先能分辨文本中的詞才能進行進一步的處理，例如機器翻譯、語言分析、語言了解、資訊抽取。因此中文自動斷詞的工作成了語言處理不可或缺的技術。基本上自動斷詞多利用詞典中收錄的詞和文本做比對，找出可能包含的詞，由於在中文裡，當中斷的地方不同時，就會產生不同意義的字詞，稱為「斷詞歧義性」[51]，因此多數的中文斷詞程式多討論如何解決斷詞歧義的問題，而較少討論如何處理詞典中未收錄的詞出現的問題(新詞如何辨認)。中文詞集是一個開放集合，任何一個詞典或方法都無法盡列所有的中文詞。當處理不同領域的文件時，領域相關的特殊詞彙或專有名詞，常常造成參考詞彙的不足而產生錯誤的斷詞。為了解決這個問題，最有效的方法是補充領域詞典並加強詞彙的搜集。因此新的詞彙或關鍵詞的抽取成為斷詞的前置作業。領域相關的詞彙多出現在該領域的文件中而少出現在其它領域，因此抽取關鍵詞時可多利用此特性[45]。

(41)

2. 中文斷詞的困境及方法

中文與英文的不同在於其基本單位並非為每一個「字」，而是「詞」，英文在擷取「詞」時，可以利用空白將之拆解為最小單位，但做中文字的語句分析時每一個「字」並無法代表最小的基本單位。因為當「字」的位置不同時，字義也就不同，並沒有明顯的區隔。 Chen和Ma曾提出的中文詞擷取的困難度在於[3]： 1. 中文字詞沒有空格可以當作詞的邊界。 2. 大部份的中文字與詞都已是語言中最小的單位。 3. 字詞的語法與字義是多元意義且複雜不清。 4. 相同語法型態的字，可能會有不同的語義種類。 5. 沒有一個簡單的規則可以涵蓋各種型態的未知詞。 6. 很難直接從線上來辨識短文的未知詞，因為出現的未知詞頻率太低以致於無法用統計方法來達成。而中文斷詞對各種的應用都有很深的影響，例如：文件檢索、中文輸入、光學字體辨識、語音辨識、機器翻譯等，都必須經過中文斷詞的處理，其準確度的優劣也影響著後續的效能，使得中文斷詞處理變成一種很重要的工作。目前針對中文斷詞處理，已有許多研究，基本上可分為詞庫斷詞法[4]、法則式斷詞法[49]、統計式斷詞法[33]、混合式斷詞法[23]，及遺傳演算法式斷詞法[51]、N-Gram選詞法[58]等方法，以下僅作簡要介紹。詞庫斷詞法是一種常用的斷詞方法，它是以詞庫內收集的語詞與文件進行比對，找到斷出的詞句，此法雖直覺易懂，但其準確度與收集詞彙資料的大小有關。法則式斷詞法是將詞的構造原則運用到詞庫或辭典一起運作，再根據規則排除掉不可能的詞語組合，以達到較好的斷詞效果，代表性的法則式斷詞

(42)

法為「長詞優先法」(Maximum Matching Method or Longest Matching Method)[16][17]。統計式斷詞法是利用語料庫來歸納字詞的方法，主要是依據機率分布來決定斷詞的位置，先計算計算字詞出現的頻率，再利用機率模型反覆求得各詞的機率分布，以找到最佳的字詞組合[33]。統計式斷詞法的優點是執行效率高，但只能處理兩字詞或單字詞，當詞的長度大於二時，效率會大幅降低，且斷詞正確率不高[23]。

N-Gram 選詞法則是將文件以二字詞(2-Gram, Bi-Gram)、三字詞(3-Gram, Tri-Gram)逐字進行分割，若斷出字詞之詞頻高於門檻值，則視為一個獨立字詞。因為以上各種斷詞法皆有其優劣，因此有學者提出綜合的斷詞法，結合兩種以上的段詞法、例如先利用詞庫斷詞，再透過N-Gram 找出剩下的新詞。

3. 未知詞擷取之研究探討

傳統中文斷詞系統碰到最大的瓶頸就是未知詞(辭典中沒有的詞)的擷取，統計一篇文章當中約有3%~5%的詞彙是未知詞，新聞類的文章更是遠高於此。因此未知詞的擷取問題一直是中文語言處理上一個重要且困難的研究課題。前人的研究主要是針對特定類型的詞彙(如人名、地名、組織名)以詞構分析或是語言模型(Language Model)擷取，可獲致不錯的成果。不過仍有許多未知詞的類型更加複雜且多變，例如像「泛藍」、「泛綠」、「拉法葉」、「矽島」、「非典(SARS)」等等。這些詞彙往往扮演了文章中的關鍵角色必須加以擷取辨認。傳統的作法是利用語料庫的統計方法(如 co-occurrence、mutual information、dice、t-score)。其基本假設是認為那些統計值較高的樣式 (pattern)，因為具有較強的統計特性，所以較有可能是一個未知詞。

(43)

本研究所引用的未知詞斷詞技術，為中央研究院詞庫小組所研究，已開放線上操作系統，目前的作法依序可分為以下幾個步驟[48]： 1. 初步斷詞：採取長詞優先演算法[4]，絕大部分的未知詞會被斷成較小的單位，此即未知詞的詞素。 2. 未知詞偵測：將斷出來的詞素重新組合成未知詞，透過未知詞偵測的步驟去判定哪些是詞素，哪些是獨用詞彙[2]，之後再判斷是否能和其相鄰的詞素合併成未知詞。 3. 中國人名、歐美譯名、複合詞擷取：針對一些特定的未知詞，如中國人名、歐美譯名、複合詞作詞構分析及簡單的語言模型將之擷取[3]。

4. 由上而下合併演算法(Bottom-up Merging Algorithm)：剩餘的未知詞交由此演算法做最後的擷取[18]，擷取出來的樣式稱為「未知詞候選者」。 5. 重新斷詞：將「未知詞候選者」搭配原始詞庫再做一次斷詞，即可得到最後結果。

四、

資訊檢索

資訊檢索的目的主要是從大量文件中自動抽取符合使用者需求的特定資訊，所以檢索技術就顯得非常重要，目前已有許多數學模型被應用在處理非結構化自然語言的文字上，如布林模型(Boolean Model)、機率模型(Probabilistic Model)、向量空間模型(Vector Space Model)等，而向量空間模型也成為資訊檢索系統中標準的工具，在面對在大量的文件集時，以關鍵字為擷取的方式仍然是最可行的方法[15]。

1. 關鍵字擷取

每一份文件皆是由詞所組成，文件中的每個詞在該文件中的重要性也會有不同，利用每個詞在該文件的出現頻率可以用來計算該詞在文件中的重要

(44)

性。

一個詞在一文件中出現的次數稱為詞頻(TF, Term Frequency)，文件頻率 (DF, Document Frequency)是指一詞在多少篇文件中出現過，其倒數稱之為反轉文件頻率(IDF, Inverted Document Frequency)。IDF愈高代表該詞集中出現在少數文件裡，表示具有較高的獨特性，且對於這些文件也較具代表性[53]。

字詞權重計算最著名的方法是TFIDF(Term Frequency‧Inverse Document Frequency，詞頻‧反轉文件頻率)[29]，也就是用詞頻及反轉文件頻率來決定權重，就是將一個文件中的詞算出TF及IDF然後相乘，即可得到每個詞相對於該文件的權值，其原理是考量字詞對一篇文件的重要性多與其在該文件中出現之次數成正比，但與其出現在所有文件之次數成反比，公式如下： ) log( i ij ij df N tf w = × 公式2-2 其中，wij：表示字詞i在文件j的權重 tfij：字詞i在文件j中的詞頻 dfi：表示字詞i在整個文集中出現的文件頻率 N：為整個文集的文件量。 如果將tfij作正規化，則公式如下： lj ij ij freq freq tf max = 公式2-3 其中，freqij：字詞i在文件j中的詞類 max freqlj：字詞l是在文件j中出現頻率最多次的字詞

2. 空間向量模型

Salton於 1975 年提出向量空間模型(Vector Space Model)，在傳統資訊檢索領域中是一種最簡單、最具生產力的模型[29]。此模型主要以文件、段落或句子為單位，因此任何查詢語句與文件皆可以向量的形式來表

(45)

) ,..., , , ( i₁ i₂ i₃ it i w w w w D = 公式2-4 ) , ,... , , (wq1 wq2 wq3 wqt Q= 公式2-5 係數 wit與 wqt分別表示在文件及查詢語句中詞彙的權重，當此詞彙不存在時，權重則設為零，表示詞彙權重的方式有許多種，最常見的是透過TFIDF 字詞權重計算公式，則可得出wit、wqt的值。一旦得知每個詞彙在文件與查詢語句上的權重之後，便可以計算它們間的相似度，最常使用計算相似度技術為Cosine Coefficient。其計算相似度如公式 2-6：

∑

= = = × × = t j t j ij qj t j ij qj i w w w w D Q sim 1 1 2 2 1 ) , ( 公式2-6

五、

文件及關鍵字分群

資料分群(Data Clustering)的技術已經廣泛應用於各領域中，例如決策支援 (Decision Making)、機械學習(Machine Learning)、資料探勘(Data Mining)、圖像辨識(Pattern Recognition)、文件檢索等[14]。

分群方法可分為幾種如：分割法(Partitioning Method)、階層法(Hierarchical Method)、密度基礎法(Density-based Method)、格子基礎(Grid-based Method) 等[10]。以下對現有的分群法依序簡介：

1. 分割法(Partition Method)

分割法是一種對比資料，以找出相近資料的技術，最常用的為K 平均法 (K-mean)。假設有 n 個資料物件，欲分割成 k 群且 k<=n (k 代表目標分群個數，必須事先定義)，每一群都必須滿足以下二點：(1)每一群至少須包含一個物件；(2)每個物件只能屬於其中一群。分群的原則是依各物件特徵劃分到相似的群集中，再藉由不斷修正各群集的特徵屬性，來調整群集的範圍。在分群的過程中，須確保兩個條件：(1) 位於相同群內的物件，彼此間相似度高，此處的相似度定義為物件與群中心

(46)

點的歐基里德距離；(2) 位於不同群內的物件，彼此間相似度低，亦即屬於不同群的物件其歐基里德距離愈大愈好。詳細步驟如下： 1. 先從資料物件中任意選取 k 個物件作為群心，並以其為群中心點。 2. 重複以下步驟，直到群的分佈不再改變： (1) 計算所有物件與K 群中心點的距離，再將其物件分配給最近的群中心點。 (2) 重新計算該群的群中心點。而另一種類似的分群法k-medois 是 k-means 的變形，它不使用群心，而

是用所謂的代表物件為中心點(Representative Object，即 Medoid)。每個分群會有一個代表物件，它是該群中最接近中心而真實存在的一個物件。除此之外，分群方法的過程則和k-means 類似。

2. 密度基礎法(Density-based Method)

密度基礎法是利用相鄰區域的觀念來發現群聚之方法，當相鄰區域內資料點的密度到達預先設定的門檻值時，便自動形成一個群聚。密度基礎法較分割法具有去除或控制偏差值的能力。目前較常見的密度基礎法有DBSCAN，OPTICS，DENCLUE。

3. 格子基礎法(Grid-based Method)

格子基礎法的概念是將包含資料點的資料空間，量化為許許多多格子 (Grid Cells)的概念，藉由計算格子內的統計資訊，進行群聚的方法。其每一個格子內皆隱藏許多資訊，因而大量的減少群聚的時間。每一個格子內皆包含其資料的統計資訊(如平均值、標準差、最大值與最小值)，因為在演算的過程無需面對所有資料點，所以能夠大量減少演算的時間，提高此類型群聚演算法效能，尤其擅長大量且高維度資料庫。此分群法的優點就是處理速度很快，通常與資料點的個數無關的，只與有多少個資料空間有關。目前常見的格子基礎法有STING、WaveCluster、

(47)

CLIQUE 演算法。

4. 階層分群法(Hierarchical Method)

階層式分群方法的目的在為資料物件以階層分解的方法建立樹狀結構的分群。在過程中藉由訂定終止條件，當滿足終止條件時即停止程序。判斷停止程序的終止條件通常為達到目標分群數，或是經由合併或分化後，群與群之間的相似度達到門檻值等。階層式分群方法主要可分成凝聚式 (Agglomerative)與分裂式(Divisive)兩種方法： 1. 凝聚式(Agglomerative)：又可稱為由下而上(Bottom-up)的方法，先將資料中的每一個物件自成一分群，計算兩兩群的相似度，當相似度大於既定的臨界值時，則合併兩群為一個較大的群，直到所有的物件都屬於同一個群，或是符合終止條件才停止。 2. 分裂式(Divisive)：一種由上而下(Top-Down)的分群方式，先將所有項目視為同一群，再依照物件間的相似度分割為較小子群，直到每個子群都只有一個物件或是符合終止條件才停止。

於數位典藏建立社會性標記之研究

國立交通大學

資訊管理研究所

碩

士

論

文

於數位典藏建立社會性標記之研究

Social Tagging Construction on Digital Archives

研 究 生：鄧有盈

指導教授：柯皓仁 博士

於數位典藏建立社會性標記之研究

Social Tagging Construction on Digital Archives

研 究 生：鄧有盈 Student：Yu-Ying Teng

指導教授：柯皓仁 Advisor：Hao-Ren Ke

國 立 交 通 大 學

資 訊 管 理 研 究 所

碩 士 論 文

於數位典藏建立社會性標記之研究

【摘要】

Social Tagging Construction on Digital Archives

【ABSTRACT】

誌 謝

目 錄

表 目 錄

圖 目 錄

壹、

緒論

一、

研究背景與動機

二、

研究方法與目的

三、

論文架構

貳、

文獻探討

一、

Web 2.0 相關研究

1. Web 2.0 起源及意義

2. Web 2.0 主要原則

3. Web 2.0 的應用類型

二、

社會性標記 (Social Tagging)

1. 標籤與標記的起源

大眾分類法

2.

(Folksonomy)

3. 大眾分類的優缺點

4. 社會性標記網站的應用

5. 社會性標記與知識管理

6. 標籤之相關研究

三、

中文斷詞的相關研究

1. 中文斷詞簡介

2. 中文斷詞的困境及方法

3. 未知詞擷取之研究探討

四、

資訊檢索

1. 關鍵字擷取

2. 空間向量模型

∑

∑

∑

五、

文件及關鍵字分群

1. 分割法(Partition Method)

2. 密度基礎法(Density-based Method)

3. 格子基礎法(Grid-based Method)

4. 階層分群法(Hierarchical Method)

研究生：鄧有盈

指導教授：柯皓仁博士

研究生：鄧有盈 Student：Yu-Ying Teng

國立交通大學

資訊管理研究所

碩士論文

誌謝

目錄

表目錄

圖目錄