以多樣性與時序性觀點探究使用者在標籤視覺化介面資訊組織歷程之研究

全文

(1)國立臺灣師範大學圖書資訊學研究所碩士學位論文. 指導教授：謝吉隆博士. 以多樣性與時序性觀點探究使用者在標籤視覺化介面資訊組織歷程之研究 Exploring Diversity and Sequential of Information Organization Process on Tag Visualization Interface. 研究生：丘麗嬌撰. 中華民國一 0 三年一月.

(2)

(3) 摘要為了探究使用者如何利用標籤機制以進行資訊組織，本研究採用標籤視覺化方式觀察使用者資訊組織的歷程變化，將其行為視為使用者組織資訊的策略，以台灣北部高級職業學校二年級非資訊相關科別為研究對象。在分析方法上，本研究採用社會網絡分析來探討使用者標籤網絡的結構性，再引用多樣性的觀點來觀察標籤被重複使用的次數分布，進一步則使用時序性的序列分析指標探討使用者對重複使用標籤或構思新標籤的偏好，最後則根據使用者的標籤網絡探討使用者在不同視覺化介面上組織資訊的策略差異。研究結果顯示，透過以網絡方法視覺化標籤實驗的結果，可初步觀察出使用者之間組織資訊的策略存在差異。就介面觀察的結果，本研究發現有部分使用者使用的標籤種類較少，就多樣性分析的結果發現有部分使用者會大量重複出現過的標籤，進一步使用時序性探討使用者使用標籤行為轉換與偏好。使用者在相異介面組織資訊的特色差異如下：（1）標籤網絡介面的使用者會重複使用部分標籤來連接最常出現與最少出現的標籤；在組織過程中則較容易交替反覆、優先使用新的標籤來組織資訊。（2）標籤雲介面的使用者在這 30 篇網頁組織用到的標籤總個數與標籤種類數相較於其它兩個介面來說數量較少，且會透過少數常被使用的關鍵字，讓標籤之間語意關係愈密切結合；此介面的使用者較容易交替反覆、優先使用已經出現過的標籤來組織資訊。（3）在標籤列表介面上，組織過程中容易讓使用者組織的策略較具有多樣性。（4）三種介面的使用者標籤網絡在度中心勢與舊標籤優先使用權重值上達統計顯著性，代表三種介面的視覺化呈現的差異會讓使用者安排重複出現的標籤上有顯著差異。. 關鍵詞：資訊組織、資訊視覺化、網絡分析、多樣性、時序分析. i.

(4) Abstract This study is to discuss that tagging on the visualization interface as a personal information organization strategy, and tagging behaviors exists the difference on different visualization interfaces. To understand the difference in how tags are used to organize resources in different tagging visualization interface, we designed an information organization scenario with 2nd grader of non-information science classes in Vocational High School. We used it to compare two concepts: diversity and sequence. The study has observed the different organization strategies existed in the different tagging visualization interface, and we found information organization as a dynamic behavior, so we can divided user’s tag network into five categories by diversity and sequence indicators. Primary results exhibited difference on the three tagging visualization interface： (1) In the tag network visualization interface, users like to use some tags to interlink the most common tags and the fewest appear tags; in the process of organization, users prefer to use new tags and use these new tags alternately. (2) In the tag cloud visualization interface, users like to use fewer tags to organize the information ; in the process of organization, users prefer to use old tags and use these old tags alternately. (3) In the tag list visualization interface, user’s information organization strategy is more diverse then other visualization interfaces. (4) The degree centralization and old tag preference indicator were significantly in the three visualization interface.. Keywords: Information organization, Information visualization, Network analysis, Diversity, Sequential analysis.. ii.

(5) 目次摘要………………………………………………………………………...…..………i Abstract………………………………………………………………………...…..….ii 目次………………………………………………………………………...…..……..iii 表次…………………………………………………………………..……..……..…..v 圖次……………………………………………………………..……………..…......vii 第一章緒論………………………………………………………………….……… 1 第一節研究背景與動機…………………………………………………….…….1 第二節研究目的與問題…………………………………………………….…….4 第二章文獻探討……………………………………………………………………..6 第一節資訊組織與標籤相關研究…………………………………….….….…...6 第二節標籤視覺化介面相關研究……………………………………..………..11 第三節採用 h-index 觀點之相關研究………………………………..…………15 第四節採用社會網絡分析觀點之相關研究………………………………..…..17 第五節採用生物多樣性觀點之相關研究……………………………………....18 第六節採用序列分析與優先聯結觀點之相關研究…………………………....20 第三章研究方法…………………………………………………………………....24 第一節研究流程…………………………………………..……………………..24 第二節研究架構…………………………………………………………………25 第三節研究方法…………………………………………………………………26 第四節研究對象與研究素材……………………………………………………26 第五節研究工具…………………………………………………………………28. iii.

(6) 第六節研究實施…………………………………………………………………30 第七節資料前處理……….……………………………………………………...31 第四章研究結果與分析……………………………………………………………32 第一節標籤結果使用分析………………………………………………………32 第二節使用者使用標籤之結構性探討…………………………………………38 第三節使用者使用標籤之多樣性探討…………………………………………42 第四節使用者使用標籤之時序性探討…………………………………………45 第五節使用者背景與三種視覺化介面之關係探討.………………..…….……52 第六節小結………………………………………………………………………55 第五章結論…………………………………………………………………………58 第一節結論………………………………………………………………………58 第二節研究貢獻…………………………………………………………………63 第三節未來研究建議……………………………………………………………64 參考文獻 ……………………………………………………………………………65 附錄一 30 篇網頁之內容………………………………...…………………………73 附錄二問卷…………………………………………………………………………88 附錄三三種視覺化介面之使用者標籤網絡圖……………………………………91 附錄四標籤網絡介面使用者各指標資料…………………..…...…………...…..123 附錄五標籤雲介面使用者各指標資料…………………..…...……………...…..125 附錄六標籤列表介面使用者各指標資料…………………..…...…………...…..127. iv.

(7) 表次表 2-1 Simpson’s index 舉例………….…………...……………………….……… 20 表 4-1 每位使用者在視覺化介面上針對 30 篇網頁使用的標籤總個數整理…....33 表 4-2 每位使用者在視覺化介面上針對 30 篇網頁使用的相異標籤個數整理....33 表 4-3 標籤網絡介面使用頻率相關程度……………………………………..……34 表 4-4 標籤雲介面使用頻率相關程度…………………………...………..……….35 表 4-5 標籤列表介面使用頻率相關程度………………………………...……..….35 表 4-6 三種視覺化介面其度中心勢資料……………………………………..……40 表 4-7 不同視覺化介面在度中心勢上之單因子變異數分析摘要表………..……40 表 4-8 三種視覺化介面其群聚係數資料……………………..……………………41 表 4-9 不同視覺化介面在群聚係數上之單因子變異數分析摘要表……..………41 表 4-10 三種視覺化介面之多樣性指標資料……………………………………….43 表 4-11 不同視覺化介面在多樣性性指標上之單因子變異數分析摘要表……....45 表 4-12-1 不同介面在新標籤優先使用權重上之單因子變異數分析摘要表….....51 表 4-12-2 不同介面在舊標籤優先使用權重上之單因子變異數分析摘要表….....51 表 4-13-1 計概成績與各種指標之相關係數關係（標籤網絡介面）……………52 表 4-13-2 計概成績與各種指標之相關係數關係（標籤雲介面）………………53 表 4-13-3 計概成績與各種指標之相關係數關係（標籤列表介面）……………53 表 4-14 使用者計概成績在不同視覺化介面上之單因子變異數分析摘要表……53 表 4-15-1 問卷答對題數與各種指標之相關係數關係（標籤網絡介面）………54 表 4-15-2 問卷答對題數與各種指標之相關係數關係（標籤雲介面）…………54 表 4-15-3 問卷答對題數與各種指標之相關係數關係（標籤網絡介面）………55 表 4-16 使用者答對題數在不同視覺化介面上之單因子變異數分析摘要表……55 v.

(8) 表 5-1 使用者標籤網絡分類特性分析…….…….……..…….…….……..………...62. vi.

(9) 圖次圖 2-1 作用力△ 𝜄……….……………………………….………...……...………… 13 圖 2-2 作用力△ 𝑥與△ 𝑦…………….…………………………….……...………….13 圖 2-3 使用者 A 使用標籤之分布情形……………………………………..………...16 圖 3-1 研究架構圖…………………………………………………………..………26 圖 3-2 登入主畫面之網站截圖…………………………………….…….…………29 圖 3-3 開始操作之網站截圖…………………………………..…..………………..29 圖 3-4 為下一篇文章標記標籤之網站截圖………………………………….…….30 圖 3-5 研究實施圖……………………………….…..……………………………...31 圖 4-1 高頻率與出現最少次的標籤個數相關係數：標籤網絡介面…..……..……...36 圖 4-2 高頻率與出現最少次的標籤個數相關係數：標籤雲介面…..……...…….....36 圖 4-3 高頻率與出現最少次的標籤個數相關係數：標籤列表介面…..…………....37 圖 4-4 中頻率與出現最少次的標籤個數相關係數：標籤網絡介面…..…………...37 圖 4-5 中頻率與出現最少次的標籤個數相關係數：標籤雲介面…..……………....37 圖 4-6 中頻率與出現最少次的標籤個數相關係數：標籤列表介面…..…………...38 圖 4-7…..……………………………...…..……………………………...…...….…..39 圖 4-8…..……………………………...…..…………………………….....................39 圖 4-9 標籤雲介面之 8 號使用者..………………...……...…..…………………...…42 圖 4-10 標籤雲介面之 22 號使用者…..……………………………...…..…………….42 圖 4-11 標籤雲介面 15 號使用者…...…………………………...…..…….……..……43 圖 4-12 標籤網絡介面 17 號使用者……..…………….………………………..……….....43 圖 4-13 標籤雲介面 6 號使用者………………………………………………....................44 vii.

(10) 圖 4-14 標籤雲介面 17 號使用者……………………………………………………..........44 圖 4-15 標籤列表介面 11 號使用者………………………………………..……................44 圖 4-16 標籤列表介面 29 號使用者………………………….……………….……............44 圖 4-17 使用者在三種視覺化介面使用新標籤走勢圖（n=93，所有使用者）………....46 圖 4-18 標籤網絡介面 7 號使用者之時序圖..…………........................…………..............46 圖 4-19 標籤網絡介面 6 號使用者之時序圖圖…..……..…..........................………..........47 圖 4-20 標籤列表介面 30 號使用者之時序圖….………..........................……….............. 47 圖 4-21 標籤雲介面 11 號使用者之時序圖…....…………..........................…………........47 圖 4-22 標籤網絡介面 7 號使用者之事件轉換圖…..………………………………....…..48 圖 4-23 標籤網絡介面 6 號使用者之事件轉換圖………………………………………….49 圖 4-24 標籤列表介面 30 號使用者之事件轉換圖………………………………………...49 圖 4-25 標籤雲介面 11 號使用者之事件轉換圖……………………………….................49. viii.

(11) 第一章緒論資訊組織（Information Organization）的目的為幫助使用者管理各種資訊，進而讓使用者可以快速地找到所需的資訊。隨著資訊科技與網路崛起，資訊組織的方法也有所改變，出現了有別於傳統階層式分類的標籤機制，許多資訊組織的研究便開始著墨在標籤的應用與個人資訊組織策略。故本研究旨在探討使用者在不同的標籤視覺化介面上組織資訊的策略，進而觀察不同視覺化介面上組織資訊策略的多樣性與時序性差異。本章內容共分為兩節，第一節為闡述研究背景與動機，第二節則說明本研究之研究目的與問題。. 第一節. 研究背景與動機. 面對網路的崛起與泡沫，Web2.0 概念於西元 2001 年產生，此概念倡導的是由使用者產生資訊。因應這樣的趨勢，使用者接收、處理的資訊量也日益漸增，故網路上的搜尋引擎、註記軟體、資訊組織工具（i.e. IE 瀏覽器上「我的最愛」、社會性分類標籤服務等）愈來愈多，它們在使用者組織、搜尋網路上資訊扮演著重要角色。例如透過搜尋引擎來找尋資訊，或透過「我的最愛」將網頁上的資訊依照使用者的用途、喜好並以資料夾方式加以儲存以利下次使用。在上述眾多的工具中，各種社會網路平台（i.e. Del.icio.us、Flickr、CiteUlike 等）提供社會性標籤（social tagging）的功能讓使用者將各種資訊組織與管理，社會性標籤最早緣起 2003 年的網路書籤 Del.icio.us、圖片分享工具 Flickr，它們是一種開放性（open-ended）且易於擴充（expansible）的資訊組織工具，可讓使用者在 Web2.0 環境中對於網路的各種資訊進行搜尋、瀏覽、組織的重要工具（Golder & Huberman, 2006）。當使用者關注一項資訊並要對這些資訊搜尋、瀏覽及組織時，腦海中會產生各種適合描述此資訊的語意概念，即描述這些資訊的關鍵字，這些關鍵字即標籤（Tag），被用來描述網路上資訊的特徵、對這些資訊的主觀概念及被用來當作組織資訊的類別使用，所以不同的使用者對於同樣的資 1.

(12) 訊會根據自身的經驗進而創造出不同的標籤組合（Trant, 2009）；吳筱玫（2009）提到標籤會因為使用者的經驗變化，故作者被賦予新增、修改、刪除標籤的權力； Smith（2008）認為標籤便是詮釋資料（metadata）的概念，被用來描述這些資訊，甚至影響到未來的資訊組織發展，產生別於傳統資訊組織的標籤分類架構。 Tapscott 與 Williams（2006）談到標籤是一種「有機的分類」，隨著時間點不同，這些標籤使用趨勢會有著不同的變化，標籤在使用上不需要遵守階層式呈現的樹狀架構，一切照使用者的想法去使用，也不受時間、地點與使用者對資訊組織的專業程度控制，因此每個人都可以有專屬自己的一套自我分類（Mathes, 2004），所以在使用者標記標籤的過程中即形成一種個人的「資訊組織策略」；吳筱玫與周芷伊（2009）則談到使用者藉由標籤可以組織資訊，組織資訊目的之一是為了讓資訊有序化，故不同的組織方式會產生不同的秩序空間，幫助使用者快速又精確地找到所需的資訊，以使用者角度來談，不同秩序空間的產生即是組織資訊策略的差異。舉例來說：有些使用者在「Inside 硬塞的網路趨勢」網站上看到喜歡的網頁要收藏在網路書籤 Del.icio.us 時，會先對這篇網頁標記「新聞」、「科技」、「Android 應用」、「台灣」、「網路觀察」、「行動趨勢」等關鍵字，等要收藏另一篇網頁時，有些使用者會優先使用重複的標籤，而這些重複的標籤對於此使用者的意義來說是屬於比較一般、普遍的類別，他們會使用幾種這類的標籤來組織，方便日後搜尋時可以透過這些重複的標籤來找出組織過的資訊，這種類型的使用者組織策略就較為多樣；也有些使用者在組織的過程中僅根據網頁內容標記較為差異化、特殊的標籤，每個標籤可能都只被用過一兩次，組織策略上就不會太多樣。標籤的組織是會隨著時間改變而有所變化，例如有些使用者雖然很常使用已經出現過的標籤，可是在面對新資訊時還是會優先標記新的標籤，也有些使用者在組織網頁時會交替、優先使用已經出現過的標籤，優先使用已經出現過的標籤。因此，在資訊組織的策略上，本研究欲以使用者在標籤歷程中的行為變化來. 2.

(13) 探討使用者使用標籤的資訊組織行為差異。本研究認為，標籤之結果（例如用字、種類、使用次數）雖與使用者對這些資訊的理解程度與背景相關（Guy & Tokin, 2006 ; kipp, 2011a），但也須考慮使用者面對資訊時所使用的工具與組織歷程影響。依照以上的觀點，若只從標籤的結果著手並無法解釋這些現象的差異性，因此在評估資訊組織情形時，不應單以標籤結果來評論，也須觀察使用者的標籤組織歷程。為具體描述上述現象，本研究發現重複使用標籤的種類與個數恰與多樣性（diversity）談到的物種豐富度（richness）與均勻度（eveness）不謀而合；經由多樣性描述的標籤被重複性，進一步去探討使用者如何安排這些被重複使用的標籤與構思新標籤的出現順序，描述使用者使用標籤的行為轉換則可使用序列分析（sequential analysis）來探討，最後則根據標籤優先使用的順序提出一指標，用來衡量使用者對於標籤使用的優先偏好之權重。為觀察使用者組織資訊的策略，可將使用者使用標籤的過程視覺化，藉由視覺化的呈現，可讓使用者看到自己使用標籤組織資訊的過程與結果。使用者使用的標籤其結果隱含著一個網絡狀的結構，目的是把資訊客體中的關聯性表徵出來，以方便理解這些資訊，所以各種組織資訊的方法都會建立在表徵的基礎上（Cattuto, Barrata, Baldassarri, Schehr, & Loreto, 2009）。鄭惠珍與陳雪華（2004）則針對各種領域提到的表徵方法進行整理探討，其中語意記憶模型的理論和標籤視覺化成網絡的概念相似，此模型談到的各種資訊表徵方法皆與標籤網絡的結構與應用相關：例如 Collins 與 Quillian（1969）談到的網狀模型理論則是描述組織資訊的結構是一種語意網絡（Semantic Network），用來圖解資訊關聯的表徵法，以本研究來看即是藉由標籤與標籤間的語意關聯強弱程度來組織，若概念間的連結性愈高愈容易被使用者檢索；在 Craik 與 Lockhar（1972）裡則提到當某資訊愈被頻繁使用時，此資訊愈被容易檢索到，這意味著在標籤視覺化介面設計上，愈常被使用的標籤應該要設計成容易被使用者優先使用。綜上述理論，在常見的幾個標籤視覺化介面中，標籤列表介面上以標籤被應用次數多寡排序標籤的使用. 3.

(14) 狀況；標籤雲介面則以字體大小表現每個標籤出現的次數多寡；在標籤網絡介面上則以節點大小表示差異之。所以由資訊表徵應用在標籤視覺化上可看作是使用者對這些資訊的分類架構、組織策略，而不同的視覺化介面也會引導使用者有不同的組織資訊策略。基於上述研究背景，激發本研究動機，本研究擬採用標籤視覺化介面，讓使用者可以看到自己利用標籤組織資訊的過程，並將使用者的標籤組織歷程視為資訊組織策略，進而探討在不同的視覺化介面上之差異。分析上先以 h-index 觀察標籤結果之分布，並以社會網絡分析來探討使用者標籤網絡的結構性；再使用多樣性的觀點來觀察使用者在組織歷程之標籤被重複使用性，進一步則以序列分析探討使用者標記行為之轉換，並提出一權重指標，用來衡量使用者對於標籤的優先使用程度；最後則探討使用者在不同視覺化介面上組織資訊的行為差異並將此差異分類。. 第二節. 研究目的與問題. 本研究以視覺化的方式觀察使用者使用標籤的資訊組織歷程，並將使用者的標籤組織歷程視為資訊組織策略，進而探討在不同的視覺化介面上之差異。分析上先以 h-index、社會網絡分析觀察標籤結果之分布與結構性；再使用多樣性來觀察標籤組織歷程之重複使用性，進一步則以序列分析與提出一權重指標來探討使用者標記行為與標籤優先使用程度；最後則探討使用者在不同視覺化介面上組織資訊的行為差異並將此差異予以分類。因此，根據上述研究背景與動機提出下列研究目的：一、瞭解使用者在不同視覺化介面上使用標籤的種類與個數分布。二、瞭解使用者的不同視覺化介面上其組織資訊的標籤網絡結構差異性。三、瞭解使用者在不同視覺化介面上其組織資訊的策略多樣性差異。四、瞭解使用者在不同視覺化介面上其組織資訊的時序性差異。五、探討多樣性指標與時序性指標在標籤網絡上的分類情形。 4.

(15) 根據上述研究目的提出下列研究問題：一、在不同的標籤視覺化介面上，每位使用者使用的標籤結果其差異性為何？例如：某標籤視覺化介面的使用者較常重複使用已經出現的標籤。二、在不同的標籤視覺化介面上，使用者使用的標籤網絡其結構性差異為何？例如：使用某標籤視覺化介面的使用者較容易讓標籤作概念性的聯結。三、因應上述的網絡結構差異，在不同的標籤視覺化介面上，使用者在資訊組織的過程中，所產生的組織策略多樣性為何？例如：使用某標籤視覺化介面會引導使用者重複地使用某些舊標籤或者廣泛地使用新標籤。四、因組織策略的多樣性，進一步去觀察使用者在不同介面上使用標籤的行為是如何轉變？例如：使用某標籤視覺化介面容易引導使用者交替使用出現過的標籤或者會優先使用出現過的標籤來描述資訊。五、根據標籤網絡，如何使用多樣性指標與時序性指標將使用者的個人標籤網絡圖分類？. 5.

(16) 第二章文獻探討由於本研究為探討使用者如何利用標籤機制以進行資訊組織，故以視覺化的方式來觀察使用者使用標籤組織網頁的資訊組織歷程，並將使用者的標籤組織歷程與結果視為資訊組織策略，進而探討在不同的視覺化介面上之差異。故第一節先探討資訊組織與標籤的過去相關研究；第二節則針對標籤視覺化介面的技術與使用性進行探討；第三節探討過去研究如何討論標籤分布的評估，並針對 h-index 作探討；第四節針對標籤網絡結構性作社會網絡分析指標相關探討；第五節探討多樣性指標的應用；第六節則闡述時序性指標的應用與其物理意義，並提出一指標來衡量標籤優先使用之行為。. 第一節資訊組織與標籤相關研究資訊組織一詞，在泰勒（Taylor, 1999）研究中定義為人類所有資訊紀錄的組織，各種的資訊紀錄有的是屬於文字，也有的是屬於影音、圖像資料或是各種的網路資源及不同的資訊物件，好的資訊組織能夠提供使用者及時、精確並且具相關性的書目資訊。其研究場域可分為圖書館與網路兩種。資訊組織研究在圖書館裡探討的是書目學、編目規則（cataloging rules）、權威控制（authority control）、索引典（thesaurus control）等學術理論與卡片目錄（card catalog）、線上公用目錄（Online Public access Catalog, OPAC）等實務系統是如何讓使用者去發現、選擇與獲取資訊（陳和琴、張慧銖、江綉瑛、陳昭珍，2009）。另一方面，隨著 Web2.0 概念的興起，此概念強調的是網路上的內容因為使用者的參與而產生，並藉由使用者之間的分享達到社交性目的（O’Reilly, 2005）。因此，使用者想要獲得的資訊其管道變得如此多元，所以使用者找尋資訊的方式已不完全仰賴圖書館，開始會以關鍵字（keyword）在網路上找尋資訊，並把這樣的關鍵字當成是個人資訊管理、分享資訊的工具（Bearman & Trant, 2005），而此關鍵字即所謂的標籤（O’Reilly, 2005）。標籤最早是出現在 2003 年網路書籤 Del.icio.us 及 2004 年網路相簿 Flickr，這些網站受到極大的關注，並作為各種資訊的搜尋基礎（O’Reilly, 6.

(17) 2005；吳筱玫，2009），因為他們開發了所謂的「俗民分類」（folksonomy）的概念，與專家分類形成對比。關於俗民分類的定義，Mathes（2004）指出，俗民分類不是來自專業人士和內容創造者，而來自擁有資訊內容的個人；O’Reilly（2005）指出俗民分類的概念是讓使用者自由選擇關鍵字，以使用者的直覺以及極具創意的方式自行分類，可以讓大腦本身進行多面向的重疊關聯，而不是毫無彈性由上而下的分類方式。因此就標籤和資訊組織關係而言，標籤被視為一種再發現（rediscovery）的過程（Golder & Huberman, 2006），也是一種由使用者所提供的詮釋資料，被用來描述該筆資訊的資訊（Smith, 2008），這樣的分類方式有別於古典分類法，使用者在權威控制上毋須具有專業知識且使用時也毋須遵循傳統的分類系統，即產生別於傳統資訊組織的分類學標籤架構，影響到未來的資訊組織。過去探討標籤的研究大致上可分為四類：比較階層式架構與標籤之使用性差異、使用者背景差異對標籤結果之使用性差異；標籤之類型分布與品質；將標籤視覺化並作標籤之間的關聯性研究；標籤相關視覺化技術（詳見第二章第二節）。由於標籤的架構和功能與傳統階層式有異，故針對這兩種架構之間的差異性有以下探討：Shirky（2005a）與 Shirky（2005b）認為傳統的分類法不適合用在電子資源上，只有在此資訊有非常明確的正規分類類別，且使用者在資訊組織的背景上有受過專業訓練時，傳統分類法會比較好操作；相反地，電子資源上的語料庫龐大，每個使用者對於資訊組織的專業背景不同，標籤機制的多面向會較符合使用者需求。Gao（2011）則指出不同年紀與教育程度的使用者對於個人資訊組織有不同的策略，資訊組織的目的就是讓使用者事後可以快速地檢索到所需的資源，但若使用者的標籤分類和檢索歷程無法達到一致性時，則標籤式系統會比資料夾系統更難檢索到原本組織的資源，也就是使用者在檢索過程中容易增加心智負荷。Guy 與 Tokin（2006）指出在一般狀況下，使用者可以自由地根據當下的情境或認知來標記標籤，並不完全是受到現行知識的框架而去描述這些資訊，所以也有在標籤使用上出現階層式架構的概念。Gao（2011）在此研究中也指出，. 7.

(18) 使用者標記標籤時，有時候也會隱含著階層式分類架構的概念而使用「上位詞」的組織策略；Merholz（2004）點出標籤架構的缺點，且再次強調分類與控制詞彙在資訊組織上的重要性，並肯定階層性在不模糊（disambiguation）上的價值。探討標籤之類型與品質的相關研究：Golder 與 Huberman（2006）分析網路書籤 Del.icio.us 標籤特性及 Sen 等人（2006）分析電影推薦系統 MovieLen 標籤特性後，發現使用者使用標籤的類型相當多元，主要可依標記的目的分為事實型（factual）、主觀型（subjective）、個人型（personal）；根據在 Arolas 與 Ladrónde-Guevar（2012）有些標籤是屬於隱性型態（implicit）；Guy 與 Tokin（2006）則指出在 Del.icio.us 及 Flickr 網站上，許多使用者會使用複數型態（例如：apples）與複合字型態（例如：April11）的標籤；Kipp（2008）則指出非主題式（Non-subject）標籤，例如時間型態、任務型態、情緒相關的標籤很常出現在社群網站上；Kipp （2011b）則以索引典為基礎，藉以分析社會標記的使用類別及其關鍵字間的索引典結構關係；Kipp 與 Campbell（2006）以計量的方式分析標籤使用頻率與排序名次（rank）的比例符合冪次法則（Power Law），也就是會有少數的標籤會被重複使用的趨勢；除這些熱門標籤外，也存在著許多低使用頻率的標籤，即長尾現象（Long Tail）（Wal, 2005 ; Anderson, 2006）。由上述兩種探討可知有些使用者使用標籤時會隱含著階層式的（上位詞）概念，且由長尾現象與冪次法則的研究可發現標籤的被重複使用性概念與階層式不謀而合，故也有研究欲探討那些被重複使用的標籤之間的關聯性為何。Cattuto、 Barrata、Baldassarri、Schehr 與 Loreto（2009）提到標籤之間隱含著一個網絡狀的結構，可將標籤之間的語意關係表徵出來中，以方便理解這些資訊，故不同的使用者其標籤網絡會因對資訊的認知或組織策略的不同而產生差異。使用者、資訊和標籤之間的對應形成一個三分（tri-partite）關係，也就是自組織現象的產物，而這樣的關係是一個相互關聯的非線性網絡結構，顯著地影響資訊的組織拓撲結構和關係網絡，使得訊息在組織上呈現複雜地網狀結構（Pollner, Palla, & Vicsek,. 8.

(19) 2010）。標籤形成的網絡屬於複雜網絡（complexity network）的一種形式（Pollner et al., 2010）。複雜網絡並無精確的定義，可以看成是大量真實複雜系統的拓樸抽象，並借助於數學圖論和統計物理的一些方法，用來研究網絡的演化機制、演化規律和整體行為，它既不是規則網絡，也不是隨機網絡，是一個具有和這兩者截然不同統計特徵的網絡，例如冪次定律、高群聚係數、社團結構（community structure）、階層結構（hierarchy structure）。當網絡中有節點加入或刪除時，會使網絡中節點聯結依其關聯性或相似性而有斷裂、相連現象，這樣的過程會使節點的度分布發生變化，朝向有序方向發展，這些特性可說是系統自組織演化的結果（Dorogovtsev & Mendes, 2003）。複雜網絡相關研究中，比較經典的網絡模型有小世界網絡（small world network）、無尺度網絡（scale-free network），前者的特性是路徑長度短與高群聚係數，後者的特性則是度分布的冪次定律遞減（Newman, 1939; Albert & Baraba´si, 2002），這些理論在後續觀察標籤網絡的結構、多樣性與時序性的指標衡量上具有相當程度地啟發。更進一步地除去研究者本身，將使用者使用的標籤和所標記的資訊內容（i.e. 網頁）化成二元（bipartite）結構，由此二元結構可以觀察到一篇資訊有許多標籤用來描述它且也發現許多標籤會有重複被使用的情形（Marlow, Naaman, Boymd, & Davis, 2006; Mika, 2007）。接著由「共現性（co-occurrence）」可將此二元結構分成兩個網絡，分別為標籤網絡與資訊內容（i.e.網頁）網絡（Shen & Wu, 2005; Schmitz et al., 2007）。資訊內容間的關係被定義為資訊內容間共有的標籤數，即「資訊內容網絡」；而「標籤網絡」則是使用者用三個標籤來描述此資訊內容時，代表這三個標籤彼此之間存在著某種程度上的關聯性，當網絡圖裡節點愈大代表被使用的頻率愈大，標籤之間的聯結愈粗代表標籤之間的關聯度愈高。故在過去的研究中，標籤的共現性與標籤網絡的性質也有不少相關研究： Kipp 與 Campbell（2006）以多項度量尺法（MultiDimensional Scaling, MDS）觀察標籤之間的共現性；Begelman、keller 與 Smadja（2006）則以群集分析探討標籤之間的. 9.

(20) 共現性；Chen、Tseng、Ke 與 Sun（2011）則以時間序列分析來將社會性標籤分群。網絡結構評估上則著重在分析標籤網絡是否為小世界網絡並以度分配（Shen & Wu, 2005）、群聚係數（Shen & Wu, 2005; Schmitz et al., 2007）、平均路徑（Shen & Wu, 2005）、聯結性（Schmitz et al., 2007）等網絡指標來分析之；Heymann 與 Garcia-Molina（2006）分析了 Del.icio.us 及 CiteUlike 兩種社會性標記網站的網絡視覺化成階層式的標籤網絡，並且也特別提出一個標籤的中心度（centrality）在階層化過程中的重要性；Pollner 等人（2010）使用群聚係數來觀察標籤的自我相似（self-similarity）與標籤因為階層結構而形成的子圖結構（subgraph）變化情形，並指出標籤網絡裡的階層結構在資訊搜尋是一新研究趨勢。也有以時間為單位藉由時序預測模型（time-series forecast）觀察社會性標籤網站 CiteULike 上使用者使用標籤的情形（Farooq et al., 2007）。上述標籤之類型、品質與標籤關聯性的研究皆是針對使用者標籤結果進行探討，但在研究方法上因關注議題不同而有限制：第一，長尾現象關心的是標籤的極高使用率（前 20%）與極低使用率（Kipp & Campbell, 2006），但是在標籤網絡中，介於極高與極低中間的這些使用頻率為中等的標籤其重要性在於如何將使用率前 20%的標籤與極低使用率的標籤透過語意概念連接在一起。第二，結構性探討上，群集分析與 MDS 僅描述哪些標籤會在一群而並非以結構性指標來描述標籤；標籤在時間序列上變化的分群也僅用分群演算法來描述在某個時間點上被歸為同類的標籤其關聯性，標籤關聯度的計算是根據關鍵字的權重，例如想蒐集「悲慘世界」這部電影的影評，但擷取到的某些網頁中可能包含了其它電影的資訊（如電影時刻表裡同期上映的電影名稱），故在蒐集資料時，這些電影時刻表中出現的電影名稱也會被用來表示為代表此網頁的內容；標籤網絡非傳播議題，故不適合使用平均路徑、聯結性的指標來評估標籤是否具有小世界現象。第三，雖藉由時序預測模型（time-series forecast）來分析標籤的使用模式並預測將來的走勢，但僅以資料的峰值來作描述性統計。. 10.

(21) 綜觀過去的研究，大多是針對標籤的結果來進行計量性與結構性的探討，並無針對標籤的歷程進行討論，但是 Tapscott 與 Williams（2006）談到標籤是一種「有機的分類」，隨著時間點不同，這些標籤使用趨勢會有著不同的變化；由資訊表徵應用在標籤視覺化上可看作是使用者對這些資訊的分類架構、組織策略，而不同的視覺化介面也會引導使用者有不同的組織資訊策略。而本研究所關注的資訊組織問題主要是探討使用者在不同視覺化介面上使用標籤的過程中其策略多樣性的變化，亦即使用者使用標籤上喜歡用大量的新標籤還是會重複使用已經出現過的舊標籤，並瞭解使用者如何安排這些標籤出現順序以及如何交替使用，所以除了標籤的結果須探討外，標籤組織的歷程亦是一重要的研究觀點。因此，本研究擬採用標籤視覺化介面，讓使用者使用標籤的過程中可以看到自己組織過的標籤，並將其視覺化後的標籤網絡視為使用者個人資訊組織的結果，使用社會網絡指標來分析之，再分別以多樣性的 Simpson’s index 指標與序列分析來探討使用者在資訊組織歷程中之標籤被重複使用性與交替使用標籤的情形，最後提出一權重值指標，用來衡量使用者在組織過程中對標籤的優先使用程度。. 第二節標籤視覺化介面相關研究由於本研究採用視覺化的方式將標籤機制與網絡視覺化結合，由第一章第一節談到的語意模型理論可知資訊表徵應用在標籤視覺化上可看作是使用者對這些資訊的分類架構、組織策略，而不同的視覺化介面也會引導使用者有不同的組織資訊策略，故在此選取三種相異的視覺化介面來比較使用者的使用性。在視覺化介面的探討上，主要為技術方面探討與使用性探討：技術方面的研究來看，標籤雲與標籤網絡這兩種形式為動態視覺化介面呈現，以標籤之間的相似程度為呈現依據，也就是當使用者標記一個新標籤或者刪除一個舊標籤後，其它的標籤會因為相似度的改變而影響標籤字體大小與其佈局（layout）。針對此種介面的背景技術，主要分為三個部分，第一部分探討的是標籤字體大小，第二部分探討標籤相似度，第三部分探討標籤的佈局： 11.

(22) 一、標籤字體大小變化本研究的系統在這部分使用標籤選擇頻率來當成是標籤字體大小變化的依據，當一個標籤的字體大小變化愈顯著，代表此標籤愈常被使用者所使用。這部分計算方式採 Shannon（1948）從熱力學領域帶進資訊理論的熵（entropy），也就是對於離散的機率分布 P，它的熵𝐻(𝑋)的權重決定其顯著性，其定義如下： 𝐻(𝑋) = − ∑𝑥∈𝑋 𝑃(𝑥) 𝑙𝑜𝑔 𝑃(𝑥). （2.1）. 其中，X 為所有標籤{𝑋1 … 𝑋𝑛 }的集合，𝑃(𝑥)為標籤 X 出現在此樣本空間的機率， 𝐻(𝑋)是{𝑋1 … 𝑋𝑛 }的連續函數（Manning, Raghavan, & Schütze, 2009）。在標籤系統裡，標籤被選取的頻率會影響所有標籤的權重值，所以必須考慮到相互影響的因素（Cui, Wu, Liu, Wei, & Zhou, 2010）。針對兩個隨機變數標籤 X、標籤 Y，假如其機率分布為𝑃(𝑥)與𝑃(𝑦)，而其聯合機率分布為𝑃(𝑥, 𝑦)，則標籤 X 和標籤 Y 的互資訊其定義如下： 𝐻(𝑋: 𝑌) = − ∑ ∑ 𝑃(𝑥, 𝑦) 𝑙𝑜𝑔 𝑥∈𝑋 𝑦∈𝑌. 𝑃(𝑥, 𝑦) 𝑃(𝑥)𝑃(𝑦). （2.2）. 當標籤 X 和標籤 Y 相互獨立時，𝑃(𝑥, 𝑦)= 𝑃(𝑥)𝑃(𝑦)，所以𝐻(𝑋: 𝑌)的值會趨近於 0，代表這兩個標籤較少機會同時被使用在同一份文件上。. 二、標籤相似性共現性的基礎是建立在一群語意空間內，這種設計意味著相似度較高的詞彙（標籤）在介面佈局上會彼此接近，也就是語意（semantic）概念相近的標籤會較為靠近（Burgess & Lund, l995a; Burgess & Lund, l995b），所以如何計算標籤之間的相似程度是一重要步驟。在計算相似度相關文獻當中，一系列物件在同一向量空間的表示被稱為向量空間模型，它是資訊檢索的基礎，探討的就是如何將物 ⃗ （X）和標籤 Y 向件依其相似度進行分類及分群，其常規方法是求標籤 X 向量𝑉 ⃗ （Y）的餘弦相似度（cosine similarity），其定義如下：量𝑉 12.

(23) cos(𝑋, 𝑌) = (. ⃗ (X) ∙ 𝑉 ⃗ (Y) 𝑉 ) ⃗ (X)||𝑉 ⃗ (Y)| |𝑉. （2.3）. ⃗ （X）和𝑉 ⃗ （Y）的內積（inner product）其中，分子是向量𝑉 ，分母是兩個向量的歐基里德長度（Euclidean length）乘積。透過這樣的計算可以簡單地計算出標籤之間的相似程度，若 cos 值為 1 則代表標籤 X 和標籤 Y 經常被一起使用，代表在語意或使用者的認知上來講，這兩個標籤是相似的（Cui, Wu, Liu, Wei, & Zhou, 2010; Fujimura et al., 2008；歐崇明、時文中、陳龍，2010）。. 三、Force-Directed Model 介面呈現上採用 Fruchterman 與 Reingold（1991）提出的 Force-Directed Model，此演算法是讓所有在介面上呈現的標籤保持某個適當距離，且標籤間相互存在一水平與垂直的兩種吸引力，可以讓語意概念相似的標籤相互靠近。此演算法被廣泛的應用，在這兩種吸引力中加入權重（weight）概念求其顯著性。其定義如下： f(𝑋, 𝑌) = 𝑊𝑋 𝑊𝑌 △ 𝜄. （2.4）. 𝑊𝑋 和𝑊𝑌 指的是標籤 X 和標籤 Y 出現的頻率，△ 𝜄指的是兩個標籤之間的水平作用力與垂直作用力長度，△ 𝜄拆成水平作用力長度△ 𝑥與垂直作用力長度△ 𝑦。如圖 2-1 與圖 2-2 所示：. 圖 2-1 作用力△ 𝜄. 圖 2-2. 作用力△ 𝑥與△ 𝑦. 在使用性的探討上，Del.icio.us等標籤系統上，視覺化介面等輔助標籤工具的用途在於穩定標籤的用字（terminology）（Golder & Hubberman, 2006），故探討. 13.

(24) 其介面差異性之相關研究可分為兩類：探討標籤介面的演算法差異性是否影響使用者瀏覽或組織資訊、在搜尋任務的情境差異性上如何影響使用者選擇輔助介面。. 一、探討因演算法差異而產生的各種標籤介面 Bateman、Gutwin 與 Nacenta（2008）及 Rivadeneira、Gruen、Muller 與 Millen （2007）這兩篇研究證實了字體大小、字體權重顯著影響標籤選擇，並也點出標籤雲介面適合在沒有目的的動機下輔助使用者瀏覽資訊；Rivadeneira 等人（2007）則證實了標籤分布區域若在介面的左上角（upper-left）會顯著的影響標籤選擇； Rivadeneira 等人（2007）比較標籤根據不同演算法呈現的四種介面：英文字母排序、最常出現的標籤其字體愈大也優先呈現在左上角的介面、spatially packed （Feingerg’s）、標籤列表形式排列（最常出現的放在最上面，但是無字體大小變化），發現使用者在這四種介面上瀏覽、檢索的使用性上無顯著差異，雖結果無達顯著性，但是以標籤列表形式出現的介面有比較明顯可以幫助使用者再認知（recognition），即經由此介面的呈現方式，可讓使用者對於這些資訊重新去定義； Schrammel、Leitner 與 Tscheligi（2009）則以字母、隨機、俗民分類基礎、語言學為技術去比較這些介面使用性，結果發現在一般的搜尋任務及特定的搜尋任務中，以語意基礎的介面相較於隨機介面可以改善，但是此篇研究也提到，標籤介面是無法改善使用者去記住這些標籤，也就是隨著時間過去，使用者事後也無法根據這些標籤去達到正確的搜尋任務；Cattuto 等人（2007）指出標籤雲裡的標籤透過共現性可看到階層式的架構出現；Trattner、Denis 與 Strohmaier（2011）研究顯示階層式架構在導覽（navigation）功能上比標籤雲介面還要好；Helic、 Trattner、Strohmaier 與 Andrews（2010）提出標籤雲因為有分頁（pagination）問題，故也會影響使用者在標籤雲介面導航、瀏覽資訊的流暢度。. 二、在搜尋任務的情境差異上導致影響標籤介面使用的相關研究 Sinclair 與 Cardew-Hall（2008）將標籤雲與搜尋欄（search bar）做檢索比較，發現事後遇到特殊檢索任務時，使用者偏好搜尋欄，但若是一般任務（non14.

(25) specific），使用者則偏好使用標籤雲介面，所以沒有足夠的理由支持標籤雲在導覽的角色。但也有受訪者於訪談時表示標籤雲可以讓使用者不用去思考到底想要找什麼，因為它就像是一個視覺摘要一樣，直接看到最熱門的關鍵字依其程度有哪些。綜上述之研究，根據使用者的情境，不同的視覺化介面會帶來不同的組織結果：標籤網絡介面是當使用者不知道要找什麼純粹瀏覽時，可以透過標籤之間的聯結達到詞彙激發，將概念語意上的聯結達到概念的延伸作用；標籤雲介面則可以在一堆關鍵字裡直接找到最熱門的關鍵字；標籤列表適合在有明確任務時尋找資訊，達到再組織的目的。故選取此三種介面為本研究之研究工具。. 第三節採用 h-index 觀點之相關研究過去研究中，常使用到冪次定律與長尾現象來觀察標籤結果的使用頻率分布。但是在 Wal（2005）中提到冪次定律、長尾現象的發生與社會性標籤系統的類型有關，即有所謂廣泛性（broader）及狹窄性（narrower）的差異。例如 Del.icio.us 的使用者在網站上面的活動較為多樣，面對的資訊也較為豐富，所以屬於廣泛性分類系統，因此冪次分布現象較為明顯；而 Flicker 的使用者只將標籤使用在個人化的資訊內容上，所以屬於狹窄性的分類系統，長尾現象較為明顯。無論是冪次現象或長尾現象，僅能觀察到哪些標籤為高度被重複使用又哪些標籤又僅出現一、兩次。除此之外，本研究旨在探討每位使用者在不同視覺化介面上，使用者的個人標籤組織策略，並不是去觀察每篇網頁被標記的標籤分布。個人的資訊組織策略是會因人而異，所以本研究關心的是在標籤結果中，使用者如何利用那些介於極高使用率與極低使用率的中段頻率標籤來進行資訊組織，進而去探討是否會因為不同視覺化介面的呈現而存在差異。本研究中，採用 h-index 的概念來探討哪些標籤會扮演著連接及高使用率與極低使用率的橋接角色。Hirsch（2005）提出利用引文關係找出個別作者的研究文獻對學科領域貢獻程度，其定義為該作者有多少篇文章之被引用數大於 H，例 15.

(26) 如某學者 h-index 為 5，代表其學者的著作中有 5 篇被引用超過 5 次。而本研究使用此指標來描述標籤被重複使用的情形，例如，此使用者的 h-index 為 3，代表使用者組織的結果中，有 3 個標籤被重複使用 3 次以上。研究者先統計在這 30 篇網頁中，每個使用者使用幾個標籤來組織網頁，並進一步將每位使用者使用過的標籤依使用次數由多至低列出，發現某些使用者的標籤使用次數上出現極值狀態，舉例來說，使用者 A 總共使用 85 種（相異）標籤，但是有 2 種標籤頻繁被使用達 30 次（如圖 2-3 標示黑色資料處為例），而 12 種標籤被使用超過 6 次（如圖 2-3 標示紅色資料處為例），其餘 71 種標籤僅被使用 1 次（如圖 2-3 標示藍色資料處為例）。 30. 25. 標 20. 15. 10. 5. 0. facebook wire.tw 社交社會 b d f h j l n p r t v x z B D F H J L N P R T V X Z BB DD FF HH JJ LL NN PP RR TT VV XX ZZ. 籤使用次數. 標籤使用種類(名稱). 圖 2-3 使用者 A 使用標籤之分布情形過去在衡量標籤次數分布情形的方法通常都是用冪次定律、長尾現象來進行分析，但是考慮到每位使用者組織資訊的策略會因人而異，不是所有的使用者都具備上述兩種現象，且本研究在此關注的是介於極高與極少出現的標籤是如何將極端的兩種標籤聯結（如圖 2-3 標示紅色資料處為例）。為觀察上述現象，本研究使用者使用的標籤種類與每種標籤使用次數依序分為高度使用頻率（如圖 2-3. 16.

(27) 標示黑色資料處為例）、中度使用頻率（如圖 2-3 標示紅色資料處為例）、出現最少次的標籤個數（如圖 2-3 標示藍色資料處為例）三種區段：最常出現的標籤次數定義為高頻率，介於最常出現與最少出現的標籤則定義為中頻率，用 h-index 來算，代表此區標籤有 h 個標籤至少被使用超過 h 次。. 第四節. 採用社會網絡分析觀點之相關研究. 過去研究中，分析標籤結果除了以計量型指標（i.e. 長尾現象、冪次分布）來探討外，也有研究著墨在標籤之間的關聯性而使用結構型指標探討之（詳見第二章第一節）。評估結構型現象最常使用到的指標有社會網絡分析（social network analysis）理論中的度分配（Shen & Wu, 2005）、群聚係數（Shen & Wu, 2005; Schmitz et al., 2007）、平均路徑（Shen & Wu, 2005）、聯結性（Schmitz et al., 2007）等網絡指標。由於標籤網絡不具有傳播現象，故本研究根據標籤的結果將其視覺化後並使用度中心勢（centralization）與群聚係數（cluster coefficient）指標來分析使用者在不同視覺化介面組織資訊的標籤網絡結構差異，指標定義如下：. 一、網絡指標─度中心勢（centralization）本研究使用度中心勢指標來衡量使用者的標籤網絡裡的標籤之間相連的情形。此指標的概念是先算出網絡圖中各節點的中心度，中心度的值為節點 A 直接與其它節點相連的個數，全數算出後會得到圖中一最大中心度的值，接著計算該值與圖中其它點的中心度差，從而得到幾個差值，最後再計算這些差值的總和，最後用這個總和除以在理論上各個差值總和的最大可能值（Wasserman & Faust, 1994）。其公式如下： ∑𝑛 (𝐶𝑚𝑎𝑥 −𝐶𝑖 ). 𝑖=1 C=𝑚𝑎𝑥[∑ 𝑛. 𝑖=1 （𝐶𝑚𝑎𝑥 −𝐶𝑖 )]. Cmax 為網絡圖中最大節點之中心度值 Ci 為網絡圖中每個節點之中心度值. 17. （2.5）.

(28) 二、網絡指標─群聚係數（cluster coefficient）本研究使用群聚係數指標來衡量使用者的標籤網絡裡的標籤是否存在著群聚效應。此指標的概念為某一點的群聚係數定義為其鄰居彼此間也是鄰居的程度，假設該節點有 k 個鄰居此 k 個鄰居間所有可能形成的聯結總數為 k（k-1）/2。此點的群聚係數為此 k 個鄰居間真正形成的聯結總數除以可能形成的聯結總數，整個網路的群聚係數為所有點群聚係數的平均值（Wasserman & Faust, 1994）。. 第五節. 採用多樣性觀點之相關研究. 由使用者的標籤結果來看，使用者的資訊組織策略非常多種（Ｈsieh & Chiu, 2011），針對此結果探討後發現，這些差異可由使用者資訊組織的歷程進一步去探討之：例如有些使用者剛開始會產生很多新標籤，之後就會固定使用已經出現過的標籤，甚至會把這類的標籤當作是一種類別；而也有些使用者會認為每篇資訊都不同，故應該用新的關鍵字來描述這些資訊。上述兩個例子主要是要闡述標籤類別個數及每種標籤個數的關係並比較不同使用者的差異，研究者發現，多樣性的物種豐富度與均勻度恰與標籤類別個數與每種標籤個數的概念不謀而合，可表示標籤被重複使用性。進一步則探討在不同的標籤視覺化介面呈現上，使用者組織標籤的策略多樣性是否也會受到影響。多樣性是生態學用來評估地球上生物的變異狀況，依照生物多樣性公約（CBD）與國際自然保護聯盟（International Union for Conservation of Nature，簡稱 IUCN）的標準，多樣性指的是下列三種多樣性：物種多樣性（species diversity）、遺傳多樣性（genetic diversity）、生態系統多樣性（ecosystem diversity）。而所有多樣性概念中，最常被拿來應用探討的是物種多樣性，此多樣性指的是區域內的物種種類數目以及每種物種包含的個體數其相對數量。當生態系統內物種的分布愈多樣，物質和能量流動的路徑就愈多，這也代表系統恢復穩定的能力就愈強。多樣性研究也被應用在各式研究上，最早是被用來衡量經濟系統內經濟活動變化的多樣性（Stirling, 2006 ; Stirling, 2007），資訊學家與社會學家也用多樣性指標 18.

(29) 來衡量資訊複雜度以及社交、經濟行為（Reagans & Zuckerman, 2001；Eagele, Macy, & Claxton, 2010）。探討多樣性的指標有許多種，以下以常見的 Shannon diversity index 與 Simpson’s diversity index 分述之：Shannon-Wiener diversity index 又稱為 Shannon diversity index，其實就是資訊理論（Information theory）內的 communication entropy，是生態學家借用資訊科學的一個數學指標。生態學家用來數量化群聚（community）中種類的歧異程度。這個指標會同時受到種類數量（豐富度）與種類的數量分布（均勻度）所影響，亦即 diversity =f（richness, evenness）。一個群聚內如果種類越多（豐富度越高），Shannon diversity index 就越高；不同種類的數量越均勻一致，Shannon diversity index 就越高（Stirling, 2006 ; Stirling, 2007）。由於本研究中，每個使用者的標籤數低於 300 個，樣本數較小，Simpson’s diversity index 對於樣本數較小的變動較為靈敏（Edward, 1964），故本研究使用 Simpson’s diversity index 來分析，當指標愈高代表標籤的多樣性愈高，例如：使用者 A 的多樣性為 5.602，使用者 B 的多樣性為 3.587，可以說使用者 A 相對於使用者 B 來說，使用者 A 所使用標籤組織資訊的策略其多樣性相對比使用者 B 高。但是生物的豐度資料常常難以正確計算，Shannon-Wiener diversity index 與 Simpson’s diversity index 等指標又同時受到豐富度與均勻度的影響，多樣性高，不一定代表豐富度就高，或均勻度就一定高。本研究採取多樣性裡的豐富度與均勻度概念（Stirling, 2007）來衡量使用者在資訊組織過程中使用的標籤種類與個數之多樣性。指標選取上，由於本研究使用者使用標籤總數為少量樣本（每位使用者使用的標籤數低於 300 個），在 Menhinick（1964）的實驗中，樣本數量少的情況下，使用 Simpson’s index 去衡量的結果其靈敏度較高，故在多樣性指標的分析上選取 Simpson’s index 來計算。其公式如下，並以表 2-1 例子加以說明：. 19.

(30) Simpson’s index=. ∑𝑖=1 𝑛𝑖 （ni −1） N（N−1）. （Simpson,1949）. （2.6）. 𝑛𝑖 為標籤 i 的個數 N 為標籤種類總數表 2-1 Simpson’s index 舉例每種標籤的個數標籤種類. 使用者標號 1. 使用者編號 2. 標籤一. 33. 2. 標籤二. 30. 5. 標籤三. 36. 93. 總和. 100. 100. D（使用者標號 1）=. 33(33−1)+30(30−1)+36(36−1). D（使用者標號 2）=. 100(100−1) 2(2−1)+5(5−1)+93(93−1) 100(100−1). = 0.3219. = 0.8665. 使用者編號 2 的多樣性相較於使用者編號 1 較高，顯示編號 2 使用標籤組織資訊的多樣性較高，因為有些標籤被反覆使用 93 次，顯著高於其餘標籤，而使用者編號 1 使用的標籤次數較為一致，所以兩相比較起來，使用者編號 2 組織資訊的策略較為多樣。. 第六節採用序列分析與優先使用權重觀點之相關研究使用者的標籤網絡是一自組織演化的網絡，會隨著時間而有所變化，也可以發現在組織過程的策略性也會因為因使用者的習慣與視覺化介面而有所差異，而研究者從組織策略的多樣性進行探討時可發現，有些使用者看到一資訊時優先使用已經出現過的標籤，或頻繁使用已經出現過的標籤。再進一步去觀察，有些使用者雖交替使用重複的標籤，可是在標記的過程中卻優先使用新的標籤去組織；或者有些使用者雖然新標籤交替使用，可是會優先使用已經用過的標籤後再根據資訊內容使用幾個新標籤。為觀察這樣的現象，本研究選取序列分析（Sequential 20.

(31) analysis）來觀察使用者對於標籤新標籤或舊標籤是如何交替使用；並探討使用者是否會因不同的視覺化介面而有優先順序或偏好上的差異（例如在標籤雲介面上，是否會優先選取字體較大的標籤），進而根據權重值概念提出一指標，用來衡量使用者在組織資訊時，對於新標籤與已經出現過的標籤其優先或偏好選擇使用的程度。故本研究接續對序列分析與優先偏好使用程度之指標進行探討。. 一、序列分析之相關研究序列分析方法在教育學領域中常被用來分析各種一連串行為模式（Bakeman & Gottman,1997 ; Marion, Touchette, & Sandman, 2003），其相關研究包含分析線上學習的活動歷程與使用者和學習科技工具的互動性，使用者之間的行為模式是一大研究重點，利用序列分析來說明和這些工具的非同步交流連續模式，測試每一個行為之間的關聯性是否達到統計顯著性，並以連續行為間的轉換圖來描述線上非同步交流的行為模式，藉由這樣的分析結果可以提供教師調整教學策略與改善線上教學工具（Hou, 2010 ; Hou, 2011 ; Sung, Hou, Liu, & Chang, 2010）。序列分析除了應用在上述研究外，只要可以將發生的行為編碼且可用時間排序的樣本皆適合此分析方法（Bakeman & Gottman,1997），故本研究使用序列分析來分析使用者使用新舊標籤的交替使用行為轉換。首先將每篇網頁使用的新標籤比例先計算出來，標籤出現第一次定義為新標籤，同樣標籤在別篇網頁出現第二次之後則被定義為舊標籤，定義完新標籤與舊標籤兩種「事件」後即為資料「編碼」，分別計算出這兩個事件的次數並得到事件發生的次數轉換表，最後即使用 Z分數來計算這些事件轉換的顯著程度，Z分數超過1.96即達顯著性（同等於右尾檢定中p< 0.05）。以本研究為例，研究者在觀察使用者每一篇網頁使用新標籤頻率的時候，發現使用者使用新標籤頻率的分布為常態、正偏態或負偏態，故可選擇取平均數、第一分位數Q1或第三分位數Q3為臨界值，高於臨界值的編為「高頻（H）」（即為頻繁使用新標籤），低於臨界值的編為「低頻（L）」（也就是頻繁使用舊標籤），編碼完後可得到一連串高頻（H）與低頻（L）事件的序列資料， 21.

(32) 例如「LHHHHHHHLLHHHHH」，最後分別計算出H→L、H→H、L→H、L→L四種序列轉換次數，再以Z分數來計算其顯著性（Marion, Touchette, & sandman, 2003），公式如下： Z=. 𝑋−𝑁𝑃. （2.7）. √𝑁𝑃（1−P）. x：欲觀察轉換序列的頻率（分別為 H→L、H→H、L→H、L→L 四種序列） N：雙序列事件的次數 P：欲觀察轉換序列的機率期望值假設 H 與 H 這兩個事件轉換的 Z 分數超過 1.96 即達統計顯著性，由上述例子結果可以去解釋當 30 篇網頁變換時，使用者在使用標籤為 30 篇網頁組織時，當每篇網頁切換之際，使用者容易由使用新標籤轉換到使用新標籤的狀態，也就是會交替使用著新標籤。. 二、優先選取標籤之使用行為相關研究在第一章第一節研究背景與動機和第二章第二節標籤視覺化介面相關研究中提到某資訊愈被頻繁使用時，此資訊愈被容易檢索到，所以在標籤視覺化介面應用上有以下差異：標籤列表上以標籤被應用次數多寡排序標籤的使用狀況；標籤雲介面則以字體大小表現每個標籤出現的次數多寡；在標籤網絡介面上則以節點大小表示差異之。本研究旨在探討不同的視覺化介面上，是否會因為呈現方式的不同而讓使用者優先選擇已經被頻繁使用的標籤。而本研究則在此提出一權重值指標，去探討使用者在不同視覺化介面上優先偏好使用標籤的行為。此權重值的指標發想自資訊檢索裡談到的文件分類權重值概念。權重值的概念在文件分類中十分重要，目的是為了由權重來取得分類依據的特徵詞彙（feature word），其中常見的定理為 TF（Term Frequency）（Salton ＆ Buckley, 1988），指的是某詞彙在某個文件中出現的次數，在文件 d 中詞彙 t 的權重可定義為 W（d, t）= TF（d, t），即詞彙 t 在文件 d 中佔所有詞彙的比重分布。使用者在每篇網頁使用的第一個標籤其權重值最大，依序遞減，例如某使用 22.

(33) 者在某網頁上使用 4 個標籤，依時間先後順序賦予權重為 4、3、2、1，假設這四個標籤特性為新、舊、新、舊，那麼新標籤的權重為 W（新）= 4/（4+3+2+1） + 2/（4+3+2+1）=0.6，舊標籤的權重為為 W（舊）= 3/（4+3+2+1）+ 1/（4+3+2+1） =0.4，代表此使用者在組織網頁時會優先選擇用新的概念來為網頁資訊組織。 𝑊𝑖 𝑛 ∑𝑖=1 𝑊𝑖 𝑖∈𝑛. 𝑊𝑒𝑖𝑔ℎ𝑡 = ∑. Wi：標籤 i 佔所有標籤中的新（舊）權重值. 23. （2.8）.

(34) 第三章研究方法與設計本研究主要希望能了解使用者在三種標籤視覺化介面對 30 篇網頁進行資訊組織產生的標籤其結構差異性，並以 h-index、網絡分析、多樣性指標與時序性指標評估之，最後提出一指標衡量使用者在資訊組織上對於標籤使用的偏好程度。茲就研究流程、研究架構、研究方法、研究對象與素材、研究工具、研究假設、研究實施、研究資料前處理等部分進行說明。. 第一節. 研究流程. 根據研究動機、目的與問題，整體研究流程可分為設定研究方向、實驗設計、施測、資料蒐集與分析、撰寫研究報告等五個階段。. 一、設定研究方向藉由文獻閱讀瞭解資訊組織、標籤視覺化介面、網絡分析、多樣性的研究現況，發現在國內碩士論文中，缺乏運用網絡分析、多樣性與時序性指標評估標籤結構的差異性，故最後研究方向為探討學生在這三種標籤視覺化介面下資訊組織產生的標籤其結構差異性。. 二、實驗設計本研究為比較學生在這三種介面上進行資訊組織的差異，故以立意抽樣（purposeful sampling）抽取桃竹苗某高級職業學校二年級裡挑選三個班的學生為研究對象，此三個班的學生來自不同科別，且為非資訊相關的理科科別，當年度第一學期之計概成績平均值較為集中。實驗素材上以高級職業學校二年級計算機概論課程延伸閱讀之相關網頁。三種介面的安排上，A 班使用標籤網絡介面， B 班使用標籤雲介面，C 班使用標籤列表介面。每個班級僅實驗一次，每次均使用三節課（三個班級各 150 分鐘），於 2013 年 3 月進行。. 三、施測施測前，研究者和參與研究之導師初步探討施測素材與對象，發現計算機概 24.

(35) 論課程為共同專業科目且這三個班級上課氣氛融洽、當年度第一學期之計概成績平均值較為集中，故在不影響班級既定教學進度下，採用比較研究設計法選擇三個班級的計算機概論上課時間進行實驗。由於本研究旨不在探討教學前與教學後的差異，故每一個班級僅進行一次實驗，每一次的實驗皆為三節課共約 150 分鐘，研究者首先進行 40 分鐘的教學說明與 20 分鐘的遊戲，最後的 90 分鐘即進行實驗施測與課程問卷填寫。. 四、研究資料蒐集分析研究者在三次的實驗進行時，將會以錄影的方式記錄整個實驗進行的過程，可以觀察學生上課的反應。待三個班級的實驗結束後，研究者針對回收的課程問卷作描述統計，根據實驗法得到的標籤結果利用 NetDraw 視覺化軟體繪製成網絡圖，並使用 UCINET 社會網絡分析軟體去作網絡結構分析，再使用 Excel 與 Python 程式語言作多樣性與時序性指標分析，最後則使用 Excel 裡的統計檢定功能探討上述指標其顯著性。. 五、研究報告撰寫在三次的實驗結束後，研究者會開始進行對資料進行初步的整理與視覺化，並進一步歸納出研究結果，最後再提出研究結論。. 第二節研究架構本研究屬於實驗法，透過實驗、教學問卷蒐集相關資料為量化形式。研究旨在探討三種視覺化介面對於學生資訊組織結果的標籤網絡之結構性、多樣性與時序性之差異。本研究之架構如圖 3-1 所示：. 25.

(36) 獨立變項. 依變項. 標籤列表標籤雲標籤網絡. 網絡指標多樣性指標時序性指標圖 3-1 研究架構圖. 第三節. 研究方法. 一、實驗設計由於本研究欲探討的是學生使用三種標籤視覺化介面對 30 篇網頁進行資訊組織產生的標籤網絡其差異性，故採用比較研究設計法，此方法是對同一性質的不同種類透過比較而找出其中的共同點或差異點，來深入認識事物本質（David & Sutton, 2006）。. 二、研究結果分析本研究使用 h-index、網絡結構指標、多樣性指標、時序性指標來評估使用者在這三種介面上使用標籤組織網頁的差異性，並以描述統計（i.e. 偏態係數、峰態係數、中位數、平均數、最大值、最小值、標準差）來描述資料的集中程度與離散程度。而為比較這些指標在三種介面上的差異，使用推論統計（i.e. 相關係數、單因子變異數檢定（ANOVA））來描述其差異程度。. 第四節研究對象與研究素材一、研究對象本研究對象挑選上以高級職業學校為首選，高級職業學校的教育型態為科技預備教育，以培養工作核心能力為主要發展，比一般國民小學、國民中學的學生具備一定程度的資訊能力，也比高級中學與大學提早接觸到專業科目，所以可降低實驗素材挑選上的發散性，故研究對象的挑選上以高級職業學校的學生為主。 26.