以多樣性與時序性觀點探究使用者在標籤視覺化介面資訊組織歷程之研究
138
0
0
全文
(2)
(3) 摘 要 為了探究使用者如何利用標籤機制以進行資訊組織,本研究採用標籤視覺化 方式觀察使用者資訊組織的歷程變化,將其行為視為使用者組織資訊的策略,以 台灣北部高級職業學校二年級非資訊相關科別為研究對象。在分析方法上,本研 究採用社會網絡分析來探討使用者標籤網絡的結構性,再引用多樣性的觀點來觀 察標籤被重複使用的次數分布,進一步則使用時序性的序列分析指標探討使用者 對重複使用標籤或構思新標籤的偏好,最後則根據使用者的標籤網絡探討使用者 在不同視覺化介面上組織資訊的策略差異。 研究結果顯示,透過以網絡方法視覺化標籤實驗的結果,可初步觀察出使用 者之間組織資訊的策略存在差異。就介面觀察的結果,本研究發現有部分使用者 使用的標籤種類較少,就多樣性分析的結果發現有部分使用者會大量重複出現過 的標籤,進一步使用時序性探討使用者使用標籤行為轉換與偏好。使用者在相異 介面組織資訊的特色差異如下: (1)標籤網絡介面的使用者會重複使用部分標籤 來連接最常出現與最少出現的標籤;在組織過程中則較容易交替反覆、優先使用 新的標籤來組織資訊。(2)標籤雲介面的使用者在這 30 篇網頁組織用到的標籤 總個數與標籤種類數相較於其它兩個介面來說數量較少,且會透過少數常被使用 的關鍵字,讓標籤之間語意關係愈密切結合;此介面的使用者較容易交替反覆、 優先使用已經出現過的標籤來組織資訊。 (3)在標籤列表介面上,組織過程中容 易讓使用者組織的策略較具有多樣性。 (4)三種介面的使用者標籤網絡在度中心 勢與舊標籤優先使用權重值上達統計顯著性,代表三種介面的視覺化呈現的差異 會讓使用者安排重複出現的標籤上有顯著差異。. 關鍵詞:資訊組織、資訊視覺化、網絡分析、多樣性、時序分析. i.
(4) Abstract This study is to discuss that tagging on the visualization interface as a personal information organization strategy, and tagging behaviors exists the difference on different visualization interfaces. To understand the difference in how tags are used to organize resources in different tagging visualization interface, we designed an information organization scenario with 2nd grader of non-information science classes in Vocational High School. We used it to compare two concepts: diversity and sequence. The study has observed the different organization strategies existed in the different tagging visualization interface, and we found information organization as a dynamic behavior, so we can divided user’s tag network into five categories by diversity and sequence indicators. Primary results exhibited difference on the three tagging visualization interface: (1) In the tag network visualization interface, users like to use some tags to interlink the most common tags and the fewest appear tags; in the process of organization, users prefer to use new tags and use these new tags alternately. (2) In the tag cloud visualization interface, users like to use fewer tags to organize the information ; in the process of organization, users prefer to use old tags and use these old tags alternately. (3) In the tag list visualization interface, user’s information organization strategy is more diverse then other visualization interfaces. (4) The degree centralization and old tag preference indicator were significantly in the three visualization interface.. Keywords: Information organization, Information visualization, Network analysis, Diversity, Sequential analysis.. ii.
(5) 目次 摘要………………………………………………………………………...…..………i Abstract………………………………………………………………………...…..….ii 目次………………………………………………………………………...…..……..iii 表次…………………………………………………………………..……..……..…..v 圖次……………………………………………………………..……………..…......vii 第一章 緒論………………………………………………………………….……… 1 第一節 研究背景與動機…………………………………………………….…….1 第二節 研究目的與問題…………………………………………………….…….4 第二章 文獻探討……………………………………………………………………..6 第一節 資訊組織與標籤相關研究…………………………………….….….…...6 第二節 標籤視覺化介面相關研究……………………………………..………..11 第三節 採用 h-index 觀點之相關研究………………………………..…………15 第四節 採用社會網絡分析觀點之相關研究………………………………..…..17 第五節 採用生物多樣性觀點之相關研究……………………………………....18 第六節 採用序列分析與優先聯結觀點之相關研究…………………………....20 第三章 研究方法…………………………………………………………………....24 第一節 研究流程…………………………………………..……………………..24 第二節 研究架構…………………………………………………………………25 第三節 研究方法…………………………………………………………………26 第四節 研究對象與研究素材……………………………………………………26 第五節 研究工具…………………………………………………………………28. iii.
(6) 第六節 研究實施…………………………………………………………………30 第七節 資料前處理……….……………………………………………………...31 第四章 研究結果與分析……………………………………………………………32 第一節 標籤結果使用分析………………………………………………………32 第二節 使用者使用標籤之結構性探討…………………………………………38 第三節 使用者使用標籤之多樣性探討…………………………………………42 第四節 使用者使用標籤之時序性探討…………………………………………45 第五節 使用者背景與三種視覺化介面之關係探討.………………..…….……52 第六節 小結………………………………………………………………………55 第五章 結論…………………………………………………………………………58 第一節 結論………………………………………………………………………58 第二節 研究貢獻…………………………………………………………………63 第三節 未來研究建議……………………………………………………………64 參考文獻 ……………………………………………………………………………65 附錄一 30 篇網頁之內容………………………………...…………………………73 附錄二 問卷…………………………………………………………………………88 附錄三 三種視覺化介面之使用者標籤網絡圖……………………………………91 附錄四 標籤網絡介面使用者各指標資料…………………..…...…………...…..123 附錄五 標籤雲介面使用者各指標資料…………………..…...……………...…..125 附錄六 標籤列表介面使用者各指標資料…………………..…...…………...…..127. iv.
(7) 表次 表 2-1 Simpson’s index 舉例………….…………...……………………….……… 20 表 4-1 每位使用者在視覺化介面上針對 30 篇網頁使用的標籤總個數整理…....33 表 4-2 每位使用者在視覺化介面上針對 30 篇網頁使用的相異標籤個數整理....33 表 4-3 標籤網絡介面使用頻率相關程度……………………………………..……34 表 4-4 標籤雲介面使用頻率相關程度…………………………...………..……….35 表 4-5 標籤列表介面使用頻率相關程度………………………………...……..….35 表 4-6 三種視覺化介面其度中心勢資料……………………………………..……40 表 4-7 不同視覺化介面在度中心勢上之單因子變異數分析摘要表………..……40 表 4-8 三種視覺化介面其群聚係數資料……………………..……………………41 表 4-9 不同視覺化介面在群聚係數上之單因子變異數分析摘要表……..………41 表 4-10 三種視覺化介面之多樣性指標資料……………………………………….43 表 4-11 不同視覺化介面在多樣性性指標上之單因子變異數分析摘要表……....45 表 4-12-1 不同介面在新標籤優先使用權重上之單因子變異數分析摘要表….....51 表 4-12-2 不同介面在舊標籤優先使用權重上之單因子變異數分析摘要表….....51 表 4-13-1 計概成績與各種指標之相關係數關係(標籤網絡介面)……………52 表 4-13-2 計概成績與各種指標之相關係數關係(標籤雲介面)………………53 表 4-13-3 計概成績與各種指標之相關係數關係(標籤列表介面)……………53 表 4-14 使用者計概成績在不同視覺化介面上之單因子變異數分析摘要表……53 表 4-15-1 問卷答對題數與各種指標之相關係數關係(標籤網絡介面)………54 表 4-15-2 問卷答對題數與各種指標之相關係數關係(標籤雲介面)…………54 表 4-15-3 問卷答對題數與各種指標之相關係數關係(標籤網絡介面)………55 表 4-16 使用者答對題數在不同視覺化介面上之單因子變異數分析摘要表……55 v.
(8) 表 5-1 使用者標籤網絡分類特性分析…….…….……..…….…….……..………...62. vi.
(9) 圖次 圖 2-1 作用力△ 𝜄……….……………………………….………...……...………… 13 圖 2-2 作用力△ 𝑥與△ 𝑦…………….…………………………….……...………….13 圖 2-3 使用者 A 使用標籤之分布情形……………………………………..………...16 圖 3-1 研究架構圖…………………………………………………………..………26 圖 3-2 登入主畫面之網站截圖…………………………………….…….…………29 圖 3-3 開始操作之網站截圖…………………………………..…..………………..29 圖 3-4 為下一篇文章標記標籤之網站截圖………………………………….…….30 圖 3-5 研究實施圖……………………………….…..……………………………...31 圖 4-1 高頻率與出現最少次的標籤個數相關係數:標籤網絡介面…..……..……...36 圖 4-2 高頻率與出現最少次的標籤個數相關係數:標籤雲介面…..……...…….....36 圖 4-3 高頻率與出現最少次的標籤個數相關係數:標籤列表介面…..…………....37 圖 4-4 中頻率與出現最少次的標籤個數相關係數:標籤網絡介面…..…………...37 圖 4-5 中頻率與出現最少次的標籤個數相關係數:標籤雲介面…..……………....37 圖 4-6 中頻率與出現最少次的標籤個數相關係數:標籤列表介面…..…………...38 圖 4-7…..……………………………...…..……………………………...…...….…..39 圖 4-8…..……………………………...…..…………………………….....................39 圖 4-9 標籤雲介面之 8 號使用者..………………...……...…..…………………...…42 圖 4-10 標籤雲介面之 22 號使用者…..……………………………...…..…………….42 圖 4-11 標籤雲介面 15 號使用者…...…………………………...…..…….……..……43 圖 4-12 標籤網絡介面 17 號使用者……..…………….………………………..……….....43 圖 4-13 標籤雲介面 6 號使用者………………………………………………....................44 vii.
(10) 圖 4-14 標籤雲介面 17 號使用者……………………………………………………..........44 圖 4-15 標籤列表介面 11 號使用者………………………………………..……................44 圖 4-16 標籤列表介面 29 號使用者………………………….……………….……............44 圖 4-17 使用者在三種視覺化介面使用新標籤走勢圖(n=93,所有使用者)………....46 圖 4-18 標籤網絡介面 7 號使用者之時序圖..…………........................…………..............46 圖 4-19 標籤網絡介面 6 號使用者之時序圖圖…..……..…..........................………..........47 圖 4-20 標籤列表介面 30 號使用者之時序圖….………..........................……….............. 47 圖 4-21 標籤雲介面 11 號使用者之時序圖…....…………..........................…………........47 圖 4-22 標籤網絡介面 7 號使用者之事件轉換圖…..………………………………....…..48 圖 4-23 標籤網絡介面 6 號使用者之事件轉換圖………………………………………….49 圖 4-24 標籤列表介面 30 號使用者之事件轉換圖………………………………………...49 圖 4-25 標籤雲介面 11 號使用者之事件轉換圖……………………………….................49. viii.
(11) 第一章 緒論 資訊組織(Information Organization)的目的為幫助使用者管理各種資訊,進 而讓使用者可以快速地找到所需的資訊。隨著資訊科技與網路崛起,資訊組織的 方法也有所改變,出現了有別於傳統階層式分類的標籤機制,許多資訊組織的研 究便開始著墨在標籤的應用與個人資訊組織策略。故本研究旨在探討使用者在不 同的標籤視覺化介面上組織資訊的策略,進而觀察不同視覺化介面上組織資訊策 略的多樣性與時序性差異。本章內容共分為兩節,第一節為闡述研究背景與動機, 第二節則說明本研究之研究目的與問題。. 第一節. 研究背景與動機. 面對網路的崛起與泡沫,Web2.0 概念於西元 2001 年產生,此概念倡導的是 由使用者產生資訊。因應這樣的趨勢,使用者接收、處理的資訊量也日益漸增, 故網路上的搜尋引擎、註記軟體、資訊組織工具(i.e. IE 瀏覽器上「我的最愛」 、 社會性分類標籤服務等)愈來愈多,它們在使用者組織、搜尋網路上資訊扮演著 重要角色。例如透過搜尋引擎來找尋資訊,或透過「我的最愛」將網頁上的資訊 依照使用者的用途、喜好並以資料夾方式加以儲存以利下次使用。 在上述眾多的工具中,各種社會網路平台(i.e. Del.icio.us、Flickr、CiteUlike 等)提供社會性標籤(social tagging)的功能讓使用者將各種資訊組織與管理, 社會性標籤最早緣起 2003 年的網路書籤 Del.icio.us、圖片分享工具 Flickr,它們 是一種開放性(open-ended)且易於擴充(expansible)的資訊組織工具,可讓使 用者在 Web2.0 環境中對於網路的各種資訊進行搜尋、瀏覽、組織的重要工具 (Golder & Huberman, 2006)。當使用者關注一項資訊並要對這些資訊搜尋、瀏 覽及組織時,腦海中會產生各種適合描述此資訊的語意概念,即描述這些資訊的 關鍵字,這些關鍵字即標籤(Tag) ,被用來描述網路上資訊的特徵、對這些資訊 的主觀概念及被用來當作組織資訊的類別使用,所以不同的使用者對於同樣的資 1.
(12) 訊會根據自身的經驗進而創造出不同的標籤組合(Trant, 2009) ;吳筱玫(2009) 提到標籤會因為使用者的經驗變化,故作者被賦予新增、修改、刪除標籤的權力; Smith(2008)認為標籤便是詮釋資料(metadata)的概念,被用來描述這些資訊, 甚至影響到未來的資訊組織發展,產生別於傳統資訊組織的標籤分類架構。 Tapscott 與 Williams(2006)談到標籤是一種「有機的分類」 ,隨著時間點不 同,這些標籤使用趨勢會有著不同的變化,標籤在使用上不需要遵守階層式呈現 的樹狀架構,一切照使用者的想法去使用,也不受時間、地點與使用者對資訊組 織的專業程度控制,因此每個人都可以有專屬自己的一套自我分類(Mathes, 2004) ,所以在使用者標記標籤的過程中即形成一種個人的「資訊組織策略」 ;吳 筱玫與周芷伊(2009)則談到使用者藉由標籤可以組織資訊,組織資訊目的之一 是為了讓資訊有序化,故不同的組織方式會產生不同的秩序空間,幫助使用者快 速又精確地找到所需的資訊,以使用者角度來談,不同秩序空間的產生即是組織 資訊策略的差異。舉例來說:有些使用者在「Inside 硬塞的網路趨勢」網站上看 到喜歡的網頁要收藏在網路書籤 Del.icio.us 時,會先對這篇網頁標記「新聞」、 「科技」、「Android 應用」、「台灣」、「網路觀察」、「行動趨勢」等關鍵字,等要 收藏另一篇網頁時,有些使用者會優先使用重複的標籤,而這些重複的標籤對於 此使用者的意義來說是屬於比較一般、普遍的類別,他們會使用幾種這類的標籤 來組織,方便日後搜尋時可以透過這些重複的標籤來找出組織過的資訊,這種類 型的使用者組織策略就較為多樣;也有些使用者在組織的過程中僅根據網頁內容 標記較為差異化、特殊的標籤,每個標籤可能都只被用過一兩次,組織策略上就 不會太多樣。標籤的組織是會隨著時間改變而有所變化,例如有些使用者雖然很 常使用已經出現過的標籤,可是在面對新資訊時還是會優先標記新的標籤,也有 些使用者在組織網頁時會交替、優先使用已經出現過的標籤,優先使用已經出現 過的標籤。 因此,在資訊組織的策略上,本研究欲以使用者在標籤歷程中的行為變化來. 2.
(13) 探討使用者使用標籤的資訊組織行為差異。本研究認為,標籤之結果(例如用字、 種類、使用次數)雖與使用者對這些資訊的理解程度與背景相關(Guy & Tokin, 2006 ; kipp, 2011a) ,但也須考慮使用者面對資訊時所使用的工具與組織歷程影響。 依照以上的觀點,若只從標籤的結果著手並無法解釋這些現象的差異性,因此在 評估資訊組織情形時,不應單以標籤結果來評論,也須觀察使用者的標籤組織歷 程。為具體描述上述現象,本研究發現重複使用標籤的種類與個數恰與多樣性 (diversity)談到的物種豐富度(richness)與均勻度(eveness)不謀而合;經由 多樣性描述的標籤被重複性,進一步去探討使用者如何安排這些被重複使用的標 籤與構思新標籤的出現順序,描述使用者使用標籤的行為轉換則可使用序列分析 (sequential analysis)來探討,最後則根據標籤優先使用的順序提出一指標,用 來衡量使用者對於標籤使用的優先偏好之權重。 為觀察使用者組織資訊的策略,可將使用者使用標籤的過程視覺化,藉由視 覺化的呈現,可讓使用者看到自己使用標籤組織資訊的過程與結果。使用者使用 的標籤其結果隱含著一個網絡狀的結構,目的是把資訊客體中的關聯性表徵出來, 以方便理解這些資訊,所以各種組織資訊的方法都會建立在表徵的基礎上 (Cattuto, Barrata, Baldassarri, Schehr, & Loreto, 2009)。鄭惠珍與陳雪華(2004) 則針對各種領域提到的表徵方法進行整理探討,其中語意記憶模型的理論和標籤 視覺化成網絡的概念相似,此模型談到的各種資訊表徵方法皆與標籤網絡的結構 與應用相關:例如 Collins 與 Quillian(1969)談到的網狀模型理論則是描述組織 資訊的結構是一種語意網絡(Semantic Network) ,用來圖解資訊關聯的表徵法, 以本研究來看即是藉由標籤與標籤間的語意關聯強弱程度來組織,若概念間的連 結性愈高愈容易被使用者檢索;在 Craik 與 Lockhar(1972)裡則提到當某資訊 愈被頻繁使用時,此資訊愈被容易檢索到,這意味著在標籤視覺化介面設計上, 愈常被使用的標籤應該要設計成容易被使用者優先使用。綜上述理論,在常見的 幾個標籤視覺化介面中,標籤列表介面上以標籤被應用次數多寡排序標籤的使用. 3.
(14) 狀況;標籤雲介面則以字體大小表現每個標籤出現的次數多寡;在標籤網絡介面 上則以節點大小表示差異之。所以由資訊表徵應用在標籤視覺化上可看作是使用 者對這些資訊的分類架構、組織策略,而不同的視覺化介面也會引導使用者有不 同的組織資訊策略。 基於上述研究背景,激發本研究動機,本研究擬採用標籤視覺化介面,讓使 用者可以看到自己利用標籤組織資訊的過程,並將使用者的標籤組織歷程視為資 訊組織策略,進而探討在不同的視覺化介面上之差異。分析上先以 h-index 觀察 標籤結果之分布,並以社會網絡分析來探討使用者標籤網絡的結構性;再使用多 樣性的觀點來觀察使用者在組織歷程之標籤被重複使用性,進一步則以序列分析 探討使用者標記行為之轉換,並提出一權重指標,用來衡量使用者對於標籤的優 先使用程度;最後則探討使用者在不同視覺化介面上組織資訊的行為差異並將此 差異分類。. 第二節. 研究目的與問題. 本研究以視覺化的方式觀察使用者使用標籤的資訊組織歷程,並將使用者的 標籤組織歷程視為資訊組織策略,進而探討在不同的視覺化介面上之差異。分析 上先以 h-index、社會網絡分析觀察標籤結果之分布與結構性;再使用多樣性來 觀察標籤組織歷程之重複使用性,進一步則以序列分析與提出一權重指標來探討 使用者標記行為與標籤優先使用程度;最後則探討使用者在不同視覺化介面上組 織資訊的行為差異並將此差異予以分類。 因此,根據上述研究背景與動機提出下列研究目的: 一、瞭解使用者在不同視覺化介面上使用標籤的種類與個數分布。 二、瞭解使用者的不同視覺化介面上其組織資訊的標籤網絡結構差異性。 三、瞭解使用者在不同視覺化介面上其組織資訊的策略多樣性差異。 四、瞭解使用者在不同視覺化介面上其組織資訊的時序性差異。 五、探討多樣性指標與時序性指標在標籤網絡上的分類情形。 4.
(15) 根據上述研究目的提出下列研究問題: 一、在不同的標籤視覺化介面上,每位使用者使用的標籤結果其差異性為何? 例如:某標籤視覺化介面的使用者較常重複使用已經出現的標籤。 二、在不同的標籤視覺化介面上,使用者使用的標籤網絡其結構性差異為何? 例如:使用某標籤視覺化介面的使用者較容易讓標籤作概念性的聯結。 三、因應上述的網絡結構差異,在不同的標籤視覺化介面上,使用者在資訊組 織的過程中,所產生的組織策略多樣性為何?例如:使用某標籤視覺化介 面會引導使用者重複地使用某些舊標籤或者廣泛地使用新標籤。 四、因組織策略的多樣性,進一步去觀察使用者在不同介面上使用標籤的行為 是如何轉變?例如:使用某標籤視覺化介面容易引導使用者交替使用出現 過的標籤或者會優先使用出現過的標籤來描述資訊。 五、根據標籤網絡,如何使用多樣性指標與時序性指標將使用者的個人標籤網 絡圖分類?. 5.
(16) 第二章 文獻探討 由於本研究為探討使用者如何利用標籤機制以進行資訊組織,故以視覺化的 方式來觀察使用者使用標籤組織網頁的資訊組織歷程,並將使用者的標籤組織歷 程與結果視為資訊組織策略,進而探討在不同的視覺化介面上之差異。故第一節 先探討資訊組織與標籤的過去相關研究;第二節則針對標籤視覺化介面的技術與 使用性進行探討;第三節探討過去研究如何討論標籤分布的評估,並針對 h-index 作探討;第四節針對標籤網絡結構性作社會網絡分析指標相關探討;第五節探討 多樣性指標的應用;第六節則闡述時序性指標的應用與其物理意義,並提出一指 標來衡量標籤優先使用之行為。. 第一節 資訊組織與標籤相關研究 資訊組織一詞,在泰勒(Taylor, 1999)研究中定義為人類所有資訊紀錄的組 織,各種的資訊紀錄有的是屬於文字,也有的是屬於影音、圖像資料或是各種的 網路資源及不同的資訊物件,好的資訊組織能夠提供使用者及時、精確並且具相 關性的書目資訊。其研究場域可分為圖書館與網路兩種。資訊組織研究在圖書館 裡探討的是書目學、編目規則(cataloging rules) 、權威控制(authority control) 、 索引典(thesaurus control)等學術理論與卡片目錄(card catalog) 、線上公用目錄 (Online Public access Catalog, OPAC)等實務系統是如何讓使用者去發現、選擇 與獲取資訊(陳和琴、張慧銖、江綉瑛、陳昭珍,2009) 。另一方面,隨著 Web2.0 概念的興起,此概念強調的是網路上的內容因為使用者的參與而產生,並藉由使 用者之間的分享達到社交性目的(O’Reilly, 2005)。因此,使用者想要獲得的資 訊其管道變得如此多元,所以使用者找尋資訊的方式已不完全仰賴圖書館,開始 會以關鍵字(keyword)在網路上找尋資訊,並把這樣的關鍵字當成是個人資訊 管理、分享資訊的工具(Bearman & Trant, 2005),而此關鍵字即所謂的標籤 (O’Reilly, 2005)。標籤最早是出現在 2003 年網路書籤 Del.icio.us 及 2004 年網 路相簿 Flickr,這些網站受到極大的關注,並作為各種資訊的搜尋基礎(O’Reilly, 6.
(17) 2005;吳筱玫,2009) ,因為他們開發了所謂的「俗民分類」 (folksonomy)的概 念,與專家分類形成對比。關於俗民分類的定義,Mathes(2004)指出,俗民分 類不是來自專業人士和內容創造者,而來自擁有資訊內容的個人;O’Reilly(2005) 指出俗民分類的概念是讓使用者自由選擇關鍵字,以使用者的直覺以及極具創意 的方式自行分類,可以讓大腦本身進行多面向的重疊關聯,而不是毫無彈性由上 而下的分類方式。因此就標籤和資訊組織關係而言,標籤被視為一種再發現(rediscovery)的過程(Golder & Huberman, 2006) ,也是一種由使用者所提供的詮釋 資料,被用來描述該筆資訊的資訊(Smith, 2008),這樣的分類方式有別於古典 分類法,使用者在權威控制上毋須具有專業知識且使用時也毋須遵循傳統的分類 系統,即產生別於傳統資訊組織的分類學標籤架構,影響到未來的資訊組織。 過去探討標籤的研究大致上可分為四類:比較階層式架構與標籤之使用性差 異、使用者背景差異對標籤結果之使用性差異;標籤之類型分布與品質;將標籤 視覺化並作標籤之間的關聯性研究;標籤相關視覺化技術(詳見第二章第二節) 。 由於標籤的架構和功能與傳統階層式有異,故針對這兩種架構之間的差異性 有以下探討:Shirky(2005a)與 Shirky(2005b)認為傳統的分類法不適合用在 電子資源上,只有在此資訊有非常明確的正規分類類別,且使用者在資訊組織的 背景上有受過專業訓練時,傳統分類法會比較好操作;相反地,電子資源上的語 料庫龐大,每個使用者對於資訊組織的專業背景不同,標籤機制的多面向會較符 合使用者需求。Gao(2011)則指出不同年紀與教育程度的使用者對於個人資訊 組織有不同的策略,資訊組織的目的就是讓使用者事後可以快速地檢索到所需的 資源,但若使用者的標籤分類和檢索歷程無法達到一致性時,則標籤式系統會比 資料夾系統更難檢索到原本組織的資源,也就是使用者在檢索過程中容易增加心 智負荷。Guy 與 Tokin(2006)指出在一般狀況下,使用者可以自由地根據當下 的情境或認知來標記標籤,並不完全是受到現行知識的框架而去描述這些資訊, 所以也有在標籤使用上出現階層式架構的概念。Gao(2011)在此研究中也指出,. 7.
(18) 使用者標記標籤時,有時候也會隱含著階層式分類架構的概念而使用「上位詞」 的組織策略;Merholz(2004)點出標籤架構的缺點,且再次強調分類與控制詞彙 在資訊組織上的重要性,並肯定階層性在不模糊(disambiguation)上的價值。 探討標籤之類型與品質的相關研究:Golder 與 Huberman(2006)分析網路 書籤 Del.icio.us 標籤特性及 Sen 等人(2006)分析電影推薦系統 MovieLen 標籤 特性後,發現使用者使用標籤的類型相當多元,主要可依標記的目的分為事實型 (factual) 、主觀型(subjective) 、個人型(personal) ;根據在 Arolas 與 Ladrónde-Guevar(2012)有些標籤是屬於隱性型態(implicit);Guy 與 Tokin(2006) 則指出在 Del.icio.us 及 Flickr 網站上,許多使用者會使用複數型態(例如:apples) 與複合字型態(例如:April11)的標籤;Kipp(2008)則指出非主題式(Non-subject) 標籤,例如時間型態、任務型態、情緒相關的標籤很常出現在社群網站上;Kipp (2011b)則以索引典為基礎,藉以分析社會標記的使用類別及其關鍵字間的索 引典結構關係;Kipp 與 Campbell(2006)以計量的方式分析標籤使用頻率與排 序名次(rank)的比例符合冪次法則(Power Law) ,也就是會有少數的標籤會被 重複使用的趨勢;除這些熱門標籤外,也存在著許多低使用頻率的標籤,即長尾 現象(Long Tail)(Wal, 2005 ; Anderson, 2006)。 由上述兩種探討可知有些使用者使用標籤時會隱含著階層式的(上位詞)概 念,且由長尾現象與冪次法則的研究可發現標籤的被重複使用性概念與階層式不 謀而合,故也有研究欲探討那些被重複使用的標籤之間的關聯性為何。Cattuto、 Barrata、Baldassarri、Schehr 與 Loreto(2009)提到標籤之間隱含著一個網絡狀 的結構,可將標籤之間的語意關係表徵出來中,以方便理解這些資訊,故不同的 使用者其標籤網絡會因對資訊的認知或組織策略的不同而產生差異。使用者、資 訊和標籤之間的對應形成一個三分(tri-partite)關係,也就是自組織現象的產物, 而這樣的關係是一個相互關聯的非線性網絡結構,顯著地影響資訊的組織拓撲結 構和關係網絡,使得訊息在組織上呈現複雜地網狀結構(Pollner, Palla, & Vicsek,. 8.
(19) 2010) 。標籤形成的網絡屬於複雜網絡(complexity network)的一種形式(Pollner et al., 2010) 。複雜網絡並無精確的定義,可以看成是大量真實複雜系統的拓樸抽 象,並借助於數學圖論和統計物理的一些方法,用來研究網絡的演化機制、演化 規律和整體行為,它既不是規則網絡,也不是隨機網絡,是一個具有和這兩者截 然不同統計特徵的網絡,例如冪次定律、高群聚係數、社團結構(community structure) 、階層結構(hierarchy structure) 。當網絡中有節點加入或刪除時,會使 網絡中節點聯結依其關聯性或相似性而有斷裂、相連現象,這樣的過程會使節點 的度分布發生變化,朝向有序方向發展,這些特性可說是系統自組織演化的結果 (Dorogovtsev & Mendes, 2003)。複雜網絡相關研究中,比較經典的網絡模型有 小世界網絡(small world network)、無尺度網絡(scale-free network),前者的特 性是路徑長度短與高群聚係數,後者的特性則是度分布的冪次定律遞減 (Newman, 1939; Albert & Baraba´si, 2002),這些理論在後續觀察標籤網絡的結 構、多樣性與時序性的指標衡量上具有相當程度地啟發。 更進一步地除去研究者本身,將使用者使用的標籤和所標記的資訊內容(i.e. 網頁)化成二元(bipartite)結構,由此二元結構可以觀察到一篇資訊有許多標籤 用來描述它且也發現許多標籤會有重複被使用的情形(Marlow, Naaman, Boymd, & Davis, 2006; Mika, 2007)。接著由「共現性(co-occurrence)」可將此二元結構 分成兩個網絡,分別為標籤網絡與資訊內容(i.e.網頁)網絡(Shen & Wu, 2005; Schmitz et al., 2007)。資訊內容間的關係被定義為資訊內容間共有的標籤數,即 「資訊內容網絡」 ;而「標籤網絡」則是使用者用三個標籤來描述此資訊內容時, 代表這三個標籤彼此之間存在著某種程度上的關聯性,當網絡圖裡節點愈大代表 被使用的頻率愈大,標籤之間的聯結愈粗代表標籤之間的關聯度愈高。故在過去 的 研 究 中 , 標籤 的 共現 性 與 標 籤 網絡 的 性質 也 有 不 少 相關 研 究 : Kipp 與 Campbell(2006)以多項度量尺法(MultiDimensional Scaling, MDS)觀察標籤之 間的共現性;Begelman、keller 與 Smadja(2006)則以群集分析探討標籤之間的. 9.
(20) 共現性;Chen、Tseng、Ke 與 Sun(2011)則以時間序列分析來將社會性標籤分 群。網絡結構評估上則著重在分析標籤網絡是否為小世界網絡並以度分配(Shen & Wu, 2005) 、群聚係數(Shen & Wu, 2005; Schmitz et al., 2007) 、平均路徑(Shen & Wu, 2005)、聯結性(Schmitz et al., 2007)等網絡指標來分析之;Heymann 與 Garcia-Molina(2006)分析了 Del.icio.us 及 CiteUlike 兩種社會性標記網站的網絡 視覺化成階層式的標籤網絡,並且也特別提出一個標籤的中心度(centrality)在 階層化過程中的重要性;Pollner 等人(2010)使用群聚係數來觀察標籤的自我相 似(self-similarity)與標籤因為階層結構而形成的子圖結構(subgraph)變化情形, 並指出標籤網絡裡的階層結構在資訊搜尋是一新研究趨勢。也有以時間為單位藉 由時序預測模型(time-series forecast)觀察社會性標籤網站 CiteULike 上使用者 使用標籤的情形(Farooq et al., 2007)。 上述標籤之類型、品質與標籤關聯性的研究皆是針對使用者標籤結果進行探 討,但在研究方法上因關注議題不同而有限制:第一,長尾現象關心的是標籤的 極高使用率(前 20%)與極低使用率(Kipp & Campbell, 2006) ,但是在標籤網絡 中,介於極高與極低中間的這些使用頻率為中等的標籤其重要性在於如何將使用 率前 20%的標籤與極低使用率的標籤透過語意概念連接在一起。第二,結構性探 討上,群集分析與 MDS 僅描述哪些標籤會在一群而並非以結構性指標來描述標 籤;標籤在時間序列上變化的分群也僅用分群演算法來描述在某個時間點上被歸 為同類的標籤其關聯性,標籤關聯度的計算是根據關鍵字的權重,例如想蒐集「悲 慘世界」這部電影的影評,但擷取到的某些網頁中可能包含了其它電影的資訊(如 電影時刻表裡同期上映的電影名稱),故在蒐集資料時,這些電影時刻表中出現 的電影名稱也會被用來表示為代表此網頁的內容;標籤網絡非傳播議題,故不適 合使用平均路徑、聯結性的指標來評估標籤是否具有小世界現象。第三,雖藉由 時序預測模型(time-series forecast)來分析標籤的使用模式並預測將來的走勢, 但僅以資料的峰值來作描述性統計。. 10.
(21) 綜觀過去的研究,大多是針對標籤的結果來進行計量性與結構性的探討,並 無針對標籤的歷程進行討論,但是 Tapscott 與 Williams(2006)談到標籤是一種 「有機的分類」,隨著時間點不同,這些標籤使用趨勢會有著不同的變化;由資 訊表徵應用在標籤視覺化上可看作是使用者對這些資訊的分類架構、組織策略, 而不同的視覺化介面也會引導使用者有不同的組織資訊策略。而本研究所關注的 資訊組織問題主要是探討使用者在不同視覺化介面上使用標籤的過程中其策略 多樣性的變化,亦即使用者使用標籤上喜歡用大量的新標籤還是會重複使用已經 出現過的舊標籤,並瞭解使用者如何安排這些標籤出現順序以及如何交替使用, 所以除了標籤的結果須探討外,標籤組織的歷程亦是一重要的研究觀點。因此, 本研究擬採用標籤視覺化介面,讓使用者使用標籤的過程中可以看到自己組織過 的標籤,並將其視覺化後的標籤網絡視為使用者個人資訊組織的結果,使用社會 網絡指標來分析之,再分別以多樣性的 Simpson’s index 指標與序列分析來探討 使用者在資訊組織歷程中之標籤被重複使用性與交替使用標籤的情形,最後提出 一權重值指標,用來衡量使用者在組織過程中對標籤的優先使用程度。. 第二節 標籤視覺化介面相關研究 由於本研究採用視覺化的方式將標籤機制與網絡視覺化結合,由第一章第一 節談到的語意模型理論可知資訊表徵應用在標籤視覺化上可看作是使用者對這 些資訊的分類架構、組織策略,而不同的視覺化介面也會引導使用者有不同的組 織資訊策略,故在此選取三種相異的視覺化介面來比較使用者的使用性。 在視覺化介面的探討上,主要為技術方面探討與使用性探討:技術方面的研 究來看,標籤雲與標籤網絡這兩種形式為動態視覺化介面呈現,以標籤之間的相 似程度為呈現依據,也就是當使用者標記一個新標籤或者刪除一個舊標籤後,其 它的標籤會因為相似度的改變而影響標籤字體大小與其佈局(layout) 。針對此種 介面的背景技術,主要分為三個部分,第一部分探討的是標籤字體大小,第二部 分探討標籤相似度,第三部分探討標籤的佈局: 11.
(22) 一、標籤字體大小變化 本研究的系統在這部分使用標籤選擇頻率來當成是標籤字體大小變化的依 據,當一個標籤的字體大小變化愈顯著,代表此標籤愈常被使用者所使用。這 部分計算方式採 Shannon(1948)從熱力學領域帶進資訊理論的熵(entropy), 也就是對於離散的機率分布 P,它的熵𝐻(𝑋)的權重決定其顯著性,其定義如 下: 𝐻(𝑋) = − ∑𝑥∈𝑋 𝑃(𝑥) 𝑙𝑜𝑔 𝑃(𝑥). (2.1). 其中,X 為所有標籤{𝑋1 … 𝑋𝑛 }的集合,𝑃(𝑥)為標籤 X 出現在此樣本空間的機率, 𝐻(𝑋)是{𝑋1 … 𝑋𝑛 }的連續函數(Manning, Raghavan, & Schütze, 2009)。 在標籤系統裡,標籤被選取的頻率會影響所有標籤的權重值,所以必須考慮 到相互影響的因素(Cui, Wu, Liu, Wei, & Zhou, 2010) 。針對兩個隨機變數標籤 X、 標籤 Y,假如其機率分布為𝑃(𝑥)與𝑃(𝑦),而其聯合機率分布為𝑃(𝑥, 𝑦),則標籤 X 和標籤 Y 的互資訊其定義如下: 𝐻(𝑋: 𝑌) = − ∑ ∑ 𝑃(𝑥, 𝑦) 𝑙𝑜𝑔 𝑥∈𝑋 𝑦∈𝑌. 𝑃(𝑥, 𝑦) 𝑃(𝑥)𝑃(𝑦). (2.2). 當標籤 X 和標籤 Y 相互獨立時,𝑃(𝑥, 𝑦)= 𝑃(𝑥)𝑃(𝑦),所以𝐻(𝑋: 𝑌)的值會趨近於 0,代表這兩個標籤較少機會同時被使用在同一份文件上。. 二、標籤相似性 共現性的基礎是建立在一群語意空間內,這種設計意味著相似度較高的詞彙 (標籤)在介面佈局上會彼此接近,也就是語意(semantic)概念相近的標籤會 較為靠近(Burgess & Lund, l995a; Burgess & Lund, l995b),所以如何計算標籤之 間的相似程度是一重要步驟。在計算相似度相關文獻當中,一系列物件在同一向 量空間的表示被稱為向量空間模型,它是資訊檢索的基礎,探討的就是如何將物 ⃗ (X)和標籤 Y 向 件依其相似度進行分類及分群,其常規方法是求標籤 X 向量𝑉 ⃗ (Y)的餘弦相似度(cosine similarity),其定義如下: 量𝑉 12.
(23) cos(𝑋, 𝑌) = (. ⃗ (X) ∙ 𝑉 ⃗ (Y) 𝑉 ) ⃗ (X)||𝑉 ⃗ (Y)| |𝑉. (2.3). ⃗ (X)和𝑉 ⃗ (Y)的內積(inner product) 其中,分子是向量𝑉 ,分母是兩個向量的歐 基里德長度(Euclidean length)乘積。透過這樣的計算可以簡單地計算出標籤之 間的相似程度,若 cos 值為 1 則代表標籤 X 和標籤 Y 經常被一起使用,代表在 語意或使用者的認知上來講,這兩個標籤是相似的(Cui, Wu, Liu, Wei, & Zhou, 2010; Fujimura et al., 2008;歐崇明、時文中、陳龍,2010)。. 三、Force-Directed Model 介面呈現上採用 Fruchterman 與 Reingold(1991)提出的 Force-Directed Model,此演算法是讓所有在介面上呈現的標籤保持某個適當距離,且標籤間相 互存在一水平與垂直的兩種吸引力,可以讓語意概念相似的標籤相互靠近。此演 算法被廣泛的應用,在這兩種吸引力中加入權重(weight)概念求其顯著性。其 定義如下: f(𝑋, 𝑌) = 𝑊𝑋 𝑊𝑌 △ 𝜄. (2.4). 𝑊𝑋 和𝑊𝑌 指的是標籤 X 和標籤 Y 出現的頻率,△ 𝜄指的是兩個標籤之間的水平作 用力與垂直作用力長度,△ 𝜄拆成水平作用力長度△ 𝑥與垂直作用力長度△ 𝑦。如圖 2-1 與圖 2-2 所示:. 圖 2-1 作用力△ 𝜄. 圖 2-2. 作用力△ 𝑥與△ 𝑦. 在使用性的探討上,Del.icio.us等標籤系統上,視覺化介面等輔助標籤工具 的用途在於穩定標籤的用字(terminology) (Golder & Hubberman, 2006) ,故探討. 13.
(24) 其介面差異性之相關研究可分為兩類:探討標籤介面的演算法差異性是否影響使 用者瀏覽或組織資訊、在搜尋任務的情境差異性上如何影響使用者選擇輔助介面。. 一、探討因演算法差異而產生的各種標籤介面 Bateman、Gutwin 與 Nacenta(2008)及 Rivadeneira、Gruen、Muller 與 Millen (2007)這兩篇研究證實了字體大小、字體權重顯著影響標籤選擇,並也點出標 籤雲介面適合在沒有目的的動機下輔助使用者瀏覽資訊;Rivadeneira 等人(2007) 則證實了標籤分布區域若在介面的左上角(upper-left)會顯著的影響標籤選擇; Rivadeneira 等人(2007)比較標籤根據不同演算法呈現的四種介面:英文字母排 序、最常出現的標籤其字體愈大也優先呈現在左上角的介面、spatially packed (Feingerg’s)、標籤列表形式排列(最常出現的放在最上面,但是無字體大小變 化),發現使用者在這四種介面上瀏覽、檢索的使用性上無顯著差異,雖結果無 達顯著性,但是以標籤列表形式出現的介面有比較明顯可以幫助使用者再認知 (recognition),即經由此介面的呈現方式,可讓使用者對於這些資訊重新去定 義; Schrammel、Leitner 與 Tscheligi(2009)則以字母、隨機、俗民分類基礎、 語言學為技術去比較這些介面使用性,結果發現在一般的搜尋任務及特定的搜尋 任務中,以語意基礎的介面相較於隨機介面可以改善,但是此篇研究也提到,標 籤介面是無法改善使用者去記住這些標籤,也就是隨著時間過去,使用者事後也 無法根據這些標籤去達到正確的搜尋任務;Cattuto 等人(2007)指出標籤雲裡 的標籤透過共現性可看到階層式的架構出現;Trattner、Denis 與 Strohmaier(2011) 研究顯示階層式架構在導覽(navigation)功能上比標籤雲介面還要好;Helic、 Trattner、Strohmaier 與 Andrews(2010)提出標籤雲因為有分頁(pagination)問 題,故也會影響使用者在標籤雲介面導航、瀏覽資訊的流暢度。. 二、在搜尋任務的情境差異上導致影響標籤介面使用的相關研究 Sinclair 與 Cardew-Hall(2008)將標籤雲與搜尋欄(search bar)做檢索比較, 發現事後遇到特殊檢索任務時,使用者偏好搜尋欄,但若是一般任務(non14.
(25) specific),使用者則偏好使用標籤雲介面,所以沒有足夠的理由支持標籤雲在導 覽的角色。但也有受訪者於訪談時表示標籤雲可以讓使用者不用去思考到底想要 找什麼,因為它就像是一個視覺摘要一樣,直接看到最熱門的關鍵字依其程度有 哪些。 綜上述之研究,根據使用者的情境,不同的視覺化介面會帶來不同的組織結 果:標籤網絡介面是當使用者不知道要找什麼純粹瀏覽時,可以透過標籤之間的 聯結達到詞彙激發,將概念語意上的聯結達到概念的延伸作用;標籤雲介面則可 以在一堆關鍵字裡直接找到最熱門的關鍵字;標籤列表適合在有明確任務時尋找 資訊,達到再組織的目的。故選取此三種介面為本研究之研究工具。. 第三節 採用 h-index 觀點之相關研究 過去研究中,常使用到冪次定律與長尾現象來觀察標籤結果的使用頻率分布。 但是在 Wal(2005)中提到冪次定律、長尾現象的發生與社會性標籤系統的類型 有關,即有所謂廣泛性(broader)及狹窄性(narrower)的差異。例如 Del.icio.us 的使用者在網站上面的活動較為多樣,面對的資訊也較為豐富,所以屬於廣泛性 分類系統,因此冪次分布現象較為明顯;而 Flicker 的使用者只將標籤使用在個 人化的資訊內容上,所以屬於狹窄性的分類系統,長尾現象較為明顯。無論是冪 次現象或長尾現象,僅能觀察到哪些標籤為高度被重複使用又哪些標籤又僅出現 一、兩次。除此之外,本研究旨在探討每位使用者在不同視覺化介面上,使用者 的個人標籤組織策略,並不是去觀察每篇網頁被標記的標籤分布。個人的資訊組 織策略是會因人而異,所以本研究關心的是在標籤結果中,使用者如何利用那些 介於極高使用率與極低使用率的中段頻率標籤來進行資訊組織,進而去探討是否 會因為不同視覺化介面的呈現而存在差異。 本研究中,採用 h-index 的概念來探討哪些標籤會扮演著連接及高使用率與 極低使用率的橋接角色。Hirsch(2005)提出利用引文關係找出個別作者的研究 文獻對學科領域貢獻程度,其定義為該作者有多少篇文章之被引用數大於 H,例 15.
(26) 如某學者 h-index 為 5,代表其學者的著作中有 5 篇被引用超過 5 次。而本研究 使用此指標來描述標籤被重複使用的情形,例如,此使用者的 h-index 為 3,代 表使用者組織的結果中,有 3 個標籤被重複使用 3 次以上。 研究者先統計在這 30 篇網頁中,每個使用者使用幾個標籤來組織網頁,並 進一步將每位使用者使用過的標籤依使用次數由多至低列出,發現某些使用者的 標籤使用次數上出現極值狀態,舉例來說,使用者 A 總共使用 85 種(相異)標 籤,但是有 2 種標籤頻繁被使用達 30 次(如圖 2-3 標示黑色資料處為例) ,而 12 種標籤被使用超過 6 次(如圖 2-3 標示紅色資料處為例) ,其餘 71 種標籤僅被使 用 1 次(如圖 2-3 標示藍色資料處為例)。 30. 25. 標 20. 15. 10. 5. 0. facebook wire.tw 社交 社會 b d f h j l n p r t v x z B D F H J L N P R T V X Z BB DD FF HH JJ LL NN PP RR TT VV XX ZZ. 籤 使 用 次 數. 標籤使用種類(名稱). 圖 2-3 使用者 A 使用標籤之分布情形 過去在衡量標籤次數分布情形的方法通常都是用冪次定律、長尾現象來進行 分析,但是考慮到每位使用者組織資訊的策略會因人而異,不是所有的使用者都 具備上述兩種現象,且本研究在此關注的是介於極高與極少出現的標籤是如何將 極端的兩種標籤聯結(如圖 2-3 標示紅色資料處為例)。為觀察上述現象,本研 究使用者使用的標籤種類與每種標籤使用次數依序分為高度使用頻率(如圖 2-3. 16.
(27) 標示黑色資料處為例) 、中度使用頻率(如圖 2-3 標示紅色資料處為例) 、出現最 少次的標籤個數(如圖 2-3 標示藍色資料處為例)三種區段:最常出現的標籤次 數定義為高頻率,介於最常出現與最少出現的標籤則定義為中頻率,用 h-index 來算,代表此區標籤有 h 個標籤至少被使用超過 h 次。. 第四節. 採用社會網絡分析觀點之相關研究. 過去研究中,分析標籤結果除了以計量型指標(i.e. 長尾現象、冪次分布) 來探討外,也有研究著墨在標籤之間的關聯性而使用結構型指標探討之(詳見第 二章第一節) 。評估結構型現象最常使用到的指標有社會網絡分析(social network analysis)理論中的度分配(Shen & Wu, 2005) 、群聚係數(Shen & Wu, 2005; Schmitz et al., 2007)、平均路徑(Shen & Wu, 2005)、聯結性(Schmitz et al., 2007)等網 絡指標。由於標籤網絡不具有傳播現象,故本研究根據標籤的結果將其視覺化後 並使用度中心勢(centralization)與群聚係數(cluster coefficient)指標來分析使 用者在不同視覺化介面組織資訊的標籤網絡結構差異,指標定義如下:. 一、網絡指標─度中心勢(centralization) 本研究使用度中心勢指標來衡量使用者的標籤網絡裡的標籤之間相連的情 形。此指標的概念是先算出網絡圖中各節點的中心度,中心度的值為節點 A 直 接與其它節點相連的個數,全數算出後會得到圖中一最大中心度的值,接著計算 該值與圖中其它點的中心度差,從而得到幾個差值,最後再計算這些差值的總和, 最後用這個總和除以在理論上各個差值總和的最大可能值(Wasserman & Faust, 1994)。其公式如下: ∑𝑛 (𝐶𝑚𝑎𝑥 −𝐶𝑖 ). 𝑖=1 C=𝑚𝑎𝑥[∑ 𝑛. 𝑖=1 (𝐶𝑚𝑎𝑥 −𝐶𝑖 )]. Cmax 為網絡圖中最大節點之中心度值 Ci 為網絡圖中每個節點之中心度值. 17. (2.5).
(28) 二、網絡指標─群聚係數(cluster coefficient) 本研究使用群聚係數指標來衡量使用者的標籤網絡裡的標籤是否存在著群 聚效應。此指標的概念為某一點的群聚係數定義為其鄰居彼此間也是鄰居的程度, 假設該節點有 k 個鄰居此 k 個鄰居間所有可能形成的聯結總數為 k(k-1)/2。 此點的群聚係數為此 k 個鄰居間真正形成的聯結總數除以可能形成的聯結總數, 整個網路的群聚係數為所有點群聚係數的平均值(Wasserman & Faust, 1994)。. 第五節. 採用多樣性觀點之相關研究. 由使用者的標籤結果來看,使用者的資訊組織策略非常多種(Hsieh & Chiu, 2011),針對此結果探討後發現,這些差異可由使用者資訊組織的歷程進一步去 探討之:例如有些使用者剛開始會產生很多新標籤,之後就會固定使用已經出現 過的標籤,甚至會把這類的標籤當作是一種類別;而也有些使用者會認為每篇資 訊都不同,故應該用新的關鍵字來描述這些資訊。上述兩個例子主要是要闡述標 籤類別個數及每種標籤個數的關係並比較不同使用者的差異,研究者發現,多樣 性的物種豐富度與均勻度恰與標籤類別個數與每種標籤個數的概念不謀而合,可 表示標籤被重複使用性。進一步則探討在不同的標籤視覺化介面呈現上,使用者 組織標籤的策略多樣性是否也會受到影響。 多樣性是生態學用來評估地球上生物的變異狀況,依照生物多樣性公約 (CBD)與國際自然保護聯盟(International Union for Conservation of Nature,簡 稱 IUCN)的標準,多樣性指的是下列三種多樣性:物種多樣性(species diversity) 、 遺傳多樣性(genetic diversity)、生態系統多樣性(ecosystem diversity)。而所 有多樣性概念中,最常被拿來應用探討的是物種多樣性,此多樣性指的是區域內 的物種種類數目以及每種物種包含的個體數其相對數量。當生態系統內物種的分 布愈多樣,物質和能量流動的路徑就愈多,這也代表系統恢復穩定的能力就愈強。 多樣性研究也被應用在各式研究上,最早是被用來衡量經濟系統內經濟活動變化 的多樣性(Stirling, 2006 ; Stirling, 2007),資訊學家與社會學家也用多樣性指標 18.
(29) 來衡量資訊複雜度以及社交、經濟行為(Reagans & Zuckerman, 2001;Eagele, Macy, & Claxton, 2010)。 探討多樣性的指標有許多種,以下以常見的 Shannon diversity index 與 Simpson’s diversity index 分述之:Shannon-Wiener diversity index 又稱為 Shannon diversity index,其實就是資訊理論(Information theory)內的 communication entropy, 是生態學家借用資訊科學的一個數學指標。生態學家用來數量化群聚(community) 中種類的歧異程度。這個指標會同時受到種類數量(豐富度)與種類的數量分布 (均勻度)所影響,亦即 diversity =f(richness, evenness)。一個群聚內如果種類 越多(豐富度越高),Shannon diversity index 就越高;不同種類的數量越均勻一 致,Shannon diversity index 就越高(Stirling, 2006 ; Stirling, 2007)。由於本研究 中,每個使用者的標籤數低於 300 個,樣本數較小,Simpson’s diversity index 對 於樣本數較小的變動較為靈敏(Edward, 1964) ,故本研究使用 Simpson’s diversity index 來分析,當指標愈高代表標籤的多樣性愈高,例如:使用者 A 的多樣性為 5.602,使用者 B 的多樣性為 3.587,可以說使用者 A 相對於使用者 B 來說,使 用者 A 所使用標籤組織資訊的策略其多樣性相對比使用者 B 高。但是生物的豐 度資料常常難以正確計算,Shannon-Wiener diversity index 與 Simpson’s diversity index 等指標又同時受到豐富度與均勻度的影響,多樣性高,不一定代表豐富度 就高,或均勻度就一定高。 本研究採取多樣性裡的豐富度與均勻度概念(Stirling, 2007)來衡量使用者 在資訊組織過程中使用的標籤種類與個數之多樣性。指標選取上,由於本研究使 用者使用標籤總數為少量樣本(每位使用者使用的標籤數低於 300 個),在 Menhinick(1964)的實驗中,樣本數量少的情況下,使用 Simpson’s index 去衡 量的結果其靈敏度較高,故在多樣性指標的分析上選取 Simpson’s index 來計算。 其公式如下,並以表 2-1 例子加以說明:. 19.
(30) Simpson’s index=. ∑𝑖=1 𝑛𝑖 (ni −1) N(N−1). (Simpson,1949). (2.6). 𝑛𝑖 為標籤 i 的個數 N 為標籤種類總數 表 2-1 Simpson’s index 舉例 每種標籤的個數 標籤種類. 使用者標號 1. 使用者編號 2. 標籤一. 33. 2. 標籤二. 30. 5. 標籤三. 36. 93. 總和. 100. 100. D(使用者標號 1)=. 33(33−1)+30(30−1)+36(36−1). D(使用者標號 2)=. 100(100−1) 2(2−1)+5(5−1)+93(93−1) 100(100−1). = 0.3219. = 0.8665. 使用者編號 2 的多樣性相較於使用者編號 1 較高,顯示編號 2 使用標籤組織 資訊的多樣性較高,因為有些標籤被反覆使用 93 次,顯著高於其餘標籤,而使 用者編號 1 使用的標籤次數較為一致,所以兩相比較起來,使用者編號 2 組織資 訊的策略較為多樣。. 第六節 採用序列分析與優先使用權重觀點之相關研究 使用者的標籤網絡是一自組織演化的網絡,會隨著時間而有所變化,也可以 發現在組織過程的策略性也會因為因使用者的習慣與視覺化介面而有所差異,而 研究者從組織策略的多樣性進行探討時可發現,有些使用者看到一資訊時優先使 用已經出現過的標籤,或頻繁使用已經出現過的標籤。再進一步去觀察,有些使 用者雖交替使用重複的標籤,可是在標記的過程中卻優先使用新的標籤去組織; 或者有些使用者雖然新標籤交替使用,可是會優先使用已經用過的標籤後再根據 資訊內容使用幾個新標籤。為觀察這樣的現象,本研究選取序列分析(Sequential 20.
(31) analysis)來觀察使用者對於標籤新標籤或舊標籤是如何交替使用;並探討使用者 是否會因不同的視覺化介面而有優先順序或偏好上的差異(例如在標籤雲介面上, 是否會優先選取字體較大的標籤),進而根據權重值概念提出一指標,用來衡量 使用者在組織資訊時,對於新標籤與已經出現過的標籤其優先或偏好選擇使用的 程度。故本研究接續對序列分析與優先偏好使用程度之指標進行探討。. 一、序列分析之相關研究 序列分析方法在教育學領域中常被用來分析各種一連串行為模式(Bakeman & Gottman,1997 ; Marion, Touchette, & Sandman, 2003),其相關研究包含分析線 上學習的活動歷程與使用者和學習科技工具的互動性,使用者之間的行為模式是 一大研究重點,利用序列分析來說明和這些工具的非同步交流連續模式,測試每 一個行為之間的關聯性是否達到統計顯著性,並以連續行為間的轉換圖來描述線 上非同步交流的行為模式,藉由這樣的分析結果可以提供教師調整教學策略與改 善線上教學工具(Hou, 2010 ; Hou, 2011 ; Sung, Hou, Liu, & Chang, 2010)。 序列分析除了應用在上述研究外,只要可以將發生的行為編碼且可用時間排 序的樣本皆適合此分析方法(Bakeman & Gottman,1997),故本研究使用序列分 析來分析使用者使用新舊標籤的交替使用行為轉換。首先將每篇網頁使用的新標 籤比例先計算出來,標籤出現第一次定義為新標籤,同樣標籤在別篇網頁出現第 二次之後則被定義為舊標籤,定義完新標籤與舊標籤兩種「事件」後即為資料「編 碼」,分別計算出這兩個事件的次數並得到事件發生的次數轉換表,最後即使用 Z分數來計算這些事件轉換的顯著程度,Z分數超過1.96即達顯著性(同等於右尾 檢定中p< 0.05)。以本研究為例,研究者在觀察使用者每一篇網頁使用新標籤頻 率的時候,發現使用者使用新標籤頻率的分布為常態、正偏態或負偏態,故可選 擇取平均數、第一分位數Q1或第三分位數Q3為臨界值,高於臨界值的編為「高 頻(H)」 (即為頻繁使用新標籤) ,低於臨界值的編為「低頻(L)」 (也就是頻繁 使用舊標籤) ,編碼完後可得到一連串高頻(H)與低頻(L)事件的序列資料, 21.
(32) 例如「LHHHHHHHLLHHHHH」 ,最後分別計算出H→L、H→H、L→H、L→L四 種序列轉換次數,再以Z分數來計算其顯著性(Marion, Touchette, & sandman, 2003),公式如下: Z=. 𝑋−𝑁𝑃. (2.7). √𝑁𝑃(1−P). x:欲觀察轉換序列的頻率(分別為 H→L、H→H、L→H、L→L 四種序列) N:雙序列事件的次數 P:欲觀察轉換序列的機率期望值 假設 H 與 H 這兩個事件轉換的 Z 分數超過 1.96 即達統計顯著性,由上述例 子結果可以去解釋當 30 篇網頁變換時,使用者在使用標籤為 30 篇網頁組織時, 當每篇網頁切換之際,使用者容易由使用新標籤轉換到使用新標籤的狀態,也就 是會交替使用著新標籤。. 二、優先選取標籤之使用行為相關研究 在第一章第一節研究背景與動機和第二章第二節標籤視覺化介面相關研究 中提到某資訊愈被頻繁使用時,此資訊愈被容易檢索到,所以在標籤視覺化介面 應用上有以下差異:標籤列表上以標籤被應用次數多寡排序標籤的使用狀況;標 籤雲介面則以字體大小表現每個標籤出現的次數多寡;在標籤網絡介面上則以節 點大小表示差異之。本研究旨在探討不同的視覺化介面上,是否會因為呈現方式 的不同而讓使用者優先選擇已經被頻繁使用的標籤。而本研究則在此提出一權重 值指標,去探討使用者在不同視覺化介面上優先偏好使用標籤的行為。 此權重值的指標發想自資訊檢索裡談到的文件分類權重值概念。權重值的概 念在文件分類中十分重要,目的是為了由權重來取得分類依據的特徵詞彙 (feature word),其中常見的定理為 TF(Term Frequency)(Salton & Buckley, 1988),指的是某詞彙在某個文件中出現的次數,在文件 d 中詞彙 t 的權重可定 義為 W(d, t)= TF(d, t),即詞彙 t 在文件 d 中佔所有詞彙的比重分布。 使用者在每篇網頁使用的第一個標籤其權重值最大,依序遞減,例如某使用 22.
(33) 者在某網頁上使用 4 個標籤,依時間先後順序賦予權重為 4、3、2、1,假設這 四個標籤特性為新、舊、新、舊,那麼新標籤的權重為 W(新)= 4/(4+3+2+1) + 2/(4+3+2+1)=0.6,舊標籤的權重為為 W(舊)= 3/(4+3+2+1)+ 1/(4+3+2+1) =0.4,代表此使用者在組織網頁時會優先選擇用新的概念來為網頁資訊組織。 𝑊𝑖 𝑛 ∑𝑖=1 𝑊𝑖 𝑖∈𝑛. 𝑊𝑒𝑖𝑔ℎ𝑡 = ∑. Wi:標籤 i 佔所有標籤中的新(舊)權重值. 23. (2.8).
(34) 第三章 研究方法與設計 本研究主要希望能了解使用者在三種標籤視覺化介面對 30 篇網頁進行資訊 組織產生的標籤其結構差異性,並以 h-index、網絡分析、多樣性指標與時序性 指標評估之,最後提出一指標衡量使用者在資訊組織上對於標籤使用的偏好程度。 茲就研究流程、研究架構、研究方法、研究對象與素材、研究工具、研究假設、 研究實施、研究資料前處理等部分進行說明。. 第一節. 研究流程. 根據研究動機、目的與問題,整體研究流程可分為設定研究方向、實驗設計、 施測、資料蒐集與分析、撰寫研究報告等五個階段。. 一、設定研究方向 藉由文獻閱讀瞭解資訊組織、標籤視覺化介面、網絡分析、多樣性的研究現 況,發現在國內碩士論文中,缺乏運用網絡分析、多樣性與時序性指標評估標籤 結構的差異性,故最後研究方向為探討學生在這三種標籤視覺化介面下資訊組織 產生的標籤其結構差異性。. 二、實驗設計 本研究為比較學生在這三種介面上進行資訊組織的差異,故以立意抽樣 (purposeful sampling)抽取桃竹苗某高級職業學校二年級裡挑選三個班的學生 為研究對象,此三個班的學生來自不同科別,且為非資訊相關的理科科別,當年 度第一學期之計概成績平均值較為集中。實驗素材上以高級職業學校二年級計算 機概論課程延伸閱讀之相關網頁。三種介面的安排上,A 班使用標籤網絡介面, B 班使用標籤雲介面,C 班使用標籤列表介面。每個班級僅實驗一次,每次均使 用三節課(三個班級各 150 分鐘),於 2013 年 3 月進行。. 三、施測 施測前,研究者和參與研究之導師初步探討施測素材與對象,發現計算機概 24.
(35) 論課程為共同專業科目且這三個班級上課氣氛融洽、當年度第一學期之計概成績 平均值較為集中,故在不影響班級既定教學進度下,採用比較研究設計法選擇三 個班級的計算機概論上課時間進行實驗。由於本研究旨不在探討教學前與教學後 的差異,故每一個班級僅進行一次實驗,每一次的實驗皆為三節課共約 150 分鐘, 研究者首先進行 40 分鐘的教學說明與 20 分鐘的遊戲,最後的 90 分鐘即進行實 驗施測與課程問卷填寫。. 四、研究資料蒐集分析 研究者在三次的實驗進行時,將會以錄影的方式記錄整個實驗進行的過程, 可以觀察學生上課的反應。待三個班級的實驗結束後,研究者針對回收的課程問 卷作描述統計,根據實驗法得到的標籤結果利用 NetDraw 視覺化軟體繪製成網 絡圖,並使用 UCINET 社會網絡分析軟體去作網絡結構分析,再使用 Excel 與 Python 程式語言作多樣性與時序性指標分析,最後則使用 Excel 裡的統計檢定功 能探討上述指標其顯著性。. 五、研究報告撰寫 在三次的實驗結束後,研究者會開始進行對資料進行初步的整理與視覺化, 並進一步歸納出研究結果,最後再提出研究結論。. 第二節 研究架構 本研究屬於實驗法,透過實驗、教學問卷蒐集相關資料為量化形式。研究旨 在探討三種視覺化介面對於學生資訊組織結果的標籤網絡之結構性、多樣性與時 序性之差異。本研究之架構如圖 3-1 所示:. 25.
(36) 獨立變項. 依變項. 標籤列表 標籤雲 標籤網絡. 網絡指標 多樣性指標 時序性指標 圖 3-1 研究架構圖. 第三節. 研究方法. 一、實驗設計 由於本研究欲探討的是學生使用三種標籤視覺化介面對 30 篇網頁進行資訊 組織產生的標籤網絡其差異性,故採用比較研究設計法,此方法是對同一性質的 不同種類透過比較而找出其中的共同點或差異點,來深入認識事物本質(David & Sutton, 2006)。. 二、研究結果分析 本研究使用 h-index、網絡結構指標、多樣性指標、時序性指標來評估使用者 在這三種介面上使用標籤組織網頁的差異性,並以描述統計(i.e. 偏態係數、峰 態係數、中位數、平均數、最大值、最小值、標準差)來描述資料的集中程度與 離散程度。而為比較這些指標在三種介面上的差異,使用推論統計(i.e. 相關係 數、單因子變異數檢定(ANOVA))來描述其差異程度。. 第四節 研究對象與研究素材 一、研究對象 本研究對象挑選上以高級職業學校為首選,高級職業學校的教育型態為科技 預備教育,以培養工作核心能力為主要發展,比一般國民小學、國民中學的學生 具備一定程度的資訊能力,也比高級中學與大學提早接觸到專業科目,所以可降 低實驗素材挑選上的發散性,故研究對象的挑選上以高級職業學校的學生為主。 26.
Outline
相關文件
比較多樣的 視覺及文字 資料,選擇 符合主題適 切性及具美 感的表現形 式,並採用 自我的語言 及角度進行 創作 8.
新界婦孺福利會梁省德學校
問題是,經歷了十多年的填鴨教育,學生早 就習慣了被動的接收模式,要找回早已失落
由於資料探勘 Apriori 演算法具有探勘資訊關聯性之特性,因此文具申請資 訊分析系統將所有文具申請之歷史資訊載入系統,利用
利用 Web Survey 來蒐集資料有許多的好處。許多研究者利用 Web Survey 進行研究的主要原因在於可以降低成本、即時的回覆。然而,Web Survey
介面最佳化之資料探勘模組是利用 Apriori 演算法探勘出操作者操作介面之 關聯式法則,而後以法則的型態儲存於介面最佳化知識庫中。當有
根據研究背景與動機的說明,本研究主要是探討 Facebook
本研究以取自石門水庫地區之低塑性黏土為研究對象,以浸水直