• 沒有找到結果。

以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式

N/A
N/A
Protected

Academic year: 2021

Share "以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式"

Copied!
166
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學圖書資訊學研究所 博士學位論文. 指導教授:柯皓仁 博士. 以關鍵字使用分析探討社會標記者與 索引專家的文獻標引心智模式 A Study on Mental Models of Taggers and Professional Indexers for Article Indexing Based on Analysis of Keyword Usage. 研究生:陳亞寧 撰. 中 華 民 國 一○二 年 六 月.

(2) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. ii.

(3) 謝. 辭. 在一個重要的人生轉折中,懷著一份感恩的心情就讀臺師大圖資所。於求學 期間,感謝吳美美教授、陳昭珍教授、卜小蝶教授、謝建成教授、邱銘心教授與 謝吉隆教授,傾囊相授各項專業理論與知識,及柯皓仁教授在論文的指導、國際 期刊論文的投稿與處事圓融的方式等,讓我學習到很多,受用無窮。 感謝黃鴻珠教授與林呈潢教授的推薦信,才得以順利考上臺師大圖資所博士 班。論文計畫書與學位論文口試時,謝謝黃鴻珠教授、陳雪華教授、陳昭珍教授、 陳志銘教授及唐牧群教授等,以及所上每位老師與 Dr. Diane Sonnewald 提供的各 項寶貴建議,論文才得以順利完成。苑菁助教耳提面命的叮嚀與奕翔助教在設備 上的協助,也是在求學過程中,不可或缺的一環,才得以順利完成各項學業課程 上的修習。在論文撰寫歷程中,也感謝秋霞、國勳、美聖、慧娉等人的協助。口 試時,恆毅的海報製作、智惠的餐點安排、佳香的會議紀錄,以及修課中,阿亮、 寂絹、忠諺、于第、淇龍、智惠、佳香、忠勤、宗曄,及柯柯軍團的每位學弟妹, 各項問題的討論及參與,彼此間的鼓勵與協助,是驅動我持續努力完成論文的原 動力之一,在此也一併致謝。 求學期間,家中父母先後住院與開刀,如果沒有家姐的付出,我是不可能完 成論文,順利畢業的,特別感謝她的辛勞。最後,也感謝默默協助我,卻一點也 不在意忘記提起他/她們的每一位貴人。. 陳亞寧 謹識 102.6.28.

(4) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. iv.

(5) 摘. 要. 隨著 Web 2.0 的廣泛應用,各式社會網路平台提供了社會標記的功能,讓 社會標記者以自由形式的關鍵字組織各式資訊。在圖書資訊學界方面,資訊組 織的權威控制與索引典控制係以一種控制詞彙的方式標引資訊的內容屬性。無 論是社會標記者或是圖書資訊學界的索引專家皆將關鍵字視為一種觀念,且依 其先備經驗與知識,經由關鍵字以表徵其對資訊內容所認知的理解與心智模 式。現有的研究皆著重在以個別的關鍵字為研究對象,包括關鍵字的來源與使 用情形,以及社會標記與控制詞彙間關鍵字的重複情形等,並未具體提出完整 的文獻標引心智模式地圖,而是零散、片斷且沒有任何關聯關係的文獻標引心 智模式。如果可以更瞭解社會標記者與索引專家的心智模式及其差異,即可選 用更適當的關鍵字組織各項資訊資源,進而促成資源的發掘,導引使用者找到 所需的資訊。 本研究旨在以關鍵字的使用分析,探討社會標記者與索引專家的文獻標引心 智模式。在樣本資料方面,本研究選取 13 種圖資期刊中 1,489 篇文獻的社會標 記與控制詞彙等關鍵字為樣本,包括 CiteULike 的 3,972 個社會標記(1,672 個不 重複標記)與 LISA 的 6,708 個控制詞彙(1,338 個控制詞彙)。在研究方法則是 計算關鍵字的使用情形外,還包括社會網路分析與頻繁樣式成長法(含頻繁樣式 樹)等方法討論隱藏在關鍵字間的關聯關係結構與樣式。從關鍵字的使用情形、 冪次定律分佈、社會標記與控制詞彙間的關鍵字比對、社會網路分析(包括:中 心度、階層集叢、同等角色)及頻繁樣式成長等方面而言,結果顯示社會標記者 與索引專家間的文獻標引心智模相似度並不高,主要的研究結果如下: 1.. 社會標記者的文獻標引心智模式比索引專家更為多元化。. 2.. 社會標記者直接從文獻題名中選用關鍵字的傾向高於索引專家。. 3.. 社會標記與控制詞彙間的相同程度不高且彼此互補。 i.

(6) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 4.. 社會標記者不經常單獨使用內容群組的關鍵字類別及其所擁有的關鍵 字,卻經常與題名主題群組的關鍵字類別及其所擁有的關鍵字一起搭配 使用。索引專家雖然不常單獨使用其他群組的關鍵字類別及其所擁有的 關鍵字作為文獻標引之用,卻常與題名、主題與內容等群組及其所擁有 的關鍵字一起搭配使用。. 5.. 社會標記者傾向交替使用較多組的關鍵字類別及其擁有的關鍵字,而且 每組幾乎是由兩種不同的關鍵字類別所組成。然而,索引專家則是傾向 交替較少組的關鍵字類別及其擁有的關鍵字,且每組幾乎是由兩種以上 不同的關鍵字類別所組成(即 2、3 與 7 種)。. 6.. 社會標記者傾向使用較少的 FP-tree 規則且較少的關鍵字類別進行文獻 標引,而索引專家則是傾向使用較多的 FP-tree 規則且較多的關鍵字類 別,組織各式資訊資源。. 基於前述的研究結果,本研究貢獻主要有五項:發展文獻標引的心智模式、 分析文獻標引心智模式地圖及其結構與樣式、分析關鍵字的使用情形及其共同出 現的關聯關係特質、從心智模式解釋社會標記與控制詞彙兩者互補現象的原因, 及擴展標記類別模式(tag category model)的可行性驗證與應用解釋。研究結果 亦可進一步應用在資訊系統的設計,包括關鍵字的推薦、使用者界面的設計及瀏 覽分類架構的建立與運用。. 關鍵字:社會標記、控制詞彙、標引、心智模式、社會網路分析、頻繁項目樣式 成長. ii.

(7) Abstract With the wide application of Web 2.0, various social networking platforms allow taggers to use uncontrolled, free keywords (i.e., social tags) to organize information. In library and information science, professional indexers are guided by the principles of authority control and thesaurus control to organize information with controlled vocabularies. Both social taggers and professional indexers regard keywords as concepts that represent their cognitions and mental models of information content, according to their prior experience and knowledge. Existing studies have focused on examining the sources and usage of individual keywords, and comparing the similarity between tags and controlled vocabularies. However, the results of such studies only reflect scattered debris rather than a whole picture of the mental models used by social taggers and professional indexers for article indexing. A better understanding of the mental models of taggers and professional indexers and their usage gap may inspire better selection of appropriate keywords for organizing information, facilitating resource discovery, and guiding users to find the right information. This study explores the mental models used by taggers and professional indexers to designate keywords for article indexing. Using a dataset of 3,972 CiteULike tags and 6,708 Library and Information Science Abstracts (LISA) descriptors from 1,489 scholarly articles in 13 library and information science journals, this study attempts to analyze the keyword usage of taggers and professional indexers to capture and build up their mental models for article indexing, and generalize their structures and patterns. To achieve this end, in this study social network analysis and frequent-pattern growth methods were employed. When measured with respect to terms used, power law distribution, a comparison of terms used as tags and descriptors, social network analysis (including centrality, overall structure and role equivalence) and frequent-pattern growth analysis (including frequent-pattern tree), little similarity was found between the mental models of taggers and professional indexers in article indexing. The results of this study are summarized as follows:  Taggers’ mental models for article indexing are more diverse than those of professional indexers.  Social taggers have a higher preference than professional indexers to select terms for article indexing from title keywords.  There is little similarity between social tags and controlled vocabularies and . they complement each other. Keywords in content-related categories were not used independently by iii.

(8) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. . . social taggers, but they were often used with those from topic-related categories. On the other hand, keywords of other-related categories were often co-used with those of title-, topic- or content-related categories by professional indexers. Social taggers may prefer to assign co-occurring keywords with more sets of fewer facets’ viewpoints (almost always two-facets); however, professional indexers may be inclined to offer keywords with fewer sets of more facets’ viewpoints (i.e., two-, three- and seven-facets). Social taggers may be inclined to assign keywords with fewer path-based rules comprising fewer keyword categories. Professional indexers may tend to offer keywords with more path-based rules comprising more keyword categories.. According to the research results mentioned above, the key contributions of this study are as follows:  Development of a generic model of mental models of social taggers and professional indexers for article indexing.  Analysis of the structures and patterns embedded in maps of mental models   . of social taggers and professional indexers in article indexing. Analysis of the characteristics of keyword usage and co-occurring keywords’ associations. Presentation of a theoretical basis to explain the reason why social tags complement controlled vocabularies. Extension of the tag category model by feasibility examination and explanation.. Furthermore, the results of this study also inform the design of information systems, including term recommendations and user interfaces for indexing, as well as frequent-pattern based classification trees for browsing and navigation. Keywords: social tags, controlled vocabularies, indexing, mental models, social network analysis, frequent pattern growth. iv.

(9) 目次. 目 次 摘 要............................................................................................................................... i 目 次.............................................................................................................................. v 表 次............................................................................................................................vii 圖 次.......................................................................................................................... viii 第一章 緒論.................................................................................................................. 1 第一節 研究背景與動機...................................................................................... 1 第二節 研究目的與問題...................................................................................... 4 第三節 研究的重要性.......................................................................................... 4 第四節 研究範圍與限制...................................................................................... 5 第五節 名詞解釋.................................................................................................. 6 第二章. 文獻探討...................................................................................................... 9. 第一節 理論框架:心智模式、系統印象與資訊組織...................................... 9 第二節 關鍵字的來源及其類型........................................................................ 16 第三節 社會標記與控制詞彙間的關聯程度.................................................... 17 第四節 關鍵字的類別及其使用情形................................................................ 20 第五節 關鍵字類別的關聯關係結構與樣式.................................................... 27 第六節 文獻標引心智模式的理論模式............................................................ 28 第三章. 研究方法.................................................................................................... 31. 第一節 研究工作................................................................................................ 31 第二節 研究對象................................................................................................ 34 第三節 資料收集................................................................................................ 35 第四節 關鍵字的類別及入類............................................................................ 37 第五節 關鍵字意義的解讀與分析.................................................................... 42 第六節 關聯關係的結構與樣式分析................................................................ 44. v.

(10) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 第七節 心智模式相似性的評估方式................................................................ 57 第四章. 研究結果與討論........................................................................................ 59. 第一節 關鍵字及其類別的使用分析................................................................ 60 第二節 社會標記與控制詞彙之間的關鍵字比對............................................ 68 第三節 SNA 中心度分析................................................................................... 71 第四節 SNA 階層集叢分析............................................................................... 80 第五節 SNA 同等角色分析............................................................................... 84 第六節 FP-tree 分析 ........................................................................................... 89 第七節 FP-growth 分析 ..................................................................................... 99 第八節 使用關鍵字的心智模式...................................................................... 103 第九節 資訊系統設計的意涵.......................................................................... 105 第五章 結論與建議.................................................................................................. 109 第一節 結論...................................................................................................... 109 第二節 研究貢獻.............................................................................................. 114 第三節 未來研究建議...................................................................................... 119 參考文獻.................................................................................................................... 123 附錄............................................................................................................................ 133 附錄一 FP-tree 路徑規則中的各階層社會標記關鍵字類別 ............................... 133 附錄二 FP-tree 路徑規則中的各階層控制詞彙關鍵字類別 ............................... 139 附錄三 以社會標記群組組成的路徑式規則階層及其關鍵字類別與規則........ 147 附錄四 以控制詞彙群組組成的路徑式規則階層及其關鍵字類別與規則........ 151. vi.

(11) 表次. 表 次 表 2.1 表 2.2 表 2.3 表 2.4 表 2.5. 文獻題名分別與社會標記、控制詞彙間的關鍵字比對情形.................... 17 社會標記與控制詞彙重複比例的文獻分析................................................ 20 TCM 項下的各子類別 .................................................................................. 24 最常用的社會標記類別................................................................................ 27 社會標記類別的類型.................................................................................... 27. 表 3.1 表 3.2 表 3.3 表 3.4 表 3.5. 研究樣本一覽................................................................................................ 36 關鍵字類別及其與各文獻間的關聯關係:第一與二項研究工作............ 39 關鍵字類別及其與各文獻間的關聯關係:第四項研究工作.................... 42 文獻題名與社會標記間關鍵字比對的入類情形........................................ 45 文獻題名與控制詞彙間關鍵字比對的入類情形........................................ 47. 表 3.6 表 3.7 表 4.1 表 4.2. 社會標記與控制詞彙間關鍵字比對的入類情形........................................ 50 FP-tree 項目集 ............................................................................................... 56 RQ 和第四章研究結果與討論各節內容間的相互關係 ............................. 60 社會標記關鍵字類別的使用數量與百分比................................................ 61. 表 4.3 表 4.4 表 4.5 表 4.6 表 4.7 表 4.8 表 4.9 表 4.10 表 4.11. 控制詞彙關鍵字類別的使用數量與百分比................................................ 62 社會標記與控制詞彙間關鍵字的比對情形................................................ 69 關鍵字類別三項中心度的排名名次與係數................................................ 77 共同出現的社會標記關鍵字類別及其次數................................................ 83 共同出現的控制詞彙關鍵字類別及其次數................................................ 84 同等角色的社會標記關鍵字類別及其次數................................................ 87 同等角色的控制詞彙關鍵字類別及其次數................................................ 87 社會標記者與專家間共同的路徑式規則群組及其實例............................ 98 社會標記的 FP-growth 規則組合及其支持度與信賴度............................. 99. 表 4.12 控制詞彙的 FP-growth 規則組合及其支持度與信賴度 .......................... 100. vii.

(12) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 圖 次 圖 2.1 圖 2.2 圖 3.1 圖 3.2 圖 3.3. 心智模式系統印象與語意落差間的關係.................................................... 12 文獻標引的心智模式及其推導的研究問題................................................ 30 研究組成........................................................................................................ 32 研究程序........................................................................................................ 32 研究問題與樣本間相互關係及其分析方式................................................ 33. 圖 3.4 圖 3.5 圖 3.6 圖 4.1 圖 4.2. 星狀式社會網路............................................................................................ 53 環狀式社會網路............................................................................................ 53 FP-tree 範例圖 ............................................................................................... 56 社會標記的關鍵字使用分佈情形................................................................ 64 控制詞彙的關鍵字使用分佈情形................................................................ 64. 圖 4.3 圖 4.4 圖 4.5 圖 4.6. 社會標記的關鍵字類別使用分佈情形........................................................ 65 控制詞彙的關鍵字類別使用分佈情形........................................................ 66 社會標記出現在控制詞彙的類別分佈情形................................................ 69 控制詞彙出現在社會標記的類別分佈情形................................................ 70. 圖 4.7 圖 4.8 圖 4.9 圖 4.10 圖 4.11 圖 4.12 圖 4.13 圖 4.14 圖 4.15. 社會標記關鍵字類別的三項中心度............................................................ 75 控制詞彙關鍵字類別的三項中心度............................................................ 76 社會標記關鍵字類別的 SNA 階層集叢多維尺度圖.................................. 81 控制詞彙關鍵字類別的 SNA 階層集叢多維尺度圖.................................. 82 社會標記關鍵字類別的 SNA 同等角色多維尺度圖 .................................. 85 控制詞彙關鍵字類別的 SNA 同等角色多維尺度圖.................................. 86 社會標記關鍵字類別的 FP-tree 使用分析 .................................................. 91 控制詞彙關鍵字類別的 FP-tree 使用分析 .................................................. 92 社會標記者使用關鍵字的路徑式決策樹.................................................... 95. 圖 4.16 專家使用關鍵字的路徑式決策樹................................................................ 96 圖 4.17 社會標記者使用關鍵字的文獻標引心智模式.......................................... 104 圖 4.18 專家使用關鍵字的文獻標引心智模式...................................................... 105. viii.

(13) 第一章. 第一章. 緒論. 緒論. 資訊組織(Information Organization, IO)的主要目的在於有效整理各式資訊 資源,及組織蘊含在資訊中的各項人類知識,進而促成最佳化的資訊檢索 (Information Retrieval, IR) ,引導使用者查找到所需的各項資訊及其知識。隨著 資訊暨通訊技術(Information and Communication Technologies, ICTs)的日新月 異,圖書資訊學界(以下簡稱「圖資界」)除了在資訊組織理論與實務等方面適 時調整外,也產生了一些改變。尤其在個人資訊管理( Personal Information Management, PIM)的趨勢衝擊下,資訊組織除了從學術與實務等專業領域進行 探討外,也必須充分瞭解使用者在個人資訊管理的行為特質與樣式(pattern)後, 才能發展出貼近使用者需求的資訊組織理論與實務。有鑑於此,本研究旨在於探 索一般使用者與索引專家(以下簡稱專家)以關鍵字進行文獻標引的行為,進而 探究兩者間文獻標引的心智模式及其相似性。本章內容共分為研究背景與動機、 研究目的與問題、研究的重要性、研究範圍與限制,以及名詞解釋等節,說明本 研究的目的及其內容梗概。. 第一節. 研究背景與動機. 資訊組織的發展與應用已累積許多的學術理論與實務經驗,以有效組織各項 人類知識及其載體(如:圖書與期刊)。從早期的館藏清單(inventory list),乃 至於卡片目錄(card catalog)與書本式目錄(book catalog),以及近年來的線上 公用目錄(Online Public Access Catalog, OPAC)、全球資訊網型公共目錄(Web OPAC)、社會化公用目錄(social OPAC)等,皆是因應不同時代潮流的需求, 所產生的資訊組織系統或工具,藉以引導使用者找到所需的資訊資源。背後支撐 這些資訊組織系統的理論與實務,則包括了記述編目(descriptive cataloging)與 編目規則(cataloging rules) 、主題編目(subject cataloging)與分類表(classification) 及主題標目(subject headings)、權威控制(authority control)與權威規範檔. 1.

(14) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. (authority file),以及索引典控制(thesaurus control)與索引典等。經由這些資 訊組織的學術理論與實務工具,各式資訊物件(information object)得以不同的 方式與粒度(granularity)有效組織,進而透過呈現、瀏覽與檢索的機制,導引 使用者發現、識別、選擇與獲取所需的資訊資源。在資訊組織領域中,所發展出 相關的理論與規範,係一種由上而下的專家型資訊組織,為能瞭解此種資訊組織 的有效性,已有相關研究從使用者與圖書館館員所使用的檢索關鍵字來檢視資訊 組織的有效性。例如,Carlyle(1989)以美國加州大學洛杉磯分校(University of California, Los Angeles, UCLA)171 位線上資訊系統使用者的查詢異動紀錄為研 究樣本,比對美國國會主題標目(Library of Congress Subject Heading, LCSH)與 使用者查詢內容間的異同,結果顯示近 74%的查詢內容可以比對到單一的 LCSH 標目。另外,Voorbij(1998)以 475 本人文與社會科學專書的書目紀錄為樣本資 料,由學科館員(subject librarian)以專書書目紀錄的題名關鍵字與主題控制詞 彙分別查詢,結果發現主題控制詞彙可以對前述專著增加約 37%至 49%的檢索 回現率(recall)。 另一方面,隨著 Google 等網路搜尋引擎的興起與影響,已改變使用者查找 資訊資源的方式,使用者習慣以單一關鍵字(keyword)或兩個以上關鍵字組成 的關鍵片語(key phrase)代表使用者的資訊需求與知識概念,查找各式資訊資 源。除此之外,隨著 Web 2.0 的推波助瀾,各式社會網路平台(如:Del.icio.us、 Flickr、Last.fm、YouTube 等)提供所謂的社會標記(social tags)或俗民分類 (folksonomy)方式,進行各式資訊資源的個人資訊管理。此種社會標記應用於 資訊組織的方式被稱為「民主式索引」 (democratic indexing) (Rafferty & Hidderley, 2007),係指使用者在組織這些個人化資訊資源時,並不依循資訊組織的原則與 規範,而是由下而上自然形成一種集體式的資訊組織及民主現象(Vander Wal, 2007)。儘管社會標記此種方式有別於既有的資訊組織方式,卻提供探索使用者 資訊組織行為的機會,也可以從另外一種觀點重新檢視資訊組織既有學術理論與. 2.

(15) 第一章. 緒論. 實務規範的適用性。 就資訊組織而言,關鍵字常被視為一種基本的資訊組織方式,經由以字詞代 表主題的概念或知識,藉以組織各式的資訊資源,以因應個人、機構(如:圖書 館)、學科社群(如:圖資界)等不同層次的需求。在資訊組織方面,關鍵字或 詞彙常經由所謂的「詞彙控制」(vocabulary control)方式,達成概念之表徵 (National Information Standard Organization [NISO], 2005) ,同時關鍵字也被視為 一種資訊組織的書目語言(bibliographic language) ,主要用來描述資訊資源的主 題、實體與製作等屬性資訊(subject, physical and production attributes) (Svenonius, 2000)。 在社會標記方面,Smith(2008)指出: 「在標記與組織個人資訊資源的過程 中,社會標記者(social taggers)除了將社會標記視為一種關鍵字外,也視為一 種概念。」在研究學生的資料庫查詢行為中,Holman(2011)指出:「在資料庫 查找文獻時,使用者將關鍵字視為一種概念(concept)。」由此可知,關鍵字皆 被一般使用者與專家視為對資訊資源及其內容所認知理解的一種知識表徵 (knowledge representation)。在以全球資訊網為研究對象之資訊檢索系統研究 中,Zhang(2008b)發現學生具有薄弱的資訊組織心智模式(mental models), 並建議深入瞭解使用者的資訊組織心智模式,將有助於全球資訊網資訊資源的組 織。唯有資訊組織專家與一般使用者擁有共享的經驗時(Inskip, MacFarlane, & Rafferty, 2008),資訊組織才能成功地達成資源發掘(resource discovery),導引 使用者找到所需的資訊資源。反之,所謂的「語意落差」 (semantic gap) (Maron, 1977; Rafferty & Hidderley, 2007)將會存在於一般使用者與資訊組織專家之間, 導致使用者無法找到所需的資訊資源。因此,如果資訊組織專家能夠清楚瞭解一 般使用者的文獻標引心智模式及其行為與認知,將會消弭上述語意落差的鴻溝, 且有助於資訊資源的發掘。. 3.

(16) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 第二節. 研究目的與問題. 本研究以心智模式為理論基礎,探討一般使用者與專家間資訊組織的文獻標 引方式與行為,並以關鍵字的使用分析為依據,進而建構「文獻標引心智模式」 的理論模式。換言之,本研究主要目的為探討一般使用者與專家間使用關鍵字之 文獻標引心智模式的相似性,及其文獻標引的行為與知識結構,期能對資訊組織 系統的功能設計提出建議,茲將研究目的分述如下: 1.. 以標引期刊文獻的關鍵字為基礎,建構一般使用者與專家所擁有的文獻 標引心智模式。. 2.. 檢視一般使用者與專家之文獻標引心智模式是否相似。. 為達成上述目的,除了瞭解一般使用者所運用關鍵字的文獻標引心智模式 外,也必須深入探討專家使用關鍵字的文獻標引心智模式。無論是一般使用者或 是專家,其文獻標引的心智模式將轉換為具體的行為,包括使用的關鍵字及關鍵 字樣式。因而,本研究的主要研究問題(Research Question, RQ)如下: RQ1:以標引文獻所使用的關鍵字而言,一般使用者與專家間的文獻標引心智模 式為何? RQ2:一般使用者與專家間的文獻標引心智模式是否相似,而且兩者是否存有不 同的系統印象?. 第三節. 研究的重要性. 以往有關心智模式的研究多數集中在資訊檢索(Zhang, 2008a, 2008b; Zhang & Chignell, 2001)、資訊尋求(Marchionini, 1989a, 1989b; Sutton, 1994)、參考服 務(Michell & Dewdney, 1998) 、SPSSX 軟體使用(Staggers & Norcio, 1993) 、圖 書館資源(Makri, Blandford, Gow, Rimmer, Warwrick, & Buchanan, 2007)等方面 的認知研究,而有關資訊組織方面的研究也僅限於 FRBR 方面的認知探討 4.

(17) 第一章. 緒論. (Pisanki & Žumer, 2011a, 2011b),或是有關關鍵字的來源及兩兩關鍵字相互比 對與其相同比例的研究,然而在資訊組織心智模式內容及其地圖方面的研究仍付 諸闕如。截至目前為止,已有 Zhang(2008b)完成使用者的資訊檢索心智模式 地圖,但在資訊組織方面未有任何研究以共同出現的關鍵字關聯關係為基礎發展 心智模式及其地圖。因而,本研究具有以下的主要重要性或貢獻:. 一、建立文獻標引的心智模式地圖 本研究將導入頻繁樣式樹(Frequent Pattern tree, FP-tree)方法,分析關鍵字 的使用,以發展出路徑式的規則地圖,藉以擷取一般使用者與專家的認知,進而 建立其擁有之文獻標引的心智模式地圖及其內容。. 二、分析文獻標引心智模式的結構與樣式 除了 FP-tree 方法外,本研究將同時採用社會網路分析(Social Network Analysis, SNA)與頻繁樣式成長(Frequent Pattern growth, FP-growth)等方法, 分析一般使用者與專家所使用的關鍵字,進而歸納其擁有之文獻標引心智模式的 結構與樣式。. 三、比較一般使用者與專家之文獻標引心智模式的異同 本研究將以標引文獻所使用的關鍵字為分析基礎,建立和描繪一般使用者與 專家所擁有的文獻標引心智模式內容外,同時進一步經由冪次定律(power law) 分佈現象、SNA、FP-tree 與 FP-growth 等分析,從量化與質化兩種觀點,綜合比 較兩者間文獻標引心智模式的異同。. 第四節. 研究範圍與限制. 鑑於既有的多數研究以 Flickr、Del.icio.us 及 LibraryThing 為研究對象,其所. 5.

(18) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 涵蓋的資料類型包括影像(image) 、網路資源的書籤(bookmark)與圖書(book) , 藉以探討有關社會標記在文獻標引方面的相關資訊組織議題。然而,較少研究以 CiteULike 及其期刊文獻與社會標記為研究對象,探討文獻標引心智模式方面的 研究議題。為能探索一般使用者與專家間文獻標引的方式及其異同,本研究選擇 圖資界的國際期刊為研究範圍,所選擇之期刊文獻必須同時具備有社會標記與控 制詞彙,其中前者基於 CiteULike 社會標記者提供的社會標記,後者則根據圖書 資訊學文獻摘要資料庫(Library and Information Science Abstract, LISA)專家提 供的控制詞彙,本研究將以這些社會標記與控制詞彙作為研究對象。除此之外, 還有兩項研究限制,說明如下: 1.. 特別選擇圖資學的主要原因在於圖資學是一個跨領域的學科,具備多重 學科的性質,且注重資訊的使用者等前提下,因而就資訊組織的研究而 言更形重要且具代表性,除了可以分析一般的文獻標引使用情形外,還 可以分析具備圖資學背景之使用者與專家的文獻標引特性及其心智模 式。. 2.. 再者,在本研究中,所謂的社會標記者係指實際針對圖資學期刊文獻提 供社會標記的個人,而不是單純查詢社會標記,以發現其所需資訊物件 的使用者;而專家則是指受過權威控制、索引典控制等專業訓練,以及 熟悉相關主題分析方面的資訊組織理論、規範、權威檔與索引典等控制 詞彙及其系統,且實際從事期刊文獻標引工作的專業人員。. 第五節. 名詞解釋. 在本研究中,引用許多名詞,為便利名詞的統一使用,將相關名詞予以一致 的定義與解釋。茲分述如下。 1.. 社會標記(social tag):社會標記一詞最早出現於社會性書籤網站的應 用,社會性書籤網站提供個人對其所收集的網頁或網站給予標籤或關鍵 6.

(19) 第一章. 緒論. 字進行分類,便於日後搜尋、取用、分享,此種網路資源的資訊組織方 式即所謂的社會標記(卜小蝶、張淇龍,2009)。社會標記是由一般使 用者提供的關鍵字,藉以描述資訊資源的主題、位置、用途(intended use)、提示(reminder)或其他特性。有些社會標記屬於描述性質,有 的則是意見表達(expressive)(Smith, 2008)。 2.. 俗民分類(folksonomy):係由 Thomas Vander Wal 將「俗民」(folks) 和「分類」(taxonomy)兩個詞彙組合而成的新名詞,藉以描述由下而 上所形成的草根性分類系統,作為建立、指派與管理社會標記,達成資 訊 內 容 的 註 解 與 分 類 ( http://www.abc-clio.com/ODLIS/odlis_f.aspx# folksonomy) 。依據 Vander Wal(2007)提出的定義: 「俗民分類係由個 人針對資訊或物件進行標記,作為個人檢索之用。」. 3.. 控制詞彙(controlled vocabulary):係指已組配好的詞彙(陳和琴、張 慧銖、江綉瑛與陳昭珍,2003),或是一組明確列舉的詞彙,且經由一 個權威機構所控制與提供(NISO, 2005),而這些經過定義與規範的詞 彙 , 可 作 為 編 目 人 員 或 索 引 人 員 標 誌 作 品 內 容 之 用 (http://www.abc-clio.com/ODLIS/odlis_c.aspx#controlled)。. 4.. 關鍵字(keyword) :出現在文獻內容之中,並可作為文獻標引與檢索的 字(NISO, 2005) 。另外,關鍵字可能出現在題名、主題標目或描述語、 內容註、摘要、書目資料庫紀錄內容的重要字或片語,作為檢索紀錄之 用(http://www.abc-clio.com/ODLIS/odlis_jk.aspx#keyword)。. 5.. 關鍵字類別(category) :所謂的關鍵字類別係指一組關鍵字具有語意或 統計方面的關聯(semantically or statistically associated) ,例如:屬種關 係(genus/species)、親子關係(parent/child)或全部與局部關係等 (part/whole) (NISO, 2005) 。本研究所指的關鍵字類別,係指具備某一 種相同屬性的不同關鍵字,且可依此一屬性將相關關鍵字予以聚合。. 6.. 心智模式(mental models):係指嵌在個人內在心理的一種工作模式, 7.

(20) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 藉以促成與不同人、技術及外在環境的互動(Michell & Dewdney, 1998) ,或是系統使用者的一種心理表徵(Staggers & Norcio, 1993) 。在 本研究中,將文獻標引的心智模式定義為:「社會標記者與專家在面對 資訊物件與文獻標引系統時,會依其先備經驗與知識,提供關鍵字及其 內隱的知識結構和關聯關係,分別建構社會標記者與專家所擁有的文獻 標引心智模式,以表徵其對資訊的一種認知。」 7.. 心智模式一致性(consistency of mental models):係指不同獨立個體具 有相似的知識結構或基模(schemas) ,及其意義之認知、瞭解與經驗的 共享,且以集體方式呈現,包括事件的詮釋及其行為。. 8.. 系統印象(system image) :係指設備裝置呈現給使用者的印象(Staggers & Norcio, 1993) ,或是設計者依其設計模式所完成的系統,及使用者可 以互動到的系統面向,包括使用者界面、操作手冊、線上求助與錯誤訊 息等(Makri et al., 2007)。. 9.. 標引(indexing) :由人或機器自控制詞彙中選出詞彙或主題標目,作為 表徵物件概念或屬性的一種方法(NISO, 2005)。針對單一出版品編輯 索引的過程,通常由訓練有素的專業索引人員在閱讀或掃瞄內容後,選 擇適當的標目(如,名稱、地名或主題)以促進檢索 (http://www.abc-clio.com/ODLIS/odlis_i.aspx#indexing) 。. 8.

(21) 第二章. 第二章. 文獻探討. 文獻探討. 本章內容係以文獻分析為基礎,探討一般使用者運用社會標記及專家使用控 制詞彙進行文獻標引的研究現況,同時闡述與建構本研究所需的理論模式。本章 分為五節,逐一探討相關文獻與分析相關議題,進而推導研究問題。第一節,就 心智模式、系統印象與文獻標引進行論述分析,以建構本研究的理論基礎;第二 節,分析關鍵字的來源及其類型,包括文獻題名與社會標記間,以及文獻題名與 控制詞彙間的關鍵字關聯性;第三節,探討社會標記與控制詞彙之間的關鍵字關 聯關係;第四節,分析關鍵字類別及其使用情形,包括社會標記與控制詞彙的關 鍵字類別等兩方面;第五節,探討社會標記與控制詞彙之關鍵字類別的關聯關係 結構與樣式;第六節,依前述各節文獻探討的內容重點為基礎,提出本研究之文 獻標引心智模式的理論模式。. 第一節. 理論框架:心智模式、系統印象與資訊組織. 本節內容區分為心智模式的定義、一致性與相似性、系統印象、建構與相似 性評估,及資訊組織心智模式等重點項目進行論述。. 一、心智模式的定義 心智模式一詞最早可追溯至 1943 年 K. Craik 出版「大自然的解釋」(The Nature of Explanation)一書,提出心智模式是以文字、數據或其他符號來表徵人 們對外在世界物件與現象的內在認知(Zhang, 2008b) 。從現有的文獻而言,心智 模式的定義存在著許多不同的界說。「心智模式」(mental models)專書編輯者 Gentner and Stevens ( 1983 )指出心智模式係融合了認知心理學( cognitive psychology)與人工智慧(artificial intelligence)兩大學科。在認知心理學方面, Johnson-Laird(1989)認為心智模式是表徵知識與形塑推理形式的一種方法。在. 9.

(22) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 電腦科學方面,特別是在資訊系統設計領域,Norman(1983)認為: 「心智模式 內嵌在人的腦中,藉以引導人對外在世界的行為與反應。心智模式也被視為有關 實際系統中的一種信念反射。」在與現實世界相關物件的互動中,人會依據其先 備經驗與知識,建立其本身擁有的心智模式(Norman, 1983)。簡言之,所謂的 心智模式係指人依其本身的內在認知與外在世界進行互動過程中所呈現的一種 表徵。 心智模式存有不同的同義詞,包括:知識結構(knowledge structure) (Brookes, 1980)、知識狀態(knowledge state)(Beklin, Oddy, & Brooks, 1982)、認知結構 (cognitive structure)(Wang & Soergel, 1998)與認知狀態(cognitive state) (Ingwersen, 1996)、概念地圖(concept maps)(Bilal & Wang, 2005; Carvalho, Hewett, & Canas, 2001; Freeman, 2004) 、認知地圖(cognitive maps) (Eden, 1992; Kearney & Kaplan, 1997; Peruch, Gaunet, Thinus-Blanc, & Loomis, 2000)等,以描 述使用者存取資訊檢索系統時的一種心理反射(Cole, Lin, Leide, Large, & Beheshti, 2007);Winn (2001)則是將心智模式與基模(schemas)視為同義。 在圖資界,心智模式可被視為一種知識結構,而管理科學方面亦有類似的觀點與 見解(Mohammed, Klimoski, & Rentsch, 2000) 。在圖資界的範疇中,所謂的心智 模式係指:「人對資訊物件、資訊系統,及相關處理的其他資訊等之心智表徵 (mental representation)」(Zhang, 2008b)。心智模式除了應用於資訊檢索方面 外,也有應用在資訊組織方面,包括:入口網站(Ahlstron & Allendoerfer, 2004) 與書目紀錄功能需求模式(Functional Requirements for Bibliographic Records, FRBR) (Pisanki & Žumer, 2011a, 2011b)等。對資訊組織而言, Pisanki and Žumer (2011a)認為:「心智模式是對外在世界的一種內在表徵。」. 二、心智模式的系統印象、一致性與相似性 Norman 在界定心智模式時,定義心智模式係由設計者的心智模式概念、使 10.

(23) 第二章. 文獻探討. 用者的心智模式、系統與系統印象等四元件所共同組成。在系統的發展階段,設 計者依其心智模式概念發展系統,待系統完成設計後,連同使用者界面、操作手 冊、線上求助與錯誤訊息等提供給使用者,進而促成使用者對系統產生具體的內 在表徵。因而,當設計者與使用者對同一系統具有類似的內在表徵時,亦即設計 者與使用者兩者間的心智模式趨於一致(consistent)時,即已具備相似的系統印 象。Norman 也指出設計者與使用者間的心智模式可能是不同的( Norman, 1983),也就是當設計者與使用者間的心智模式存有差異或是不一致時,即已具 備不同的系統印象,Blackwell(1996)與 Guerra, Sanz, Díaz, and Aedo(2007) 則是將這種不同系統印象的情形視為一種語意落差的現象。 然而,何謂心智模式的一致性?在 Mohammed, Ferzandi and Hamilton(2010) 研究團隊心智模式( Team Mental Model, TMM )時,指出:「所謂共享性 (sharedness)的 TMM 係指團隊成員間的心智模式是一致的,或是聚合的 (converge) ,而不是完全相同(identical)的。」Rentsch, Small and Hanges(2008) 則是認為: 「所謂的共享性是一種認知的相似性(cognitive similarity) ,意指團隊 成員間具有相似的意義或瞭解,且用來詮釋內外在事件之用,包括:行為與想法 等。」在研究團隊基模時,Rentsch and Klimoski(2001)則認為:「所謂團隊成 員的基模相似性(team member schema similarity)係指團隊成員間具有相似或相 容的知識結構(similar or compatible knowledge structure),以組織與瞭解團隊的 相關現象。」依據 Mohammed, Ferzandi and Hamilton(2010)的看法: 「雖然 TMM 係 由 不同獨立個體的心智模式所組成,卻是一種集體式的現象。」 Rouse, Cannon-Bowers and Salas(1992)則進一步說明 TMM 其中的一項功能在於團隊 成員能以相似的方式進行資訊的描述與詮釋,也就是 Inskip, MacFarlane and Rafferty(2008)所提出的共享經驗。簡言之,由上述論述中,可以得知所謂心 智模式的一致性係指不同獨立個體具有相似的知識結構或基模(亦即 Norman 定 義的系統印象),以及其意義之認知、瞭解與經驗的共享,且以集體方式予以呈. 11.

(24) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 現,包括事件的詮釋及其行為。反之,則意謂著不同個體間具備不同的知識結構 及其意義的認知、瞭解、經驗與詮釋,進而產生所謂不同系統印象或語意落差的 現象。就心智模式而言,專家一如模式中的設計者,而一般使用者一如模式中的 使用者,即使針對同一文獻或資訊物件(亦即等同於圖資界學者研究的電腦系統 或使用者界面) ,因兩者具備不同的文獻標引心智模式,也會有不同的系統印象, 以及造成語意上的落差(請參見圖 2.1)。. 圖 2.1 心智模式系統印象與語意落差間的關係. 三、圖資界有關心智模式相似性的研究 圖資界也有許多研究探討使用者的心智模式。在參考服務方面,Michell and Dewdney(1998)發現在參考服務的互動過程中,使用者與圖書館館員間的系統 心智模式是有所差異的。在資料庫檢索方面,Holman(2010)指出學生並未具 備與資料庫發展者相似的心智模式,因而檢索正確性並未如預期的理想。在資訊 檢索系統方面,Zhang and Chignell(2001)發現不同使用者(即圖書館館員與學 生)具有不同的心智模式,進而有不同的查詢效能或行為。在傳統圖書館與數位 圖書館的研究方面,Makri et al.(2007)指出使用者對傳統圖書館與數位圖書館 的資訊資源擁有不同的心智模式,且確切知道兩者間的差異。除此之外,在一項. 12.

(25) 第二章. 文獻探討. 資訊尋求的研究中,Cole et al.(2007)更進一步指出:「必須將使用者資訊尋求 與資訊組織系統間的心智模式落差予以消弭,如此方能將學生所使用的查詢詞彙 與索引典控制詞彙予以串連在一起。」 在資訊組織方面,Quintarelli(2005)探討使用者會依據本身的心智模式、 詞彙及語言進行物件的社會標記。在一項比較社會標記與控制詞彙的使用研究 中,Kipp(2006)具體指出使用者傾向使用任務與時間(task and time)及一般 與新興(generalities and emergent)等類別的關鍵字,專家則是傾向使用地理 (geographic)與特定(specifics, 如:使用對象、系統與研究方法等)類別的關 鍵字。另外,Inskip, MacFarlane and Rafferty(2008)試從溝通模式(communication model)與符號學(semiotics)理論為基礎,探討音樂資料的資訊組織與檢索議 題時,也指出作曲者、演奏者及編目者或聆聽者間的語意落差,包括能指 (signifier)與所指(signified)間的不同。然而,在一項 FRBR 的使用者研究中, Pisanki and Žumer(2011a)卻發現使用者具有類似的 FRBR 概念認知。 由此可知,無論是在參考服務互動過程、資訊檢索、資訊尋求與資訊資源等, 乃至於資訊組織方面,多數研究認為一般使用者與圖資專家間存在有不一致的心 智模式,亦即兩者間資訊組織心智模式的知識結構、語意與其詮釋,及行為等並 不相似。除此之外,Zhang(2008b)也建議深入探討使用者的資訊組織心智模式 及其必要性。所以,必須深入探索與瞭解使用者的資訊組織心智模式後,方能消 弭橫亙在一般使用者與圖資專家間的系統印象或語意落差,以提供適當的關鍵字 及其相關服務(Rorissa, 2010; Zhang, 2008b) 。依據上述文獻探討,本研究推導出 下列的主要研究問題: RQ1:以標引文獻所使用的關鍵字而言,一般使用者與專家間的文獻標引心智模 式為何? RQ2:一般使用者與專家間的文獻標引心智模式是否相似,而且兩者是否存有不 同的系統印象?. 13.

(26) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 四、心智模式理論的導入與應用方式 在研究設計方面,有關心智模式的導入方式亦有所不同。在一項圖書館參考 服務的研究中,Michell and Dewdney(1998)將參考服務館員視為心智模式中的 設計者,而服務對象則視為使用者,藉以探討參考服務過程中,館員與讀者間對 參考服務認知的異同。在一項有關 FRBR 的研究中,Pisanki and Žumer(2011a) 導入心智模式時,也是將館員視為系統設計者,而書目紀錄使用者視為使用者。 簡言之,這類型的研究皆將心智模式視為一種研究的理論依據,同時將研究對象 劃分為系統的設計者與使用者,藉以探討兩者間心智模式的相似性。 除此之外,有些研究在應用心智模式時,並未嚴格區分為系統的設計者與使 用者。例如,在研究 SPSSX 軟體時,Staggers and Norcio(1993)只將研究對象 區分為資深與新手使用者等兩種類型。換言之,只就心智模式的使用者進行研 究,探討不同經驗的使用者是否具備相似的心智模式。在一項資訊檢索系統的研 究中,Zhang and Chignell (2001)也採取類似的作法,將資訊檢索系統的使用 者劃分為館員、研究生、大學生與高中生等四種類型,以探討不同類型使用者之 資訊檢索系統的心智模式異同。 由上述討論可以得知,有關心智模式導入研究的方式約略可歸納為兩種: 1.. 將研究對象劃分為系統的設計者與使用者,藉以探索兩種不同研究對象 間的心智模式相似性。. 2.. 只導入心智模式中的使用者為研究對象,且進一步區分不同類型的使用 者,以檢視特定系統之不同使用者間的心智模式異同。. 在本研究中,則是將一般使用者與專家視為不同的使用者,藉以探索不同使 用者間的心智模式異同。. 14.

(27) 第二章. 文獻探討. 五、心智模式內容的建構 由於心智模式是十分抽象化的,對許多研究而言,如何導引(elicitation)與 與表徵(representation)心智模式的具體內容變成十分重要的研究工作。擷取、 表徵與建置心智模式的方法很多,可以區分為質化與量化兩種類型。在質化方 面,包括訪談(interview) 、畫圖(drawing) 、觀察(observation) (Zhang, 2008b) 與卡片分類(card sorting) (Pisanski & Žumer, 2010a)等不同方法。在量化方面, 有些研究經由問卷的評比量化資料,採取方格法(repertory grid technique) (Zhang & Chignell, 2011)建構心智模式。多數研究採取質化方式建構心智模式的內容, 如前述的 Makri et al.(2007)、Pisanski and Žumer(2010a),只有少數採取同時 採取質量複合方式,以避免質化研究者的主觀判斷與影響,如 Zhang(2008a, 2008b)。. 六、心智模式相似性的評估 在心智模式相似性的評估方面,約可區分為量化、質化與複合式等三種。在 心智模式相似性的量化評估方面,係採取統計數據或是演算法方式量測心智模式 的相似性。例如, Michell and Dewdney(1998)係以五級李克特量表(5-level Likert scale)進行參考服務前後的問卷調查,藉以量測館員與服務對象間心智模式的差 異程度。另外,Schaffernicht and Groesser(2011)提出所謂的「距離比例法」 (distance ratio approach),經由節點與節點間鏈結情形,計算心智模式的異同。至於心智 模式相似性的質化評估則首先需要勾勒或描繪心智模式的圖形,再以心智模式圖 的內容與結構為依據,評估兩兩心智模式間的相似性,包括 Pisanski and Žumer (2010a)與 Toker(2012)等研究個案均採質化評估進行。除了量化與質化方式 外,也有些研究同時結合量化與質化的複合方式,檢驗心智模式的相似性,如 Zhang(2008a)同時採取畫圖、問卷調查與訪談方式,藉以分析不同使用者之全 球資訊網搜尋行為的心智模式相似性。本研究將採取複合方式評估文獻標引心智 15.

(28) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 模式的相似性,請參見本文第三章第七節之「心智模式相似性的評估方式」說明。. 第二節. 關鍵字的來源及其類型. 有些研究已證實社會標記與控制詞彙間具有互補的現象(Kipp, 2006, 2011a, 2011b; Lu, Park, & Hu, 2010; Rolla, 2009; Thomas, Caudle, & Schmitz, 2009; Yi & Chan, 2009) ,然而有些學者更進一步探究社會標記與文獻題名間關鍵字的關聯程 度。以 Flickr 為對象的研究中,Heymann, Koutrika and Garcia-Molina(2008)發 現 16%社會標記出現在網頁題名的關鍵字。在 Bischoff, Firan, Nejdl and Paiu (2008)的研究中發現,標註在 Del.icio.us 之 2,507,688 個社會書籤的 323,294 個社會標記中,約有 44.85%會標記與網頁內容的關鍵字相同,在 Last.fm 中,標 註在 317,058 個音樂檔的 21,177 個社會標記,則約有 1.54%社會標記與歌詞內容 的關鍵字相同。此外,Hotho, Jächke, Schmitz and Stumme(2006)同樣以 Del.icio.us 為研究對象,也發現逾 50%以上的社會標記與網頁內容的關鍵字相符。以 Connotea 為研究對象,Heckner, Mühlbacher and Wolff(2008)發現有 26.5%社會 標記與期刊文獻題名的關鍵字相同,而 Lin, Beaudoin, Bui and Desai(2006)以 醫學期刊文獻為對象的研究中,則發現只有 19%的社會標記取自於文獻題名的關 鍵字。 在書目紀錄方面,Frost(1989)以 2,401 筆書目紀錄的 4,264 個主題標目及 所屬文獻題名為對象,分析結果顯示 73%的文獻題名關鍵字至少可以比對到主題 標目或複分標目的一部分。以醫學碩士論文為研究對象,Ansari(2005)則發現 70%以上的控制詞彙可以比對到學位論文題名的關鍵字。儘管如此,有關社會標 記與文獻題名間的關聯程度仍存有差異,並未達成一致的共識,而文獻題名與控 制詞彙間的關鍵字關聯程度也不盡相同(請參照表 2.1) 。依據上述文獻探討,本 研究推導出下列研究問題: RQ2.1:文獻題名分別與社會標記、控制詞彙間的關鍵字關聯程度為何? 16.

(29) 第二章. 文獻探討. 表 2.1 文獻題名分別與社會標記、控制詞彙間的關鍵字比對情形 文獻. 比對對象. Ansari, 2005. 學位論文題名及其控制詞彙. Bischoff. Del.icio.us 社會標記與網頁內. et al., 2008. 關鍵字相同的百分比 70%以上 44.85%. 容. Frost, 1989. Last.fm 社會標記與歌詞內容. 1.54%. 書目紀錄的主題標目與其所. 73%. 屬文獻題名 Connneta 社會標記與資訊科. Heckner et al., 2008. 26.5%. 技期刊文獻題名 Heymann,. Koutrika,. &. Flickr 社會標記與網頁題名. 16%. Garcia-Molina., 2008 Hotho et al., 2006. Del.icio.us 社會標記與網頁內. 50%以上. 容 Lin et al., 2006. Connneta 社會標記與醫學期. 19%. 刊文獻題名. 第三節. 社會標記與控制詞彙間的關聯程度. 除了文獻題名與社會標記間的關鍵字關聯外,也有些學者將研究重點放在社 會標記與控制詞彙間的關鍵字關聯關係。在圖書方面,Iyer and Bungo(2011) 以 40 本醫學圖書為研究對象,以分別來自 LibraryThing 與 OCLC Connexion 蒐 集的 2,074 個社會標記與 162 個 LCSH 主題標目進行研究,該研究融合 Carlyle (1989)、Strader(2009)與 Voorbij(1998)的比對原則,將比對類別區分為完 全比對(full)、部分比對(partial)與無法比對(none)三種,進行社會標記與 LCSH 間的關鍵字比對。結果發現只有 1.21%社會標記可以完全比對到 LCSH, 5.52%社會標記可以部分比對到 LCSH ,以及 93.27%社會標記無法比對到 LCSH。以 10 本流通最高的圖書為研究對象,Thomas et al.(2009)以 Voorbij(1998) 與 Kipp(2006)提出的比對類別為基礎,一共提出相同(same) 、同義(synonym) 、 自然語言形式的同義(natural language synonym)、廣義(broader term)、狹義 (narrower term)、相關(related term)、候選的主題標目(LCSH not assigned)、. 17.

(30) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 與 LCSH 不同形式的相關(related) 、不相關(not Related)九種比對類別,研究 發現只有 6%社會標記具有與 LCSH 相同的關鍵字,8%社會標記出現在非 LCSH 主要款目(used for subject headings)的關鍵字,而同義、廣義、狹義與相關等 類別的比對百分比分別為 8%、0.3%、0.3%與 0.4%。換言之,只有約 14%社會 標記具有與 LCSH 相同的關鍵字。在以 8,652 本書的 176,105 筆 LibraryThing 社 會標記與 7,628 個 LCSH 主題標目的研究中,Lu et al.(2010)發現只有 2.2%社 會標記具有與 LCSH 相同的關鍵字,50.1%LCSH 主題標目中的關鍵字被選用為 社會標記,而且約有 85%的圖書書目紀錄中,同時具有一個以上相同關鍵字的 LCSH 與社會標記。 在期刊文獻方面,以「Journal of Molecular Biology」與「Proteins」2 種生物 醫學學術期刊的 1,083 篇文獻為對象,並以 Kipp(2006)融合 Voorbij(1998) 的分類類別為依據進行簡化與調整,Kipp(2011a)提出了相同(same)、同義 (synonym)、狹義或廣義(narrower or broader term)、相關(related term)及未 出現在索引典的相關(related but not in thesaurus)五大類別進行比對與分類。Kipp (2011a)比對 3,788 個 CiteULike 網站的社會標記與 12,473 個 PubMed 網站的醫 學主題標目(Medical Subject Heading, MeSH) ,發現 16%期刊文獻所擁有的社會 標記與 MeSH 具有相同關鍵字。延續上述 Kipp(2011a)以醫學期刊文獻為研究 對象的研究後,Kipp 另以 7 種圖資界學術期刊的 165 篇文獻為研究對象,比對 529 個 CiteULike 網站的社會標記與 727 個取自 Library Literature 與 INSPEC 資料 庫的控制詞彙,也發現 16%期刊文獻具有相同關鍵字的社會標記與控制詞彙 (Kipp, 2011b) 。此外,上述 Kipp 兩項研究也進一步發現「未出現在索引典的相 關關鍵字」(related not in thesaurus)此一類別最常被使用。在以 2,786 篇教育文 獻為研究對象,進行 3,176 個 CiteULike 社會標記與 1,083 個 ERIC 控制詞彙的研 究,Bruce(2008)發現只有 7.6%社會標記可以比對到 ERIC 控制詞彙。以 45 篇 醫學期刊文獻為研究對象,分別自 Connotea 與 PubMed 抽取 540 個社會標記與. 18.

(31) 第二章. 文獻探討. 1,034 個 MeSH 主題標目進行交叉比對,Lin et al.(2006)則發現有 11%相同的 關鍵字出現在社會標記與 MeSH。除此之外,以 Del.icio.us 為研究對象中,Yi and Chan(2009)以 3 組 299 個社會標記連結至 LCSH 的情形下,發現 60.9%社會標 記可以精確地比對至 LCSH。由上述討論,社會標記與控制詞彙間的關鍵字關聯 程度不盡相同。從上述文獻探討(請參見表 2.2)歸納重點如下: 1.. 無論是以圖書或期刊文獻等資料類型為研究對象,乃至於醫學、教育、 圖資等領域,社會標記與控制詞彙間的關鍵字相同性比率偏低,且未獲 一致的共識。. 2.. 以關鍵字相似性而言,社會標記確實能增補原來控制詞彙未能標引的關 鍵字及其主題概念。. 3.. 就控制詞彙而言,半數以上的控制詞彙關鍵字可以比對到社會標記; 如:前述的 Lu et al.(2010)與 Yi and Chan(2009)等研究。. 4.. 社會標記與控制詞彙間關鍵字的主題概念存有某種程度的相關性;如: 前述的 Kipp(2011a, 2011b)與 Thomas et al.(2009)等研究。. 5.. 在比較社會標記與控制詞彙間的關鍵字重複比例方面,計算對象有所不 同,進而可以歸納成兩種類型:一為關鍵字,二則期刊文獻。由於計算 對象的差異性,所代表的意義亦不相同。以關鍵字為對象者,係以關鍵 字的整體觀之,雖然可以明顯得知社會標記與控制詞彙間的關鍵字重複 比例情形,卻容易出現 Heymann and Garcia-Molina(2009)所發現許多 現行研究忽略的一項事實:相同關鍵字可能出現在不同資訊物件上的現 象。換言之,亦即相同關鍵字可能標引在不同的文獻上,即使關鍵字相 同,亦不代表指涉相同的資訊物件。反之,以期刊文獻為計算與比對的 對象而言,即使可以看出哪些期刊文獻具有相同關鍵字的社會標記與控 制詞彙,卻無法得知關鍵字整體的重複情形。唯一例外者,只有 Lu et al. (2010)的研究,兩者兼具。. 6.. 在比對社會標記與控制詞彙間的關鍵字重複比例方面,除了直接進行社 19.

(32) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 會標記與控制詞彙間關鍵字的兩兩比較外,也有些研究依據以往研究提 出的比對原則為依據,更進一步細分比對的結果;例如,前述的 Iyer and Bungo(2011) 、Kipp(2011a, 2011b)與 Thomas et al.(2009)等研究。. 依據上述文獻探討,本研究推導出下列研究問題: RQ2.2:社會標記與控制詞彙間的關鍵字關聯程度為何? 表 2.2 社會標記與控制詞彙重複比例的文獻分析 社會標記與控制詞彙. 文獻. 研究對象. Bruce, 2008. CiteULike 社會標記與 ERIC 控制. 的相同百分比. 計算單位. 7.6%. 關鍵字. 1.21%. 關鍵字. 詞彙 Iyer. &. Bungo,. LibraryThings 的社會標記與主題標. 2011. 目(含複分標目). Kipp, 2011a. CiteULike 社會標記與 MeSH. 16%. 期刊文獻. Kipp, 2011b. CiteULike 社會標記及 INSPEC 、. 16%. 期刊文獻. 11%. 關鍵字. Library Literature 控制詞彙 Lin et al., 2006. Connotea 社會標記與 MeSH. Lu et al., 2010. LibraryThing 社會標記與 LSCH. 2.2% 社 會 標 記 出 在. 關鍵字、. LCSH、50.1%LCSH 出. 書目紀錄. 現在社會標記;85%書 目紀錄具有相同的社 會標記與 LCSH Thomas et al., 2009. LibraryThing 社會標記與 LCSH. Yi & Chan, 2009. Del.icio.us 社會標記與 LCSH. 約 14%. 關鍵字. 60.9% 社 會 標 記 出 現. 關鍵字. 在 LCSH. 第四節. 關鍵字的類別及其使用情形. 研究社會標記的使用情形方面,已有許多研究顯示個別社會標記的實際使用 呈現冪次定律分佈現象(Angus, Thelwall, & Stuart, 2008; Bischoff et al., 2008; Lu et al., 2010; Marlow, Naaman, Body, & Davis, 2006; Munk & Mørk, 2007; Sen, Lam, Rashid, Cosley, Frankowski, Osterhouse, Harper, & Riedl, 2006; Yi & Chan, 2009), 20.

(33) 第二章. 文獻探討. 而以控制詞彙為研究對象的研究中,亦有類似的發現(Chan & Vizine-Goetz, 1998; Ravari, 2012)。除此之外,也有些學者致力於社會標記與控制詞彙的類別,以及 其類別的實際使用情形。 在社會標記類別的研究方面,Golder and Huberman(2006)以 Del.icio.us 為 研究對象,提出了 7 項社會標記類別,包括:指明主題(identifying what or who it is about) 、指明類型(identifying what it is) 、指明擁有者(identifying who owns it)、修飾類別(refining categories)、指明品質或特質(identifying qualities or characteristics)、自我參考(self reference)與任務整理(task organizing)。自此 之後,引發許多社會標記類別的後續研究,探討社會標記類別及其使用情形。首 先,有的研究以 Golder and Huberman(2006)提出的 7 項社會標記類別為基礎, 進一步探討社會標記類別的實際使用情形。例如,在 Thomas 等人的研究中,以 10 本流通使用率最高的圖書為研究對象,其中一項研究工作係延伸 Golder and Huberman(2006)提出的社會標記類別進行使用情形的探討,結果發現指明主 題此一類別最常被使用,修飾類別最不常被使用,而且指明主題(37%)、指明 品質或特質(12%) 、自我參考(11%)與任務整理(17%)等類別的使用率累計 總和為 77%(Thomas et al., 2009)。再者,有的研究係以 Golder and Huberman (2006)的 7 項社會標記類別為依據,濃縮成新的社會標記類別。例如,在一項 電影推薦的系統設計中,Sen et al.(2006)以 Golder and Huberman(2006)提出 的 7 項社會標記類別為基礎,濃縮成事實型(factual tags)、主觀型(subjective tags) 、個人化(personal tags)等三種。第三,有些研究則是以 Golder and Huberman (2006)的 7 項社會標記類別為比對對象,建立兩種不同社會標記類別的對照關 係。例如,Bischoff et al.(2008)以前述 Golder and Huberman(2006)提出的社 會標記類別為基礎,重新制定一套社會標記類別,並且與 Golder and Huberman (2006)提出的社會標記類別進行比對(Bischoff et al., 2008)。此項研究提出的 類別包括主題(topic) 、時間(time)、空間(location) 、類型(type)、作者/擁. 21.

(34) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 有者(author/owner) 、評論(opinions/qualities) 、使用情境(usage context)與自 我參考,同時以 Del.icio.us、Flickr 與 Last.fm 為測試對象,結果顯示主題類別使 用率最高,而其他類別則會因測試對象的不同,而有不同的使用率。 有些研究則以 Del.icio.us 與 Flickr 為研究對象,同時導入不同的方法或理 論,發展不同的社會標記類別,以探討各種社會標記類別的使用情形。在一項以 Del.icio.us 為對象的研究中,Munk and Mørk(2007)以統計學的對應分析 (correspondence analysis)為方法,分析出內容(content categorization)、媒體 (media categorization)、文本類型(genre categorization)、著作權(copyright categorization) 、價值判斷(value categorization) 、後設類別(meta categorization) 、 工作與過程(process categorization)、時間(time categorization)與個人註記 (personal categorization)等 9 項社會標記類別,其中以內容類別使用率最高, 高達 79.1%。在以 Flickr 為研究對象的研究中,Angus et al.(2008)結合前述的 Golder and Huberman(2006)7 項社會標記類別,及意義層次(levels of meaning) 、 屬於(of)與關於(about)等理論概念,為影像資料發展一個兩階層四大類的複 合式類別,從而進行社會標記的使用分析,前述四大類包括:社會標記與影像間 的一般關係(generic relationship between tag and image content) 、社會標記與影像 間的特定關係(specific relationship between tag and image content)、個人或群組 用 途 ( tag only useful to individual/university group )、 其 他 ( miscellaneous categories)。結果發現最常用的五項子類別使用率累計高達 87%,這些子類別及 其使用率分別是:社會標記與影像間的特定關係類別下的關於影像(what image is about, 21%)與指涉的地理/人/事件名稱(what image is of place/names/events, 14%)、社會標記與影像間的一般關係類別下的屬於影像(what image is of, 15%),以及個人或群組用途類別下的 修飾(refining tag, 13%)、自我參考 (self-reference tag, 12%)與複合式(compound tag, 12%) 。在 Rorissa(2010)的 研究中則是以所謂的影像屬性類別(categories of image attributes)為依據,提出. 22.

(35) 第二章. 文獻探討. 10 項社會標記類別,包括:地點(location) 、內容(content/story) 、人(people)、 描述(description)、物件(objects)、抽象概念(abstract concepts)、藝術史資訊 (art historical information) 、與人相關的屬性(people-related attributes) 、視覺元 素(visual elements)與顏色(color) 。該研究發現地點、內容、人與描述等 4 項 類別最常被使用,同時前述這些類別使用率累計高達 76.26%。此外,該研究更 進一步導入所謂的影像查詢類別(categories of image queries),結合上述影像屬 性類別,形成一個二維矩陣的社會標記類別。Lin et al.(2006)則是提出 16 項類 別,包括:地名(place-name) 、複合式(compound) 、事物(thing) 、人(person)、 事件(event) 、無法識別(unknown) 、照片的(photographic) 、時間(time) 、形 容詞(adjective) 、動詞(verb) 、一般地點(place-general) 、評比(rating) 、語言 (language)、生活事物(living thing)、幽默(humor)、詩文的(poetic)、數字 (number) 、情感(emotion)等。經歸納發現地名(28.21%) 、複合式(14.05%)、 事物(11.37%) 、人(8.81%) 、事件(5.69%)與無法識別(4.79%)等類別最常 被使用,且使用率累計高達 78.61%。另外,以 12 個影像檔為測試對象,且劃分 為非結構化與結構化社會標記的影像資料描述對照組實驗研究中,Bar-Ilan, Shoham, Idan, Miller, and Shachak(2008)發現結構化社會標記提供較豐富的描述 資訊。 此外,有些學者以索引典內容為依據,進行關鍵字的異同比對。以 Del.icio.us、Furl 與 Technorati 等為對象的研究中,Spiteri(2007)以美國資訊標 準組織(National Information Standard Organization, NISO)的「建置控制詞彙指 引 」( Guidelines for the construction format and management of monolingual controlled vocabularies)文件提出的索引典類別為基準,檢視社會標記的使用情 形。結果發現以名詞文法形式與事物概念等 2 類別最被常使用。在前述的 Kipp 兩項研究中,則是分別發現「未出現在索引典的相關關鍵字」(related not in thesaurus)此一類別最常使用,且在圖資界與生醫領域中的使用率分別是 45%. 23.

(36) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. (Kipp, 2011b)與 35%(Kipp, 2011a)。 也有些研究嘗試發展模式,藉以分析與歸納社會標記的使用情形。如, Heckner et al.(2008)提出所謂的「社會標記類別模式」(Tag Category Model, TCM) ,且可進一步細分為「語言」 (Linguistic Category Model, LTCM) 、 「功能」 (Functional Category Model, FTCM)與「文本」(Text to Text Category Model, T2TCM)等三種子模式,三個子模式所涵蓋的類別如表 2.3 所示。該研究歸納出 語言、功能與文本子模式最常用的類別與使用率分別是「名詞」 (noun, 72%) 、 「主 題相關的一般內容描述」( general content description of subject related tags, 79.49%)與「關鍵字的各種變形」(variation, 54%)。. 表 2.3 TCM 項下的各子類別(資料來源:Heckner et al., 2008) 子模式. 第一層級. 第二層級. 第三層級. LTCM. 字組(word class). 單一字的社會標記. 形容詞 副詞 動詞 名詞 功能詞 縮寫詞 數字. 拼字. 單一字以上的社會標記. 複合詞. 正確. 片語. 錯誤 各式變形 新興字(neologisms) 語文(language) FTCM. 主題相關. 資源相關. 創作者 資源類型 檔案類型 日期 來源 語文. 內容相關. 內容描述. 24.

(37) 第二章 子模式. 第一層級. 第二層級. 文獻探討. 第三層級 探討範圍 分類 內容類型 方法 代碼. 個人相關. 情感的(affective). 正面的 負面的. 時間與任務. 行動導向的 工作情境流程相關的. 無須社會標記(tag avoidance (no tag)) T2TCM. 與 文 本 完 全 相 同. 題名. (identical to fulltext). 摘要 文本內容 相同的關鍵字. 文本的不同形式(variant. 錯誤拼字(spelling error). from fulltext). 字根/字尾變形 (stemming/inflection). 未 出 現 在 文 本 ( not. 同義. occurring in fulltext). 下位詞(hyponym) 上位詞(hyperonym). 在書目資料庫方面,探討控制詞彙實際使用的相關研究並不多見。在一項以 OCLC 聯合目錄資料庫為研究對象的研究中,自 4 百萬個以上的 LCSH 中,抽取 20,473 個主題標目作為研究樣本,分析 LCSH 在前述資料庫的實際使用情形,並 以機讀編目格式(MAchine-Readable Catalog, MARC)紀錄的欄號 600(subject added entry - personal name)、610(subject added entry - corporate name)、611 (subject added entry - meeting name)、630(subject added entry - uniform title)、 650(subject added entry - topical term)與 651(subject added entry - geographic name ) 等 主 題 附 加 款 目 作 為 使 用 率 的 分 析 項 目 。 在 該 研 究 中 , Chan and Vizine-Goetz(1998)發現 LCSH 在 OCLC 聯合目錄資料庫的實際使用情形呈現 著冪次定律分佈現象,亦即少數 LCSH 被大量使用,及多數 LCSH 使用率低。除. 25.

(38) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 了使用的分佈現象之外,還進一步發現主題詞彙標目(即 tag 650)被應用在近 三分之二以上的書目紀錄,次則為名稱標目(即 tag 600、610、611 與 651)與 劃一題名(即 tag 630),使用率趨近於三分之一。 依前述探討內容,本研究歸納出下列重點,說明如下: 1.. 多數研究以發展單一主軸的屬性類別為主要目標,以分析社會標記的使 用情形,只有少數研究嘗試發展雙主軸的複合式屬性類別,如:前述的 Angus et al.(2008)與 Rorissa(2010)等研究。. 2.. 有些研究以索引典作為發展基礎,藉以分析社會標記的使用類別及其關 鍵字間的索引典結構關係,包括:相同(same) 、廣義(broader term, BT) 、 狹義(narrower term, NT)、相關(related terms, RT)、未出現在索引典 的相關關鍵字(related terms not in thesaurus) ;如:前述的 Spiteri(2007) 與(Kipp, 2011a, 2011b)等研究。. 3.. Heckner et al.(2008)提出 TCM,試圖從語文、功能與文本等三種不同 的獨立觀點,個別分析社會標記的使用情形。截至目前為止,沒有任何 研究同時混合不同子模式,以結合 2 個以上的不同屬性或觀點,進行社 會標記的使用分析。. 4.. 以社會標記類目的使用情形而言,似乎具有 80/20 原則(80/20 rule of distribution)的分佈現象,且最常被使用的社會標記類別並未趨於一致 (請參照表 2.4)。. 5.. 依現有文獻提出的社會標記類別而言,可以進一步區分為功能型、索引 典型與屬性型等三種,同時多數類別為一維類別,少數則為二維類別(請 參照表 2.5)。. 6.. 有關控制詞彙實際應用在資料庫書目紀錄的使用研究,截至目前為止, 只有少數個案進行探討,且僅限於主題附加款目此一範圍。. 26.

參考文獻

相關文件

understanding of what students know, understand, and can do with their knowledge as a result of their educational experiences; the process culminates when assessment results are

(1) Western musical terms and names of composers commonly used in the teaching of Music are included in this glossary.. (2) The Western musical terms and names of composers

The WG also conducted three open seminars, two student forums and a school questionnaire survey to collect views from the public, school principals, teachers,

which can be used (i) to test specific assumptions about the distribution of speed and accuracy in a population of test takers and (ii) to iteratively build a structural

coordinates consisting of the tilt and rotation angles with respect to a given crystallographic orientation A pole figure is measured at a fixed scattering angle (constant d

From 1912 to the enactment of martial law, the faith of the average person is often seen as just a superstitious culture, and only a few folklore historians and sociologists have

ESDA is used by schools to collect and manage self-evaluation data, including the administration of on-line Stakeholder Survey (SHS), assessing students’ affective and

In the work of Qian and Sejnowski a window of 13 secondary structure predictions is used as input to a fully connected structure-structure network with 40 hidden units.. Thus,