以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式

全文

(1)國立臺灣師範大學圖書資訊學研究所博士學位論文. 指導教授：柯皓仁博士. 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式 A Study on Mental Models of Taggers and Professional Indexers for Article Indexing Based on Analysis of Keyword Usage. 研究生：陳亞寧撰. 中華民國一○二年六月.

(2) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. ii.

(3) 謝. 辭. 在一個重要的人生轉折中，懷著一份感恩的心情就讀臺師大圖資所。於求學期間，感謝吳美美教授、陳昭珍教授、卜小蝶教授、謝建成教授、邱銘心教授與謝吉隆教授，傾囊相授各項專業理論與知識，及柯皓仁教授在論文的指導、國際期刊論文的投稿與處事圓融的方式等，讓我學習到很多，受用無窮。感謝黃鴻珠教授與林呈潢教授的推薦信，才得以順利考上臺師大圖資所博士班。論文計畫書與學位論文口試時，謝謝黃鴻珠教授、陳雪華教授、陳昭珍教授、陳志銘教授及唐牧群教授等，以及所上每位老師與 Dr. Diane Sonnewald 提供的各項寶貴建議，論文才得以順利完成。苑菁助教耳提面命的叮嚀與奕翔助教在設備上的協助，也是在求學過程中，不可或缺的一環，才得以順利完成各項學業課程上的修習。在論文撰寫歷程中，也感謝秋霞、國勳、美聖、慧娉等人的協助。口試時，恆毅的海報製作、智惠的餐點安排、佳香的會議紀錄，以及修課中，阿亮、寂絹、忠諺、于第、淇龍、智惠、佳香、忠勤、宗曄，及柯柯軍團的每位學弟妹，各項問題的討論及參與，彼此間的鼓勵與協助，是驅動我持續努力完成論文的原動力之一，在此也一併致謝。求學期間，家中父母先後住院與開刀，如果沒有家姐的付出，我是不可能完成論文，順利畢業的，特別感謝她的辛勞。最後，也感謝默默協助我，卻一點也不在意忘記提起他/她們的每一位貴人。. 陳亞寧謹識 102.6.28.

(4) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. iv.

(5) 摘. 要. 隨著 Web 2.0 的廣泛應用，各式社會網路平台提供了社會標記的功能，讓社會標記者以自由形式的關鍵字組織各式資訊。在圖書資訊學界方面，資訊組織的權威控制與索引典控制係以一種控制詞彙的方式標引資訊的內容屬性。無論是社會標記者或是圖書資訊學界的索引專家皆將關鍵字視為一種觀念，且依其先備經驗與知識，經由關鍵字以表徵其對資訊內容所認知的理解與心智模式。現有的研究皆著重在以個別的關鍵字為研究對象，包括關鍵字的來源與使用情形，以及社會標記與控制詞彙間關鍵字的重複情形等，並未具體提出完整的文獻標引心智模式地圖，而是零散、片斷且沒有任何關聯關係的文獻標引心智模式。如果可以更瞭解社會標記者與索引專家的心智模式及其差異，即可選用更適當的關鍵字組織各項資訊資源，進而促成資源的發掘，導引使用者找到所需的資訊。本研究旨在以關鍵字的使用分析，探討社會標記者與索引專家的文獻標引心智模式。在樣本資料方面，本研究選取 13 種圖資期刊中 1,489 篇文獻的社會標記與控制詞彙等關鍵字為樣本，包括 CiteULike 的 3,972 個社會標記（1,672 個不重複標記）與 LISA 的 6,708 個控制詞彙（1,338 個控制詞彙）。在研究方法則是計算關鍵字的使用情形外，還包括社會網路分析與頻繁樣式成長法（含頻繁樣式樹）等方法討論隱藏在關鍵字間的關聯關係結構與樣式。從關鍵字的使用情形、冪次定律分佈、社會標記與控制詞彙間的關鍵字比對、社會網路分析（包括：中心度、階層集叢、同等角色）及頻繁樣式成長等方面而言，結果顯示社會標記者與索引專家間的文獻標引心智模相似度並不高，主要的研究結果如下： 1.. 社會標記者的文獻標引心智模式比索引專家更為多元化。. 2.. 社會標記者直接從文獻題名中選用關鍵字的傾向高於索引專家。. 3.. 社會標記與控制詞彙間的相同程度不高且彼此互補。 i.

(6) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 4.. 社會標記者不經常單獨使用內容群組的關鍵字類別及其所擁有的關鍵字，卻經常與題名主題群組的關鍵字類別及其所擁有的關鍵字一起搭配使用。索引專家雖然不常單獨使用其他群組的關鍵字類別及其所擁有的關鍵字作為文獻標引之用，卻常與題名、主題與內容等群組及其所擁有的關鍵字一起搭配使用。. 5.. 社會標記者傾向交替使用較多組的關鍵字類別及其擁有的關鍵字，而且每組幾乎是由兩種不同的關鍵字類別所組成。然而，索引專家則是傾向交替較少組的關鍵字類別及其擁有的關鍵字，且每組幾乎是由兩種以上不同的關鍵字類別所組成（即 2、3 與 7 種）。. 6.. 社會標記者傾向使用較少的 FP-tree 規則且較少的關鍵字類別進行文獻標引，而索引專家則是傾向使用較多的 FP-tree 規則且較多的關鍵字類別，組織各式資訊資源。. 基於前述的研究結果，本研究貢獻主要有五項：發展文獻標引的心智模式、分析文獻標引心智模式地圖及其結構與樣式、分析關鍵字的使用情形及其共同出現的關聯關係特質、從心智模式解釋社會標記與控制詞彙兩者互補現象的原因，及擴展標記類別模式（tag category model）的可行性驗證與應用解釋。研究結果亦可進一步應用在資訊系統的設計，包括關鍵字的推薦、使用者界面的設計及瀏覽分類架構的建立與運用。. 關鍵字：社會標記、控制詞彙、標引、心智模式、社會網路分析、頻繁項目樣式成長. ii.

(7) Abstract With the wide application of Web 2.0, various social networking platforms allow taggers to use uncontrolled, free keywords (i.e., social tags) to organize information. In library and information science, professional indexers are guided by the principles of authority control and thesaurus control to organize information with controlled vocabularies. Both social taggers and professional indexers regard keywords as concepts that represent their cognitions and mental models of information content, according to their prior experience and knowledge. Existing studies have focused on examining the sources and usage of individual keywords, and comparing the similarity between tags and controlled vocabularies. However, the results of such studies only reflect scattered debris rather than a whole picture of the mental models used by social taggers and professional indexers for article indexing. A better understanding of the mental models of taggers and professional indexers and their usage gap may inspire better selection of appropriate keywords for organizing information, facilitating resource discovery, and guiding users to find the right information. This study explores the mental models used by taggers and professional indexers to designate keywords for article indexing. Using a dataset of 3,972 CiteULike tags and 6,708 Library and Information Science Abstracts (LISA) descriptors from 1,489 scholarly articles in 13 library and information science journals, this study attempts to analyze the keyword usage of taggers and professional indexers to capture and build up their mental models for article indexing, and generalize their structures and patterns. To achieve this end, in this study social network analysis and frequent-pattern growth methods were employed. When measured with respect to terms used, power law distribution, a comparison of terms used as tags and descriptors, social network analysis (including centrality, overall structure and role equivalence) and frequent-pattern growth analysis (including frequent-pattern tree), little similarity was found between the mental models of taggers and professional indexers in article indexing. The results of this study are summarized as follows:  Taggers’ mental models for article indexing are more diverse than those of professional indexers.  Social taggers have a higher preference than professional indexers to select terms for article indexing from title keywords.  There is little similarity between social tags and controlled vocabularies and . they complement each other. Keywords in content-related categories were not used independently by iii.

(8) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. . . social taggers, but they were often used with those from topic-related categories. On the other hand, keywords of other-related categories were often co-used with those of title-, topic- or content-related categories by professional indexers. Social taggers may prefer to assign co-occurring keywords with more sets of fewer facets’ viewpoints (almost always two-facets); however, professional indexers may be inclined to offer keywords with fewer sets of more facets’ viewpoints (i.e., two-, three- and seven-facets). Social taggers may be inclined to assign keywords with fewer path-based rules comprising fewer keyword categories. Professional indexers may tend to offer keywords with more path-based rules comprising more keyword categories.. According to the research results mentioned above, the key contributions of this study are as follows:  Development of a generic model of mental models of social taggers and professional indexers for article indexing.  Analysis of the structures and patterns embedded in maps of mental models   . of social taggers and professional indexers in article indexing. Analysis of the characteristics of keyword usage and co-occurring keywords’ associations. Presentation of a theoretical basis to explain the reason why social tags complement controlled vocabularies. Extension of the tag category model by feasibility examination and explanation.. Furthermore, the results of this study also inform the design of information systems, including term recommendations and user interfaces for indexing, as well as frequent-pattern based classification trees for browsing and navigation. Keywords: social tags, controlled vocabularies, indexing, mental models, social network analysis, frequent pattern growth. iv.

(9) 目次. 目次摘要............................................................................................................................... i 目次.............................................................................................................................. v 表次............................................................................................................................vii 圖次.......................................................................................................................... viii 第一章緒論.................................................................................................................. 1 第一節研究背景與動機...................................................................................... 1 第二節研究目的與問題...................................................................................... 4 第三節研究的重要性.......................................................................................... 4 第四節研究範圍與限制...................................................................................... 5 第五節名詞解釋.................................................................................................. 6 第二章. 文獻探討...................................................................................................... 9. 第一節理論框架：心智模式、系統印象與資訊組織...................................... 9 第二節關鍵字的來源及其類型........................................................................ 16 第三節社會標記與控制詞彙間的關聯程度.................................................... 17 第四節關鍵字的類別及其使用情形................................................................ 20 第五節關鍵字類別的關聯關係結構與樣式.................................................... 27 第六節文獻標引心智模式的理論模式............................................................ 28 第三章. 研究方法.................................................................................................... 31. 第一節研究工作................................................................................................ 31 第二節研究對象................................................................................................ 34 第三節資料收集................................................................................................ 35 第四節關鍵字的類別及入類............................................................................ 37 第五節關鍵字意義的解讀與分析.................................................................... 42 第六節關聯關係的結構與樣式分析................................................................ 44. v.

(10) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 第七節心智模式相似性的評估方式................................................................ 57 第四章. 研究結果與討論........................................................................................ 59. 第一節關鍵字及其類別的使用分析................................................................ 60 第二節社會標記與控制詞彙之間的關鍵字比對............................................ 68 第三節 SNA 中心度分析................................................................................... 71 第四節 SNA 階層集叢分析............................................................................... 80 第五節 SNA 同等角色分析............................................................................... 84 第六節 FP-tree 分析 ........................................................................................... 89 第七節 FP-growth 分析 ..................................................................................... 99 第八節使用關鍵字的心智模式...................................................................... 103 第九節資訊系統設計的意涵.......................................................................... 105 第五章結論與建議.................................................................................................. 109 第一節結論...................................................................................................... 109 第二節研究貢獻.............................................................................................. 114 第三節未來研究建議...................................................................................... 119 參考文獻.................................................................................................................... 123 附錄............................................................................................................................ 133 附錄一 FP-tree 路徑規則中的各階層社會標記關鍵字類別 ............................... 133 附錄二 FP-tree 路徑規則中的各階層控制詞彙關鍵字類別 ............................... 139 附錄三以社會標記群組組成的路徑式規則階層及其關鍵字類別與規則........ 147 附錄四以控制詞彙群組組成的路徑式規則階層及其關鍵字類別與規則........ 151. vi.

(11) 表次. 表次表 2.1 表 2.2 表 2.3 表 2.4 表 2.5. 文獻題名分別與社會標記、控制詞彙間的關鍵字比對情形.................... 17 社會標記與控制詞彙重複比例的文獻分析................................................ 20 TCM 項下的各子類別 .................................................................................. 24 最常用的社會標記類別................................................................................ 27 社會標記類別的類型.................................................................................... 27. 表 3.1 表 3.2 表 3.3 表 3.4 表 3.5. 研究樣本一覽................................................................................................ 36 關鍵字類別及其與各文獻間的關聯關係：第一與二項研究工作............ 39 關鍵字類別及其與各文獻間的關聯關係：第四項研究工作.................... 42 文獻題名與社會標記間關鍵字比對的入類情形........................................ 45 文獻題名與控制詞彙間關鍵字比對的入類情形........................................ 47. 表 3.6 表 3.7 表 4.1 表 4.2. 社會標記與控制詞彙間關鍵字比對的入類情形........................................ 50 FP-tree 項目集 ............................................................................................... 56 RQ 和第四章研究結果與討論各節內容間的相互關係 ............................. 60 社會標記關鍵字類別的使用數量與百分比................................................ 61. 表 4.3 表 4.4 表 4.5 表 4.6 表 4.7 表 4.8 表 4.9 表 4.10 表 4.11. 控制詞彙關鍵字類別的使用數量與百分比................................................ 62 社會標記與控制詞彙間關鍵字的比對情形................................................ 69 關鍵字類別三項中心度的排名名次與係數................................................ 77 共同出現的社會標記關鍵字類別及其次數................................................ 83 共同出現的控制詞彙關鍵字類別及其次數................................................ 84 同等角色的社會標記關鍵字類別及其次數................................................ 87 同等角色的控制詞彙關鍵字類別及其次數................................................ 87 社會標記者與專家間共同的路徑式規則群組及其實例............................ 98 社會標記的 FP-growth 規則組合及其支持度與信賴度............................. 99. 表 4.12 控制詞彙的 FP-growth 規則組合及其支持度與信賴度 .......................... 100. vii.

(12) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 圖次圖 2.1 圖 2.2 圖 3.1 圖 3.2 圖 3.3. 心智模式系統印象與語意落差間的關係.................................................... 12 文獻標引的心智模式及其推導的研究問題................................................ 30 研究組成........................................................................................................ 32 研究程序........................................................................................................ 32 研究問題與樣本間相互關係及其分析方式................................................ 33. 圖 3.4 圖 3.5 圖 3.6 圖 4.1 圖 4.2. 星狀式社會網路............................................................................................ 53 環狀式社會網路............................................................................................ 53 FP-tree 範例圖 ............................................................................................... 56 社會標記的關鍵字使用分佈情形................................................................ 64 控制詞彙的關鍵字使用分佈情形................................................................ 64. 圖 4.3 圖 4.4 圖 4.5 圖 4.6. 社會標記的關鍵字類別使用分佈情形........................................................ 65 控制詞彙的關鍵字類別使用分佈情形........................................................ 66 社會標記出現在控制詞彙的類別分佈情形................................................ 69 控制詞彙出現在社會標記的類別分佈情形................................................ 70. 圖 4.7 圖 4.8 圖 4.9 圖 4.10 圖 4.11 圖 4.12 圖 4.13 圖 4.14 圖 4.15. 社會標記關鍵字類別的三項中心度............................................................ 75 控制詞彙關鍵字類別的三項中心度............................................................ 76 社會標記關鍵字類別的 SNA 階層集叢多維尺度圖.................................. 81 控制詞彙關鍵字類別的 SNA 階層集叢多維尺度圖.................................. 82 社會標記關鍵字類別的 SNA 同等角色多維尺度圖 .................................. 85 控制詞彙關鍵字類別的 SNA 同等角色多維尺度圖.................................. 86 社會標記關鍵字類別的 FP-tree 使用分析 .................................................. 91 控制詞彙關鍵字類別的 FP-tree 使用分析 .................................................. 92 社會標記者使用關鍵字的路徑式決策樹.................................................... 95. 圖 4.16 專家使用關鍵字的路徑式決策樹................................................................ 96 圖 4.17 社會標記者使用關鍵字的文獻標引心智模式.......................................... 104 圖 4.18 專家使用關鍵字的文獻標引心智模式...................................................... 105. viii.

(13) 第一章. 第一章. 緒論. 緒論. 資訊組織（Information Organization, IO）的主要目的在於有效整理各式資訊資源，及組織蘊含在資訊中的各項人類知識，進而促成最佳化的資訊檢索（Information Retrieval, IR），引導使用者查找到所需的各項資訊及其知識。隨著資訊暨通訊技術（Information and Communication Technologies, ICTs）的日新月異，圖書資訊學界（以下簡稱「圖資界」）除了在資訊組織理論與實務等方面適時調整外，也產生了一些改變。尤其在個人資訊管理（ Personal Information Management, PIM）的趨勢衝擊下，資訊組織除了從學術與實務等專業領域進行探討外，也必須充分瞭解使用者在個人資訊管理的行為特質與樣式（pattern）後，才能發展出貼近使用者需求的資訊組織理論與實務。有鑑於此，本研究旨在於探索一般使用者與索引專家（以下簡稱專家）以關鍵字進行文獻標引的行為，進而探究兩者間文獻標引的心智模式及其相似性。本章內容共分為研究背景與動機、研究目的與問題、研究的重要性、研究範圍與限制，以及名詞解釋等節，說明本研究的目的及其內容梗概。. 第一節. 研究背景與動機. 資訊組織的發展與應用已累積許多的學術理論與實務經驗，以有效組織各項人類知識及其載體（如：圖書與期刊）。從早期的館藏清單（inventory list），乃至於卡片目錄（card catalog）與書本式目錄（book catalog），以及近年來的線上公用目錄（Online Public Access Catalog, OPAC）、全球資訊網型公共目錄（Web OPAC）、社會化公用目錄（social OPAC）等，皆是因應不同時代潮流的需求，所產生的資訊組織系統或工具，藉以引導使用者找到所需的資訊資源。背後支撐這些資訊組織系統的理論與實務，則包括了記述編目（descriptive cataloging）與編目規則（cataloging rules）、主題編目（subject cataloging）與分類表（classification）及主題標目（subject headings）、權威控制（authority control）與權威規範檔. 1.

(14) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. （authority file），以及索引典控制（thesaurus control）與索引典等。經由這些資訊組織的學術理論與實務工具，各式資訊物件（information object）得以不同的方式與粒度（granularity）有效組織，進而透過呈現、瀏覽與檢索的機制，導引使用者發現、識別、選擇與獲取所需的資訊資源。在資訊組織領域中，所發展出相關的理論與規範，係一種由上而下的專家型資訊組織，為能瞭解此種資訊組織的有效性，已有相關研究從使用者與圖書館館員所使用的檢索關鍵字來檢視資訊組織的有效性。例如，Carlyle（1989）以美國加州大學洛杉磯分校（University of California, Los Angeles, UCLA）171 位線上資訊系統使用者的查詢異動紀錄為研究樣本，比對美國國會主題標目（Library of Congress Subject Heading, LCSH）與使用者查詢內容間的異同，結果顯示近 74%的查詢內容可以比對到單一的 LCSH 標目。另外，Voorbij（1998）以 475 本人文與社會科學專書的書目紀錄為樣本資料，由學科館員（subject librarian）以專書書目紀錄的題名關鍵字與主題控制詞彙分別查詢，結果發現主題控制詞彙可以對前述專著增加約 37%至 49%的檢索回現率（recall）。另一方面，隨著 Google 等網路搜尋引擎的興起與影響，已改變使用者查找資訊資源的方式，使用者習慣以單一關鍵字（keyword）或兩個以上關鍵字組成的關鍵片語（key phrase）代表使用者的資訊需求與知識概念，查找各式資訊資源。除此之外，隨著 Web 2.0 的推波助瀾，各式社會網路平台（如：Del.icio.us、 Flickr、Last.fm、YouTube 等）提供所謂的社會標記（social tags）或俗民分類（folksonomy）方式，進行各式資訊資源的個人資訊管理。此種社會標記應用於資訊組織的方式被稱為「民主式索引」（democratic indexing）（Rafferty & Hidderley, 2007），係指使用者在組織這些個人化資訊資源時，並不依循資訊組織的原則與規範，而是由下而上自然形成一種集體式的資訊組織及民主現象（Vander Wal, 2007）。儘管社會標記此種方式有別於既有的資訊組織方式，卻提供探索使用者資訊組織行為的機會，也可以從另外一種觀點重新檢視資訊組織既有學術理論與. 2.

(15) 第一章. 緒論. 實務規範的適用性。就資訊組織而言，關鍵字常被視為一種基本的資訊組織方式，經由以字詞代表主題的概念或知識，藉以組織各式的資訊資源，以因應個人、機構（如：圖書館）、學科社群（如：圖資界）等不同層次的需求。在資訊組織方面，關鍵字或詞彙常經由所謂的「詞彙控制」（vocabulary control）方式，達成概念之表徵（National Information Standard Organization [NISO], 2005），同時關鍵字也被視為一種資訊組織的書目語言（bibliographic language），主要用來描述資訊資源的主題、實體與製作等屬性資訊（subject, physical and production attributes）（Svenonius, 2000）。在社會標記方面，Smith（2008）指出：「在標記與組織個人資訊資源的過程中，社會標記者（social taggers）除了將社會標記視為一種關鍵字外，也視為一種概念。」在研究學生的資料庫查詢行為中，Holman（2011）指出：「在資料庫查找文獻時，使用者將關鍵字視為一種概念（concept）。」由此可知，關鍵字皆被一般使用者與專家視為對資訊資源及其內容所認知理解的一種知識表徵（knowledge representation）。在以全球資訊網為研究對象之資訊檢索系統研究中，Zhang（2008b）發現學生具有薄弱的資訊組織心智模式（mental models），並建議深入瞭解使用者的資訊組織心智模式，將有助於全球資訊網資訊資源的組織。唯有資訊組織專家與一般使用者擁有共享的經驗時（Inskip, MacFarlane, & Rafferty, 2008），資訊組織才能成功地達成資源發掘（resource discovery），導引使用者找到所需的資訊資源。反之，所謂的「語意落差」（semantic gap）（Maron, 1977; Rafferty & Hidderley, 2007）將會存在於一般使用者與資訊組織專家之間，導致使用者無法找到所需的資訊資源。因此，如果資訊組織專家能夠清楚瞭解一般使用者的文獻標引心智模式及其行為與認知，將會消弭上述語意落差的鴻溝，且有助於資訊資源的發掘。. 3.

(16) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 第二節. 研究目的與問題. 本研究以心智模式為理論基礎，探討一般使用者與專家間資訊組織的文獻標引方式與行為，並以關鍵字的使用分析為依據，進而建構「文獻標引心智模式」的理論模式。換言之，本研究主要目的為探討一般使用者與專家間使用關鍵字之文獻標引心智模式的相似性，及其文獻標引的行為與知識結構，期能對資訊組織系統的功能設計提出建議，茲將研究目的分述如下： 1.. 以標引期刊文獻的關鍵字為基礎，建構一般使用者與專家所擁有的文獻標引心智模式。. 2.. 檢視一般使用者與專家之文獻標引心智模式是否相似。. 為達成上述目的，除了瞭解一般使用者所運用關鍵字的文獻標引心智模式外，也必須深入探討專家使用關鍵字的文獻標引心智模式。無論是一般使用者或是專家，其文獻標引的心智模式將轉換為具體的行為，包括使用的關鍵字及關鍵字樣式。因而，本研究的主要研究問題（Research Question, RQ）如下： RQ1：以標引文獻所使用的關鍵字而言，一般使用者與專家間的文獻標引心智模式為何？ RQ2：一般使用者與專家間的文獻標引心智模式是否相似，而且兩者是否存有不同的系統印象？. 第三節. 研究的重要性. 以往有關心智模式的研究多數集中在資訊檢索（Zhang, 2008a, 2008b; Zhang & Chignell, 2001）、資訊尋求（Marchionini, 1989a, 1989b; Sutton, 1994）、參考服務（Michell & Dewdney, 1998）、SPSSX 軟體使用（Staggers & Norcio, 1993）、圖書館資源（Makri, Blandford, Gow, Rimmer, Warwrick, & Buchanan, 2007）等方面的認知研究，而有關資訊組織方面的研究也僅限於 FRBR 方面的認知探討 4.

(17) 第一章. 緒論. （Pisanki & Žumer, 2011a, 2011b），或是有關關鍵字的來源及兩兩關鍵字相互比對與其相同比例的研究，然而在資訊組織心智模式內容及其地圖方面的研究仍付諸闕如。截至目前為止，已有 Zhang（2008b）完成使用者的資訊檢索心智模式地圖，但在資訊組織方面未有任何研究以共同出現的關鍵字關聯關係為基礎發展心智模式及其地圖。因而，本研究具有以下的主要重要性或貢獻：. 一、建立文獻標引的心智模式地圖本研究將導入頻繁樣式樹（Frequent Pattern tree, FP-tree）方法，分析關鍵字的使用，以發展出路徑式的規則地圖，藉以擷取一般使用者與專家的認知，進而建立其擁有之文獻標引的心智模式地圖及其內容。. 二、分析文獻標引心智模式的結構與樣式除了 FP-tree 方法外，本研究將同時採用社會網路分析（Social Network Analysis, SNA）與頻繁樣式成長（Frequent Pattern growth, FP-growth）等方法，分析一般使用者與專家所使用的關鍵字，進而歸納其擁有之文獻標引心智模式的結構與樣式。. 三、比較一般使用者與專家之文獻標引心智模式的異同本研究將以標引文獻所使用的關鍵字為分析基礎，建立和描繪一般使用者與專家所擁有的文獻標引心智模式內容外，同時進一步經由冪次定律（power law）分佈現象、SNA、FP-tree 與 FP-growth 等分析，從量化與質化兩種觀點，綜合比較兩者間文獻標引心智模式的異同。. 第四節. 研究範圍與限制. 鑑於既有的多數研究以 Flickr、Del.icio.us 及 LibraryThing 為研究對象，其所. 5.

(18) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 涵蓋的資料類型包括影像（image）、網路資源的書籤（bookmark）與圖書（book），藉以探討有關社會標記在文獻標引方面的相關資訊組織議題。然而，較少研究以 CiteULike 及其期刊文獻與社會標記為研究對象，探討文獻標引心智模式方面的研究議題。為能探索一般使用者與專家間文獻標引的方式及其異同，本研究選擇圖資界的國際期刊為研究範圍，所選擇之期刊文獻必須同時具備有社會標記與控制詞彙，其中前者基於 CiteULike 社會標記者提供的社會標記，後者則根據圖書資訊學文獻摘要資料庫（Library and Information Science Abstract, LISA）專家提供的控制詞彙，本研究將以這些社會標記與控制詞彙作為研究對象。除此之外，還有兩項研究限制，說明如下： 1.. 特別選擇圖資學的主要原因在於圖資學是一個跨領域的學科，具備多重學科的性質，且注重資訊的使用者等前提下，因而就資訊組織的研究而言更形重要且具代表性，除了可以分析一般的文獻標引使用情形外，還可以分析具備圖資學背景之使用者與專家的文獻標引特性及其心智模式。. 2.. 再者，在本研究中，所謂的社會標記者係指實際針對圖資學期刊文獻提供社會標記的個人，而不是單純查詢社會標記，以發現其所需資訊物件的使用者；而專家則是指受過權威控制、索引典控制等專業訓練，以及熟悉相關主題分析方面的資訊組織理論、規範、權威檔與索引典等控制詞彙及其系統，且實際從事期刊文獻標引工作的專業人員。. 第五節. 名詞解釋. 在本研究中，引用許多名詞，為便利名詞的統一使用，將相關名詞予以一致的定義與解釋。茲分述如下。 1.. 社會標記（social tag）：社會標記一詞最早出現於社會性書籤網站的應用，社會性書籤網站提供個人對其所收集的網頁或網站給予標籤或關鍵 6.

(19) 第一章. 緒論. 字進行分類，便於日後搜尋、取用、分享，此種網路資源的資訊組織方式即所謂的社會標記（卜小蝶、張淇龍，2009）。社會標記是由一般使用者提供的關鍵字，藉以描述資訊資源的主題、位置、用途（intended use）、提示（reminder）或其他特性。有些社會標記屬於描述性質，有的則是意見表達（expressive）（Smith, 2008）。 2.. 俗民分類（folksonomy）：係由 Thomas Vander Wal 將「俗民」（folks）和「分類」（taxonomy）兩個詞彙組合而成的新名詞，藉以描述由下而上所形成的草根性分類系統，作為建立、指派與管理社會標記，達成資訊內容的註解與分類（ http://www.abc-clio.com/ODLIS/odlis_f.aspx# folksonomy）。依據 Vander Wal（2007）提出的定義：「俗民分類係由個人針對資訊或物件進行標記，作為個人檢索之用。」. 3.. 控制詞彙（controlled vocabulary）：係指已組配好的詞彙（陳和琴、張慧銖、江綉瑛與陳昭珍，2003），或是一組明確列舉的詞彙，且經由一個權威機構所控制與提供（NISO, 2005），而這些經過定義與規範的詞彙，可作為編目人員或索引人員標誌作品內容之用（http://www.abc-clio.com/ODLIS/odlis_c.aspx#controlled）。. 4.. 關鍵字（keyword）：出現在文獻內容之中，並可作為文獻標引與檢索的字（NISO, 2005）。另外，關鍵字可能出現在題名、主題標目或描述語、內容註、摘要、書目資料庫紀錄內容的重要字或片語，作為檢索紀錄之用（http://www.abc-clio.com/ODLIS/odlis_jk.aspx#keyword）。. 5.. 關鍵字類別（category）：所謂的關鍵字類別係指一組關鍵字具有語意或統計方面的關聯（semantically or statistically associated），例如：屬種關係（genus/species）、親子關係（parent/child）或全部與局部關係等（part/whole）（NISO, 2005）。本研究所指的關鍵字類別，係指具備某一種相同屬性的不同關鍵字，且可依此一屬性將相關關鍵字予以聚合。. 6.. 心智模式（mental models）：係指嵌在個人內在心理的一種工作模式， 7.

(20) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 藉以促成與不同人、技術及外在環境的互動（Michell & Dewdney, 1998），或是系統使用者的一種心理表徵（Staggers & Norcio, 1993）。在本研究中，將文獻標引的心智模式定義為：「社會標記者與專家在面對資訊物件與文獻標引系統時，會依其先備經驗與知識，提供關鍵字及其內隱的知識結構和關聯關係，分別建構社會標記者與專家所擁有的文獻標引心智模式，以表徵其對資訊的一種認知。」 7.. 心智模式一致性（consistency of mental models）：係指不同獨立個體具有相似的知識結構或基模（schemas），及其意義之認知、瞭解與經驗的共享，且以集體方式呈現，包括事件的詮釋及其行為。. 8.. 系統印象（system image）：係指設備裝置呈現給使用者的印象（Staggers & Norcio, 1993），或是設計者依其設計模式所完成的系統，及使用者可以互動到的系統面向，包括使用者界面、操作手冊、線上求助與錯誤訊息等（Makri et al., 2007）。. 9.. 標引（indexing）：由人或機器自控制詞彙中選出詞彙或主題標目，作為表徵物件概念或屬性的一種方法（NISO, 2005）。針對單一出版品編輯索引的過程，通常由訓練有素的專業索引人員在閱讀或掃瞄內容後，選擇適當的標目（如，名稱、地名或主題）以促進檢索（http://www.abc-clio.com/ODLIS/odlis_i.aspx#indexing）。. 8.

(21) 第二章. 第二章. 文獻探討. 文獻探討. 本章內容係以文獻分析為基礎，探討一般使用者運用社會標記及專家使用控制詞彙進行文獻標引的研究現況，同時闡述與建構本研究所需的理論模式。本章分為五節，逐一探討相關文獻與分析相關議題，進而推導研究問題。第一節，就心智模式、系統印象與文獻標引進行論述分析，以建構本研究的理論基礎；第二節，分析關鍵字的來源及其類型，包括文獻題名與社會標記間，以及文獻題名與控制詞彙間的關鍵字關聯性；第三節，探討社會標記與控制詞彙之間的關鍵字關聯關係；第四節，分析關鍵字類別及其使用情形，包括社會標記與控制詞彙的關鍵字類別等兩方面；第五節，探討社會標記與控制詞彙之關鍵字類別的關聯關係結構與樣式；第六節，依前述各節文獻探討的內容重點為基礎，提出本研究之文獻標引心智模式的理論模式。. 第一節. 理論框架：心智模式、系統印象與資訊組織. 本節內容區分為心智模式的定義、一致性與相似性、系統印象、建構與相似性評估，及資訊組織心智模式等重點項目進行論述。. 一、心智模式的定義心智模式一詞最早可追溯至 1943 年 K. Craik 出版「大自然的解釋」（The Nature of Explanation）一書，提出心智模式是以文字、數據或其他符號來表徵人們對外在世界物件與現象的內在認知（Zhang, 2008b）。從現有的文獻而言，心智模式的定義存在著許多不同的界說。「心智模式」（mental models）專書編輯者 Gentner and Stevens （ 1983 ）指出心智模式係融合了認知心理學（ cognitive psychology）與人工智慧（artificial intelligence）兩大學科。在認知心理學方面， Johnson-Laird（1989）認為心智模式是表徵知識與形塑推理形式的一種方法。在. 9.

(22) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 電腦科學方面，特別是在資訊系統設計領域，Norman（1983）認為：「心智模式內嵌在人的腦中，藉以引導人對外在世界的行為與反應。心智模式也被視為有關實際系統中的一種信念反射。」在與現實世界相關物件的互動中，人會依據其先備經驗與知識，建立其本身擁有的心智模式（Norman, 1983）。簡言之，所謂的心智模式係指人依其本身的內在認知與外在世界進行互動過程中所呈現的一種表徵。心智模式存有不同的同義詞，包括：知識結構（knowledge structure）（Brookes, 1980）、知識狀態（knowledge state）（Beklin, Oddy, & Brooks, 1982）、認知結構（cognitive structure）（Wang & Soergel, 1998）與認知狀態（cognitive state）（Ingwersen, 1996）、概念地圖（concept maps）（Bilal & Wang, 2005; Carvalho, Hewett, & Canas, 2001; Freeman, 2004）、認知地圖（cognitive maps）（Eden, 1992; Kearney & Kaplan, 1997; Peruch, Gaunet, Thinus-Blanc, & Loomis, 2000）等，以描述使用者存取資訊檢索系統時的一種心理反射（Cole, Lin, Leide, Large, & Beheshti, 2007）；Winn （2001）則是將心智模式與基模（schemas）視為同義。在圖資界，心智模式可被視為一種知識結構，而管理科學方面亦有類似的觀點與見解（Mohammed, Klimoski, & Rentsch, 2000）。在圖資界的範疇中，所謂的心智模式係指：「人對資訊物件、資訊系統，及相關處理的其他資訊等之心智表徵（mental representation）」（Zhang, 2008b）。心智模式除了應用於資訊檢索方面外，也有應用在資訊組織方面，包括：入口網站（Ahlstron & Allendoerfer, 2004）與書目紀錄功能需求模式（Functional Requirements for Bibliographic Records, FRBR）（Pisanki & Žumer, 2011a, 2011b）等。對資訊組織而言， Pisanki and Žumer （2011a）認為：「心智模式是對外在世界的一種內在表徵。」. 二、心智模式的系統印象、一致性與相似性 Norman 在界定心智模式時，定義心智模式係由設計者的心智模式概念、使 10.

(23) 第二章. 文獻探討. 用者的心智模式、系統與系統印象等四元件所共同組成。在系統的發展階段，設計者依其心智模式概念發展系統，待系統完成設計後，連同使用者界面、操作手冊、線上求助與錯誤訊息等提供給使用者，進而促成使用者對系統產生具體的內在表徵。因而，當設計者與使用者對同一系統具有類似的內在表徵時，亦即設計者與使用者兩者間的心智模式趨於一致（consistent）時，即已具備相似的系統印象。Norman 也指出設計者與使用者間的心智模式可能是不同的（ Norman, 1983），也就是當設計者與使用者間的心智模式存有差異或是不一致時，即已具備不同的系統印象，Blackwell（1996）與 Guerra, Sanz, Díaz, and Aedo（2007）則是將這種不同系統印象的情形視為一種語意落差的現象。然而，何謂心智模式的一致性？在 Mohammed, Ferzandi and Hamilton（2010）研究團隊心智模式（ Team Mental Model, TMM ）時，指出：「所謂共享性（sharedness）的 TMM 係指團隊成員間的心智模式是一致的，或是聚合的（converge），而不是完全相同（identical）的。」Rentsch, Small and Hanges（2008）則是認為：「所謂的共享性是一種認知的相似性（cognitive similarity），意指團隊成員間具有相似的意義或瞭解，且用來詮釋內外在事件之用，包括：行為與想法等。」在研究團隊基模時，Rentsch and Klimoski（2001）則認為：「所謂團隊成員的基模相似性（team member schema similarity）係指團隊成員間具有相似或相容的知識結構（similar or compatible knowledge structure），以組織與瞭解團隊的相關現象。」依據 Mohammed, Ferzandi and Hamilton（2010）的看法：「雖然 TMM 係由不同獨立個體的心智模式所組成，卻是一種集體式的現象。」 Rouse, Cannon-Bowers and Salas（1992）則進一步說明 TMM 其中的一項功能在於團隊成員能以相似的方式進行資訊的描述與詮釋，也就是 Inskip, MacFarlane and Rafferty（2008）所提出的共享經驗。簡言之，由上述論述中，可以得知所謂心智模式的一致性係指不同獨立個體具有相似的知識結構或基模（亦即 Norman 定義的系統印象），以及其意義之認知、瞭解與經驗的共享，且以集體方式予以呈. 11.

(24) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 現，包括事件的詮釋及其行為。反之，則意謂著不同個體間具備不同的知識結構及其意義的認知、瞭解、經驗與詮釋，進而產生所謂不同系統印象或語意落差的現象。就心智模式而言，專家一如模式中的設計者，而一般使用者一如模式中的使用者，即使針對同一文獻或資訊物件（亦即等同於圖資界學者研究的電腦系統或使用者界面），因兩者具備不同的文獻標引心智模式，也會有不同的系統印象，以及造成語意上的落差（請參見圖 2.1）。. 圖 2.1 心智模式系統印象與語意落差間的關係. 三、圖資界有關心智模式相似性的研究圖資界也有許多研究探討使用者的心智模式。在參考服務方面，Michell and Dewdney（1998）發現在參考服務的互動過程中，使用者與圖書館館員間的系統心智模式是有所差異的。在資料庫檢索方面，Holman（2010）指出學生並未具備與資料庫發展者相似的心智模式，因而檢索正確性並未如預期的理想。在資訊檢索系統方面，Zhang and Chignell（2001）發現不同使用者（即圖書館館員與學生）具有不同的心智模式，進而有不同的查詢效能或行為。在傳統圖書館與數位圖書館的研究方面，Makri et al.（2007）指出使用者對傳統圖書館與數位圖書館的資訊資源擁有不同的心智模式，且確切知道兩者間的差異。除此之外，在一項. 12.

(25) 第二章. 文獻探討. 資訊尋求的研究中，Cole et al.（2007）更進一步指出：「必須將使用者資訊尋求與資訊組織系統間的心智模式落差予以消弭，如此方能將學生所使用的查詢詞彙與索引典控制詞彙予以串連在一起。」在資訊組織方面，Quintarelli（2005）探討使用者會依據本身的心智模式、詞彙及語言進行物件的社會標記。在一項比較社會標記與控制詞彙的使用研究中，Kipp（2006）具體指出使用者傾向使用任務與時間（task and time）及一般與新興（generalities and emergent）等類別的關鍵字，專家則是傾向使用地理（geographic）與特定（specifics, 如：使用對象、系統與研究方法等）類別的關鍵字。另外，Inskip, MacFarlane and Rafferty（2008）試從溝通模式（communication model）與符號學（semiotics）理論為基礎，探討音樂資料的資訊組織與檢索議題時，也指出作曲者、演奏者及編目者或聆聽者間的語意落差，包括能指（signifier）與所指（signified）間的不同。然而，在一項 FRBR 的使用者研究中， Pisanki and Žumer（2011a）卻發現使用者具有類似的 FRBR 概念認知。由此可知，無論是在參考服務互動過程、資訊檢索、資訊尋求與資訊資源等，乃至於資訊組織方面，多數研究認為一般使用者與圖資專家間存在有不一致的心智模式，亦即兩者間資訊組織心智模式的知識結構、語意與其詮釋，及行為等並不相似。除此之外，Zhang（2008b）也建議深入探討使用者的資訊組織心智模式及其必要性。所以，必須深入探索與瞭解使用者的資訊組織心智模式後，方能消弭橫亙在一般使用者與圖資專家間的系統印象或語意落差，以提供適當的關鍵字及其相關服務（Rorissa, 2010; Zhang, 2008b）。依據上述文獻探討，本研究推導出下列的主要研究問題： RQ1：以標引文獻所使用的關鍵字而言，一般使用者與專家間的文獻標引心智模式為何？ RQ2：一般使用者與專家間的文獻標引心智模式是否相似，而且兩者是否存有不同的系統印象？. 13.

(26) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 四、心智模式理論的導入與應用方式在研究設計方面，有關心智模式的導入方式亦有所不同。在一項圖書館參考服務的研究中，Michell and Dewdney（1998）將參考服務館員視為心智模式中的設計者，而服務對象則視為使用者，藉以探討參考服務過程中，館員與讀者間對參考服務認知的異同。在一項有關 FRBR 的研究中，Pisanki and Žumer（2011a）導入心智模式時，也是將館員視為系統設計者，而書目紀錄使用者視為使用者。簡言之，這類型的研究皆將心智模式視為一種研究的理論依據，同時將研究對象劃分為系統的設計者與使用者，藉以探討兩者間心智模式的相似性。除此之外，有些研究在應用心智模式時，並未嚴格區分為系統的設計者與使用者。例如，在研究 SPSSX 軟體時，Staggers and Norcio（1993）只將研究對象區分為資深與新手使用者等兩種類型。換言之，只就心智模式的使用者進行研究，探討不同經驗的使用者是否具備相似的心智模式。在一項資訊檢索系統的研究中，Zhang and Chignell （2001）也採取類似的作法，將資訊檢索系統的使用者劃分為館員、研究生、大學生與高中生等四種類型，以探討不同類型使用者之資訊檢索系統的心智模式異同。由上述討論可以得知，有關心智模式導入研究的方式約略可歸納為兩種： 1.. 將研究對象劃分為系統的設計者與使用者，藉以探索兩種不同研究對象間的心智模式相似性。. 2.. 只導入心智模式中的使用者為研究對象，且進一步區分不同類型的使用者，以檢視特定系統之不同使用者間的心智模式異同。. 在本研究中，則是將一般使用者與專家視為不同的使用者，藉以探索不同使用者間的心智模式異同。. 14.

(27) 第二章. 文獻探討. 五、心智模式內容的建構由於心智模式是十分抽象化的，對許多研究而言，如何導引（elicitation）與與表徵（representation）心智模式的具體內容變成十分重要的研究工作。擷取、表徵與建置心智模式的方法很多，可以區分為質化與量化兩種類型。在質化方面，包括訪談（interview）、畫圖（drawing）、觀察（observation）（Zhang, 2008b）與卡片分類（card sorting）（Pisanski & Žumer, 2010a）等不同方法。在量化方面，有些研究經由問卷的評比量化資料，採取方格法（repertory grid technique）（Zhang & Chignell, 2011）建構心智模式。多數研究採取質化方式建構心智模式的內容，如前述的 Makri et al.（2007）、Pisanski and Žumer（2010a），只有少數採取同時採取質量複合方式，以避免質化研究者的主觀判斷與影響，如 Zhang（2008a, 2008b）。. 六、心智模式相似性的評估在心智模式相似性的評估方面，約可區分為量化、質化與複合式等三種。在心智模式相似性的量化評估方面，係採取統計數據或是演算法方式量測心智模式的相似性。例如， Michell and Dewdney（1998）係以五級李克特量表（5-level Likert scale）進行參考服務前後的問卷調查，藉以量測館員與服務對象間心智模式的差異程度。另外，Schaffernicht and Groesser（2011）提出所謂的「距離比例法」（distance ratio approach），經由節點與節點間鏈結情形，計算心智模式的異同。至於心智模式相似性的質化評估則首先需要勾勒或描繪心智模式的圖形，再以心智模式圖的內容與結構為依據，評估兩兩心智模式間的相似性，包括 Pisanski and Žumer （2010a）與 Toker（2012）等研究個案均採質化評估進行。除了量化與質化方式外，也有些研究同時結合量化與質化的複合方式，檢驗心智模式的相似性，如 Zhang（2008a）同時採取畫圖、問卷調查與訪談方式，藉以分析不同使用者之全球資訊網搜尋行為的心智模式相似性。本研究將採取複合方式評估文獻標引心智 15.

(28) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 模式的相似性，請參見本文第三章第七節之「心智模式相似性的評估方式」說明。. 第二節. 關鍵字的來源及其類型. 有些研究已證實社會標記與控制詞彙間具有互補的現象（Kipp, 2006, 2011a, 2011b; Lu, Park, & Hu, 2010; Rolla, 2009; Thomas, Caudle, & Schmitz, 2009; Yi & Chan, 2009），然而有些學者更進一步探究社會標記與文獻題名間關鍵字的關聯程度。以 Flickr 為對象的研究中，Heymann, Koutrika and Garcia-Molina（2008）發現 16%社會標記出現在網頁題名的關鍵字。在 Bischoff, Firan, Nejdl and Paiu （2008）的研究中發現，標註在 Del.icio.us 之 2,507,688 個社會書籤的 323,294 個社會標記中，約有 44.85%會標記與網頁內容的關鍵字相同，在 Last.fm 中，標註在 317,058 個音樂檔的 21,177 個社會標記，則約有 1.54%社會標記與歌詞內容的關鍵字相同。此外，Hotho, Jächke, Schmitz and Stumme（2006）同樣以 Del.icio.us 為研究對象，也發現逾 50%以上的社會標記與網頁內容的關鍵字相符。以 Connotea 為研究對象，Heckner, Mühlbacher and Wolff（2008）發現有 26.5%社會標記與期刊文獻題名的關鍵字相同，而 Lin, Beaudoin, Bui and Desai（2006）以醫學期刊文獻為對象的研究中，則發現只有 19%的社會標記取自於文獻題名的關鍵字。在書目紀錄方面，Frost（1989）以 2,401 筆書目紀錄的 4,264 個主題標目及所屬文獻題名為對象，分析結果顯示 73%的文獻題名關鍵字至少可以比對到主題標目或複分標目的一部分。以醫學碩士論文為研究對象，Ansari（2005）則發現 70%以上的控制詞彙可以比對到學位論文題名的關鍵字。儘管如此，有關社會標記與文獻題名間的關聯程度仍存有差異，並未達成一致的共識，而文獻題名與控制詞彙間的關鍵字關聯程度也不盡相同（請參照表 2.1）。依據上述文獻探討，本研究推導出下列研究問題： RQ2.1：文獻題名分別與社會標記、控制詞彙間的關鍵字關聯程度為何？ 16.

(29) 第二章. 文獻探討. 表 2.1 文獻題名分別與社會標記、控制詞彙間的關鍵字比對情形文獻. 比對對象. Ansari, 2005. 學位論文題名及其控制詞彙. Bischoff. Del.icio.us 社會標記與網頁內. et al., 2008. 關鍵字相同的百分比 70%以上 44.85%. 容. Frost, 1989. Last.fm 社會標記與歌詞內容. 1.54%. 書目紀錄的主題標目與其所. 73%. 屬文獻題名 Connneta 社會標記與資訊科. Heckner et al., 2008. 26.5%. 技期刊文獻題名 Heymann,. Koutrika,. &. Flickr 社會標記與網頁題名. 16%. Garcia-Molina., 2008 Hotho et al., 2006. Del.icio.us 社會標記與網頁內. 50%以上. 容 Lin et al., 2006. Connneta 社會標記與醫學期. 19%. 刊文獻題名. 第三節. 社會標記與控制詞彙間的關聯程度. 除了文獻題名與社會標記間的關鍵字關聯外，也有些學者將研究重點放在社會標記與控制詞彙間的關鍵字關聯關係。在圖書方面，Iyer and Bungo（2011）以 40 本醫學圖書為研究對象，以分別來自 LibraryThing 與 OCLC Connexion 蒐集的 2,074 個社會標記與 162 個 LCSH 主題標目進行研究，該研究融合 Carlyle （1989）、Strader（2009）與 Voorbij（1998）的比對原則，將比對類別區分為完全比對（full）、部分比對（partial）與無法比對（none）三種，進行社會標記與 LCSH 間的關鍵字比對。結果發現只有 1.21%社會標記可以完全比對到 LCSH， 5.52%社會標記可以部分比對到 LCSH ，以及 93.27%社會標記無法比對到 LCSH。以 10 本流通最高的圖書為研究對象，Thomas et al.（2009）以 Voorbij（1998）與 Kipp（2006）提出的比對類別為基礎，一共提出相同（same）、同義（synonym）、自然語言形式的同義（natural language synonym）、廣義（broader term）、狹義（narrower term）、相關（related term）、候選的主題標目（LCSH not assigned）、. 17.

(30) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 與 LCSH 不同形式的相關（related）、不相關（not Related）九種比對類別，研究發現只有 6%社會標記具有與 LCSH 相同的關鍵字，8%社會標記出現在非 LCSH 主要款目（used for subject headings）的關鍵字，而同義、廣義、狹義與相關等類別的比對百分比分別為 8%、0.3%、0.3%與 0.4%。換言之，只有約 14%社會標記具有與 LCSH 相同的關鍵字。在以 8,652 本書的 176,105 筆 LibraryThing 社會標記與 7,628 個 LCSH 主題標目的研究中，Lu et al.（2010）發現只有 2.2%社會標記具有與 LCSH 相同的關鍵字，50.1%LCSH 主題標目中的關鍵字被選用為社會標記，而且約有 85%的圖書書目紀錄中，同時具有一個以上相同關鍵字的 LCSH 與社會標記。在期刊文獻方面，以「Journal of Molecular Biology」與「Proteins」2 種生物醫學學術期刊的 1,083 篇文獻為對象，並以 Kipp（2006）融合 Voorbij（1998）的分類類別為依據進行簡化與調整，Kipp（2011a）提出了相同（same）、同義（synonym）、狹義或廣義（narrower or broader term）、相關（related term）及未出現在索引典的相關（related but not in thesaurus）五大類別進行比對與分類。Kipp （2011a）比對 3,788 個 CiteULike 網站的社會標記與 12,473 個 PubMed 網站的醫學主題標目（Medical Subject Heading, MeSH），發現 16%期刊文獻所擁有的社會標記與 MeSH 具有相同關鍵字。延續上述 Kipp（2011a）以醫學期刊文獻為研究對象的研究後，Kipp 另以 7 種圖資界學術期刊的 165 篇文獻為研究對象，比對 529 個 CiteULike 網站的社會標記與 727 個取自 Library Literature 與 INSPEC 資料庫的控制詞彙，也發現 16%期刊文獻具有相同關鍵字的社會標記與控制詞彙（Kipp, 2011b）。此外，上述 Kipp 兩項研究也進一步發現「未出現在索引典的相關關鍵字」（related not in thesaurus）此一類別最常被使用。在以 2,786 篇教育文獻為研究對象，進行 3,176 個 CiteULike 社會標記與 1,083 個 ERIC 控制詞彙的研究，Bruce（2008）發現只有 7.6%社會標記可以比對到 ERIC 控制詞彙。以 45 篇醫學期刊文獻為研究對象，分別自 Connotea 與 PubMed 抽取 540 個社會標記與. 18.

(31) 第二章. 文獻探討. 1,034 個 MeSH 主題標目進行交叉比對，Lin et al.（2006）則發現有 11%相同的關鍵字出現在社會標記與 MeSH。除此之外，以 Del.icio.us 為研究對象中，Yi and Chan（2009）以 3 組 299 個社會標記連結至 LCSH 的情形下，發現 60.9%社會標記可以精確地比對至 LCSH。由上述討論，社會標記與控制詞彙間的關鍵字關聯程度不盡相同。從上述文獻探討（請參見表 2.2）歸納重點如下： 1.. 無論是以圖書或期刊文獻等資料類型為研究對象，乃至於醫學、教育、圖資等領域，社會標記與控制詞彙間的關鍵字相同性比率偏低，且未獲一致的共識。. 2.. 以關鍵字相似性而言，社會標記確實能增補原來控制詞彙未能標引的關鍵字及其主題概念。. 3.. 就控制詞彙而言，半數以上的控制詞彙關鍵字可以比對到社會標記；如：前述的 Lu et al.（2010）與 Yi and Chan（2009）等研究。. 4.. 社會標記與控制詞彙間關鍵字的主題概念存有某種程度的相關性；如：前述的 Kipp（2011a, 2011b）與 Thomas et al.（2009）等研究。. 5.. 在比較社會標記與控制詞彙間的關鍵字重複比例方面，計算對象有所不同，進而可以歸納成兩種類型：一為關鍵字，二則期刊文獻。由於計算對象的差異性，所代表的意義亦不相同。以關鍵字為對象者，係以關鍵字的整體觀之，雖然可以明顯得知社會標記與控制詞彙間的關鍵字重複比例情形，卻容易出現 Heymann and Garcia-Molina（2009）所發現許多現行研究忽略的一項事實：相同關鍵字可能出現在不同資訊物件上的現象。換言之，亦即相同關鍵字可能標引在不同的文獻上，即使關鍵字相同，亦不代表指涉相同的資訊物件。反之，以期刊文獻為計算與比對的對象而言，即使可以看出哪些期刊文獻具有相同關鍵字的社會標記與控制詞彙，卻無法得知關鍵字整體的重複情形。唯一例外者，只有 Lu et al. （2010）的研究，兩者兼具。. 6.. 在比對社會標記與控制詞彙間的關鍵字重複比例方面，除了直接進行社 19.

(32) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 會標記與控制詞彙間關鍵字的兩兩比較外，也有些研究依據以往研究提出的比對原則為依據，更進一步細分比對的結果；例如，前述的 Iyer and Bungo（2011）、Kipp（2011a, 2011b）與 Thomas et al.（2009）等研究。. 依據上述文獻探討，本研究推導出下列研究問題： RQ2.2：社會標記與控制詞彙間的關鍵字關聯程度為何？表 2.2 社會標記與控制詞彙重複比例的文獻分析社會標記與控制詞彙. 文獻. 研究對象. Bruce, 2008. CiteULike 社會標記與 ERIC 控制. 的相同百分比. 計算單位. 7.6%. 關鍵字. 1.21%. 關鍵字. 詞彙 Iyer. &. Bungo,. LibraryThings 的社會標記與主題標. 2011. 目（含複分標目）. Kipp, 2011a. CiteULike 社會標記與 MeSH. 16%. 期刊文獻. Kipp, 2011b. CiteULike 社會標記及 INSPEC 、. 16%. 期刊文獻. 11%. 關鍵字. Library Literature 控制詞彙 Lin et al., 2006. Connotea 社會標記與 MeSH. Lu et al., 2010. LibraryThing 社會標記與 LSCH. 2.2% 社會標記出在. 關鍵字、. LCSH、50.1%LCSH 出. 書目紀錄. 現在社會標記；85%書目紀錄具有相同的社會標記與 LCSH Thomas et al., 2009. LibraryThing 社會標記與 LCSH. Yi & Chan, 2009. Del.icio.us 社會標記與 LCSH. 約 14%. 關鍵字. 60.9% 社會標記出現. 關鍵字. 在 LCSH. 第四節. 關鍵字的類別及其使用情形. 研究社會標記的使用情形方面，已有許多研究顯示個別社會標記的實際使用呈現冪次定律分佈現象（Angus, Thelwall, & Stuart, 2008; Bischoff et al., 2008; Lu et al., 2010; Marlow, Naaman, Body, & Davis, 2006; Munk & Mørk, 2007; Sen, Lam, Rashid, Cosley, Frankowski, Osterhouse, Harper, & Riedl, 2006; Yi & Chan, 2009）， 20.

(33) 第二章. 文獻探討. 而以控制詞彙為研究對象的研究中，亦有類似的發現（Chan & Vizine-Goetz, 1998; Ravari, 2012）。除此之外，也有些學者致力於社會標記與控制詞彙的類別，以及其類別的實際使用情形。在社會標記類別的研究方面，Golder and Huberman（2006）以 Del.icio.us 為研究對象，提出了 7 項社會標記類別，包括：指明主題（identifying what or who it is about）、指明類型（identifying what it is）、指明擁有者（identifying who owns it）、修飾類別（refining categories）、指明品質或特質（identifying qualities or characteristics）、自我參考（self reference）與任務整理（task organizing）。自此之後，引發許多社會標記類別的後續研究，探討社會標記類別及其使用情形。首先，有的研究以 Golder and Huberman（2006）提出的 7 項社會標記類別為基礎，進一步探討社會標記類別的實際使用情形。例如，在 Thomas 等人的研究中，以 10 本流通使用率最高的圖書為研究對象，其中一項研究工作係延伸 Golder and Huberman（2006）提出的社會標記類別進行使用情形的探討，結果發現指明主題此一類別最常被使用，修飾類別最不常被使用，而且指明主題（37%）、指明品質或特質（12%）、自我參考（11%）與任務整理（17%）等類別的使用率累計總和為 77%（Thomas et al., 2009）。再者，有的研究係以 Golder and Huberman （2006）的 7 項社會標記類別為依據，濃縮成新的社會標記類別。例如，在一項電影推薦的系統設計中，Sen et al.（2006）以 Golder and Huberman（2006）提出的 7 項社會標記類別為基礎，濃縮成事實型（factual tags）、主觀型（subjective tags）、個人化（personal tags）等三種。第三，有些研究則是以 Golder and Huberman （2006）的 7 項社會標記類別為比對對象，建立兩種不同社會標記類別的對照關係。例如，Bischoff et al.（2008）以前述 Golder and Huberman（2006）提出的社會標記類別為基礎，重新制定一套社會標記類別，並且與 Golder and Huberman （2006）提出的社會標記類別進行比對（Bischoff et al., 2008）。此項研究提出的類別包括主題（topic）、時間（time）、空間（location）、類型（type）、作者／擁. 21.

(34) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 有者（author/owner）、評論（opinions/qualities）、使用情境（usage context）與自我參考，同時以 Del.icio.us、Flickr 與 Last.fm 為測試對象，結果顯示主題類別使用率最高，而其他類別則會因測試對象的不同，而有不同的使用率。有些研究則以 Del.icio.us 與 Flickr 為研究對象，同時導入不同的方法或理論，發展不同的社會標記類別，以探討各種社會標記類別的使用情形。在一項以 Del.icio.us 為對象的研究中，Munk and Mørk（2007）以統計學的對應分析（correspondence analysis）為方法，分析出內容（content categorization）、媒體（media categorization）、文本類型（genre categorization）、著作權（copyright categorization）、價值判斷（value categorization）、後設類別（meta categorization）、工作與過程（process categorization）、時間（time categorization）與個人註記（personal categorization）等 9 項社會標記類別，其中以內容類別使用率最高，高達 79.1%。在以 Flickr 為研究對象的研究中，Angus et al.（2008）結合前述的 Golder and Huberman（2006）7 項社會標記類別，及意義層次（levels of meaning）、屬於（of）與關於（about）等理論概念，為影像資料發展一個兩階層四大類的複合式類別，從而進行社會標記的使用分析，前述四大類包括：社會標記與影像間的一般關係（generic relationship between tag and image content）、社會標記與影像間的特定關係（specific relationship between tag and image content）、個人或群組用途（ tag only useful to individual/university group ）、其他（ miscellaneous categories）。結果發現最常用的五項子類別使用率累計高達 87%，這些子類別及其使用率分別是：社會標記與影像間的特定關係類別下的關於影像（what image is about, 21%）與指涉的地理/人/事件名稱（what image is of place/names/events, 14%）、社會標記與影像間的一般關係類別下的屬於影像（what image is of, 15%），以及個人或群組用途類別下的修飾（refining tag, 13%）、自我參考（self-reference tag, 12%）與複合式（compound tag, 12%）。在 Rorissa（2010）的研究中則是以所謂的影像屬性類別（categories of image attributes）為依據，提出. 22.

(35) 第二章. 文獻探討. 10 項社會標記類別，包括：地點（location）、內容（content/story）、人（people）、描述（description）、物件（objects）、抽象概念（abstract concepts）、藝術史資訊（art historical information）、與人相關的屬性（people-related attributes）、視覺元素（visual elements）與顏色（color）。該研究發現地點、內容、人與描述等 4 項類別最常被使用，同時前述這些類別使用率累計高達 76.26%。此外，該研究更進一步導入所謂的影像查詢類別（categories of image queries），結合上述影像屬性類別，形成一個二維矩陣的社會標記類別。Lin et al.（2006）則是提出 16 項類別，包括：地名（place-name）、複合式（compound）、事物（thing）、人（person）、事件（event）、無法識別（unknown）、照片的（photographic）、時間（time）、形容詞（adjective）、動詞（verb）、一般地點（place-general）、評比（rating）、語言（language）、生活事物（living thing）、幽默（humor）、詩文的（poetic）、數字（number）、情感（emotion）等。經歸納發現地名（28.21%）、複合式（14.05%）、事物（11.37%）、人（8.81%）、事件（5.69%）與無法識別（4.79%）等類別最常被使用，且使用率累計高達 78.61%。另外，以 12 個影像檔為測試對象，且劃分為非結構化與結構化社會標記的影像資料描述對照組實驗研究中，Bar-Ilan, Shoham, Idan, Miller, and Shachak（2008）發現結構化社會標記提供較豐富的描述資訊。此外，有些學者以索引典內容為依據，進行關鍵字的異同比對。以 Del.icio.us、Furl 與 Technorati 等為對象的研究中，Spiteri（2007）以美國資訊標準組織（National Information Standard Organization, NISO）的「建置控制詞彙指引」（ Guidelines for the construction format and management of monolingual controlled vocabularies）文件提出的索引典類別為基準，檢視社會標記的使用情形。結果發現以名詞文法形式與事物概念等 2 類別最被常使用。在前述的 Kipp 兩項研究中，則是分別發現「未出現在索引典的相關關鍵字」（related not in thesaurus）此一類別最常使用，且在圖資界與生醫領域中的使用率分別是 45%. 23.

(36) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. （Kipp, 2011b）與 35%（Kipp, 2011a）。也有些研究嘗試發展模式，藉以分析與歸納社會標記的使用情形。如， Heckner et al.（2008）提出所謂的「社會標記類別模式」（Tag Category Model, TCM），且可進一步細分為「語言」（Linguistic Category Model, LTCM）、「功能」（Functional Category Model, FTCM）與「文本」（Text to Text Category Model, T2TCM）等三種子模式，三個子模式所涵蓋的類別如表 2.3 所示。該研究歸納出語言、功能與文本子模式最常用的類別與使用率分別是「名詞」（noun, 72%）、「主題相關的一般內容描述」（ general content description of subject related tags, 79.49%）與「關鍵字的各種變形」（variation, 54%）。. 表 2.3 TCM 項下的各子類別（資料來源：Heckner et al., 2008）子模式. 第一層級. 第二層級. 第三層級. LTCM. 字組（word class）. 單一字的社會標記. 形容詞副詞動詞名詞功能詞縮寫詞數字. 拼字. 單一字以上的社會標記. 複合詞. 正確. 片語. 錯誤各式變形新興字（neologisms）語文（language） FTCM. 主題相關. 資源相關. 創作者資源類型檔案類型日期來源語文. 內容相關. 內容描述. 24.

(37) 第二章子模式. 第一層級. 第二層級. 文獻探討. 第三層級探討範圍分類內容類型方法代碼. 個人相關. 情感的（affective）. 正面的負面的. 時間與任務. 行動導向的工作情境流程相關的. 無須社會標記（tag avoidance （no tag）） T2TCM. 與文本完全相同. 題名. （identical to fulltext）. 摘要文本內容相同的關鍵字. 文本的不同形式（variant. 錯誤拼字（spelling error）. from fulltext）. 字根／字尾變形（stemming/inflection）. 未出現在文本（ not. 同義. occurring in fulltext）. 下位詞（hyponym）上位詞（hyperonym）. 在書目資料庫方面，探討控制詞彙實際使用的相關研究並不多見。在一項以 OCLC 聯合目錄資料庫為研究對象的研究中，自 4 百萬個以上的 LCSH 中，抽取 20,473 個主題標目作為研究樣本，分析 LCSH 在前述資料庫的實際使用情形，並以機讀編目格式（MAchine-Readable Catalog, MARC）紀錄的欄號 600（subject added entry - personal name）、610（subject added entry - corporate name）、611 （subject added entry - meeting name）、630（subject added entry - uniform title）、 650（subject added entry - topical term）與 651（subject added entry - geographic name ）等主題附加款目作為使用率的分析項目。在該研究中， Chan and Vizine-Goetz（1998）發現 LCSH 在 OCLC 聯合目錄資料庫的實際使用情形呈現著冪次定律分佈現象，亦即少數 LCSH 被大量使用，及多數 LCSH 使用率低。除. 25.

(38) 以關鍵字使用分析探討社會標記者與索引專家的文獻標引心智模式. 了使用的分佈現象之外，還進一步發現主題詞彙標目（即 tag 650）被應用在近三分之二以上的書目紀錄，次則為名稱標目（即 tag 600、610、611 與 651）與劃一題名（即 tag 630），使用率趨近於三分之一。依前述探討內容，本研究歸納出下列重點，說明如下： 1.. 多數研究以發展單一主軸的屬性類別為主要目標，以分析社會標記的使用情形，只有少數研究嘗試發展雙主軸的複合式屬性類別，如：前述的 Angus et al.（2008）與 Rorissa（2010）等研究。. 2.. 有些研究以索引典作為發展基礎，藉以分析社會標記的使用類別及其關鍵字間的索引典結構關係，包括：相同（same）、廣義（broader term, BT）、狹義（narrower term, NT）、相關（related terms, RT）、未出現在索引典的相關關鍵字（related terms not in thesaurus）；如：前述的 Spiteri（2007）與（Kipp, 2011a, 2011b）等研究。. 3.. Heckner et al.（2008）提出 TCM，試圖從語文、功能與文本等三種不同的獨立觀點，個別分析社會標記的使用情形。截至目前為止，沒有任何研究同時混合不同子模式，以結合 2 個以上的不同屬性或觀點，進行社會標記的使用分析。. 4.. 以社會標記類目的使用情形而言，似乎具有 80/20 原則（80/20 rule of distribution）的分佈現象，且最常被使用的社會標記類別並未趨於一致（請參照表 2.4）。. 5.. 依現有文獻提出的社會標記類別而言，可以進一步區分為功能型、索引典型與屬性型等三種，同時多數類別為一維類別，少數則為二維類別（請參照表 2.5）。. 6.. 有關控制詞彙實際應用在資料庫書目紀錄的使用研究，截至目前為止，只有少數個案進行探討，且僅限於主題附加款目此一範圍。. 26.