主題分析之研究方法

第二章文獻分析

第二節主題分析之研究方法

主題分析，就是「資訊的分析」（Analysis of Information）即自文獻的內容中衍生出文字或符號，形成該文獻要義之簡要描述。這種描述可用來辨識文獻、

提供查驗文獻的檢索點、指示文獻的內容、或作為文獻的替代。它主要是根據文獻顯著的特性解悉內容，以名詞、或是形容詞與名詞的組合、或是片語或句子、

甚至數學等特殊符號，來標示文獻所揭示之重要主題。（陳明來，2002）

主題分析的過程包括了文獻判讀、主題概念的提煉、隱含主題概念的分析、

文獻主題的取捨和主題類型的確定等五個環節，而在進行主題分析時，可能會因為主題概念分析不完全或主題選取錯誤等因素而造成主題分析結果的誤差。因此，在進行主題分析工作時對於文獻內容分析的客觀性、主題概念專指性、概念

選取的全面性和一致性等問題應先有所共識。（陳佳君，1995）

主題分析的方式可分為概要性分析（Summarization）及深入分析（Depth of Indexing）兩種。分析一筆資料可由下列各項著手：題名、摘要、目次、序言、

每章內文之首段、結論、插圖、圖表、標題等」。（王梅玲，1995）

基於上述學者對於主題分析的釋義，本節以國內外學者對於主題分析所進行的研究方法做一概略介紹。

一、引用文獻分析法（Citation Analysis）

引用文獻分析法是資訊工作者常用的一種調查方法，其過程包括分析索引、

摘要、或期刊等來探討某一學科所使用或產生的文獻特性。莊道明（1995）對於引用文獻分析法的解釋為「引用文獻分析法是一種內含豐富、易於操作、應用廣泛的文獻計量學研究方法，常被用於對大量引用文獻進行統計，用來揭示科學期刊、學科、單位與論文著者等各種分析物件的數量特徵與內在規律性」。蔡明月

（2002）提到「從文獻的被引用次數，可顯示出其影響後來研究的情況，研究者經由引用與被引用之間的探究，也可獲知學科的結構、發展，及科學間的關係與文獻傳播的歷程，甚而發展成機構、人才的評價工具」。梁瓊方（2005）提到文獻分析可以分為兩種方式：一種是數量的計算，運用簡單的統計分析文獻、作者、

期刊被引用的次數等；另一種是文獻連結關係的分析，透過書目耦合、共被引等方式分析文獻間的關係。

臺灣地區發表的論文，以圖書資訊學為研究對象進行文獻主題分析的相關研究，分析步驟多數採用：文獻編碼、建入文件管理資料庫、瀏覽所蒐集的文獻名稱及引用文獻名稱給定主題、擬定主題分類系統、根據文獻中出現的主題與主題分類表對照給定主題類別、利用統計分析軟體（Access、Excel、SPSS）進行研究主題分類、整理並解釋研究結果。

然而資訊科技與網際網路的影響，學術研究的主題變化，以人工審視分析主

題進行歸類主題分類表的方式，無法達到知識架構符合研究變化、新穎度的需求；跨領域研究的學術數量亦非單一領域分析主題所可以含概齊全的。我們需要找出更快速的方法幫學門找出研究主題。

二、領域分析法（Domain analysis）

陳奕璇與阮明淑（2006）撰文提到軟體工程師 Kang 將領域分析定義為「對某領域既有系統及其發展歷史、領域專家的知識保存、基本理論和新興科技等相關資進行辨別、蒐集、組織何在現之過程」。圖書資訊科學對於領域分析的觀點為「從文獻的標題及內容中，萃取出該領域的關鍵詞群組，透過字詞群組的整併之後，彙整出該領域所蘊含的概念與文獻架構」。

荷蘭Leiden大學科學與技術研究中心（CWTS）的Noyons等人，長期從研究文獻中分析與觀測科學技術的演進，發展出一套通用的方法，透過學術文獻的蒐集、詞彙擷取與過濾、索引檔建構、共現字分析、文件分類、視覺化呈現、解讀等步驟來分析科學與技術文獻。然而，即便文獻經過各式文字探勘的歸類處理，

並繪製成主題圖，其解讀仍不容易。若能加入更多查詢、篩選、探索與互動的機制，應當能提升其結果的可解讀性（曾元顯、林瑜一，2006）。

林頌堅（2003，2005）發表的研究論文，以自動化研究主題探勘方法，透過文獻的蒐集整理、擷取關鍵詞語、叢集分析辨識主題詞、映射主題關係圖、分析比較各主題的統計資訊、訓練詞彙穩定度、視覺化呈現主題關係、解讀等步驟來分析計算語言學及圖書資訊學文獻。

三、科學計量分析法

美國Drexel大學Chaomei Chen教授，長期進行科學計量學研究，他發展出 CiteSpace分析工具，可針對從ISI的WoS（Web of Science）資料庫下載回來的資料，利用其引用關係，進行研究前沿的辨識、引用時間序列的分析、視覺化的呈現等探索任務，以便利知識領域的趨勢偵測（detecting emerging trends and abrupt

changes in a timely manner）。

其分析步驟為：先使用最廣義的詞彙來定義知識領域，然後從WoS資料庫查詢並下載論文。接著擷取一群出現頻率突然成長的詞彙，做為研究前沿詞彙。這些詞彙來自於論文的標題（title）、摘要（abstract）、描述詞（descriptor）、辨識詞（identifier）。此方法的好處是不會受到引用不足的影響。

在資料分析方面，時間區間的指定，包括使用者指定時間區間，以便在不同時區顯示共同出現的研究前沿詞彙、共同被引用的知識基礎、研究前沿詞彙引用知識基礎文章等三種連結。此外，使用者可指定三種門檻：引用次數、共引用次數與共引用係數，以便應用到三種時間區間：最早區間、中間區間以及最後區間。

此外，Chen教授還運用三角不等式原理來過濾多餘的連結，並以視覺化的呈現方式提供使用者檢視引用網路時間脈絡圖，以分析趨勢。最後並邀請專家驗證，將辨識出來的關鍵論文，提供原作者驗證。

Chen教授的分析方法與工具，著重在研究前沿詞彙的擷取、引用歷程的呈現、關鍵脈絡的追蹤，而不在於整體文獻的主題歸類與摘要化分析。因此其所呈現的網絡關係較為詳細複雜。當應用於較多文獻時，可能會造成難以分析的情況

（曾元顯、林瑜一，2006）。

探討各主題研究的分析方法，發現主題的分析方式會依據研究目標而有所不同，本研究期望以較少人工介入的歸類分析法，找出洽當的文件主題。

在文檔中自動化主題分析於圖書資訊領域之應用 (頁 23-26)

第二章 文獻分析

第二節 主題分析之研究方法

一、 引用文獻分析法（Citation Analysis）

二、 領域分析法（Domain analysis）

三、 科學計量分析法

第二章文獻分析

第二節主題分析之研究方法

一、引用文獻分析法（Citation Analysis）

二、領域分析法（Domain analysis）

三、科學計量分析法