第二章 文獻探討
第二節 主題趨勢之相關研究
要深入暸解特定領域的研究發展,其方法之一就是對該領域 所發表的文獻進 行分析與分類。透過對發表文獻的分析與分類,可以歸納出該研究領域的研究範 圍、議題以及在不同階段的發展重心,而文獻與資料的主題分析向來是圖書資訊 學的研究重心之一。羅思嘉、陳光華與林純如(2001)指出當研究者在進行主題分 析研究時,其主題類目的擬定大致有兩種方式:一是針對所研究的學科範圍,訂 定一個包含整個學科領域的完整類表;另一則是事先檢視已蒐集文獻之內容,根 據在文獻中出現的主題擬定主題類目。前者如 Cai and Card(2007)利用 ACM 的分 類架構將文獻進行主題分類,後者即是書目計量學的相關研 究所常進行之方法,
本研究即是以後者做為主題分析之方式 ,因此會經過以下幾項步驟:
(1) 決定該領域欲進行分析的文獻或資料範圍 (2) 收集研究樣本
(3) 利用相關研究方法找出文獻探究之主題並加以歸類 (4) 以時間順序呈現主題脈絡或趨勢圖像
(5) 設法進行解讀,以驗證研究結果
資訊計量學(informetrics)即是利用量化的統計分析,描述各領域出版文獻的 特性及發展模式,藉以檢視各學科的起源與進展,進而對未來的研究趨勢加以預 測,這是資訊計量學在出版文獻、學科評價及學術傳播方面的重要應用 (蔡明月、
劉瓊芳,2007)。針對特定領域的主題研究趨勢進行探測時,找出該領域的研究 主題是一個很重要的課題。因此本章節先針對文獻主題探測的 書目計量學相關研 究進行瞭解,最後將目前已針對資訊檢索領域文獻進行 主題探測的研究加以統 整。
一、 書目計量學應用於文獻主題探測相關研究
引用文獻分析(citation analysis)是指有系統的組織文獻及其所引用的資料 , 其目的希望藉由兩者關係圖的發展,了解文獻與文獻之間的關係,進一步探索學
術間的知識傳播模式 (羅思嘉,2001)。引用文獻分析方法大致上可分為兩種模 式:數量上的計算及文獻連結關係的分析。前者指的是單純以統計的 方式來分析 期刊、作者或文獻等被引用的次數;後者則是透過書目連結等方式分析文獻之間 的關係(Baker, 1990)。
(一)文獻主題探測之方法
書目計量學中可應用於探討研究文獻之間主題的關係,則有三種方法:共被 引 分 析 (co-citation analysis) 、 書 目 對 分 析 (bibliographic coupling) 和 共 字 分 析 (co-word analysis)。共被引分析的基本概念乃是指一群引用文獻依據他們共同出 現於期刊文獻的參考書目中的數量所群聚,根據其分析對象又可細分為 文獻共被 引、期刊共被引、作者共被引;書目對分析的基本概念是指依據共同分享的參考 文獻數量所群聚的引用文獻(Persson, 1994);共字分析是指出現在兩篇文獻同一 欄位,相同的字或詞來測量兩篇文獻的 聯結關係(蔡明月,2003)。
書目對與共被引分析都同樣是利用第三文獻與兩篇存在的文獻之間的引用 與被引用關係,建立兩篇文獻之間的聯結關係。而這兩者之間最主要的差別在於 書目對是以引用文獻(citing document)為叢集的主體,共被引則是以被引用文獻 為叢集的組成分子。因此兩種方法所得的結果會有一些偏差。利用書目對方法僅 能測出科學發展趨勢的成長點,屬於科學計量學的預測作用;共被引方法則有較 廣的應用,除了可以暸解學科分支的進化情形,亦可用於科學的歷史研究 。
蔡明月(2003)指出共被引分析比書目對分析更可有效的指出相似的主題 ,亦 能反應出被引用文獻之間的語意關係,進而對科學結構,科學或文獻之間的聯結 掌握其歷史性的動態研究。而曾元顯(2007)則認為依照書目對歸類的好處是論文 A 和 B 的用語可以差異極大,只要兩者共同引用足夠多相同的文獻 ,但若兩者 之間沒有足夠的相同參考文獻時,卻又使用相同的主題詞彙,則兩者之間就可以 藉由共字分析對應起來,因此,書目對分析與共字分析可以互補,也可以彼此強
共字分析是計算和分析文獻間 經常一起出現的關鍵字詞,能夠直接的將文獻 的主題展現出來,且共字分析是分析自然語言,因此很重要的是這種方法可以代 出文獻中的科學概念、構想和知識(van Raan & Tijssen, 1993)。此外,蔡明月(2003) 也提到共字分析不同於共被引分析只限於引用的文獻,共字分析的字詞來源相當 普遍,許多書目記錄的欄位都可以是共字分析的對象 。在不同的研究中,研究者 所採用的欄位皆有所不同,像是 Ding et al.(2001)利用文章的關鍵字、標題、摘 要等三個欄位進行分析;Chaomei Chen(2005)是以標題、摘要、 描述、引用文 獻進行分析;曾元顯、林瑜一(2006)則利用文章標題和摘要進行分析 。
傳統的書目計量學分析像是期刊或作者共被引分析,都是藉由分析科學文獻 的引用文獻,但卻無法直接將文獻的主題顯示在文獻中,共字分析可以解決此傳 統書目計量學無法直接於文獻中顯示出文獻主題的缺失 (Ding et al., 2001)。從大 量文獻中歸類出重要的研究主題,除了可以應用上述的書目計量學等方法以外 , 也有其它方式可以進行主題判斷。Funk(1988)判斷熱門或冷門主題的方法是先以 1973 年為基礎年度,再計算每年度的詞彙增長比例作為熱門主題的判斷依據 , 計算辭彙的增長斜率以藉此找出熱門或冷門的主題 。Smeaton et al.(2002)則是利 用 Clustan Graphics 軟體輔助分類後 再以人工進行檢視並給予主題 ;Cai and Card(2007)是先利用 ACM 的分類架構再以人工之方式將文獻進行主題分類 ,而 涉及以人工方式進行分類的缺點除了耗時耗工以外,也很難排除掉個人的主觀意 識。賴芊卉與劉瓊芳(2007)則是採取較客觀的方式,從索引摘要資料庫中取出各 篇文獻的關鍵字欄位進行分析,此種方法雖可避免人為的主觀因素,但會受制於 資料庫的限制。而黃惠美(2007)也提出書目計量學的研究需要相關資料庫做為基 礎,假使資料庫沒有收錄研究者所需分析的資料時,即無法採用此種方式進行分 析,像是會議文獻顯少被收錄於資料庫中,若需要將會議文獻進行主題分析與歸 類時就會遇到此問題。因此欲暸解會議文獻的研究主題,若無法採用資料庫中所 給予的主題詞彙,又欲以節省時間的方式進行歸類,就需使用其他相關分析軟體 進行輔助歸類。
最後,在主題呈現的方式上,書目對和共被引分析皆是以引用文獻或被引用 文獻所存在的連結進行分析量化,都可以得出文獻叢集,計算叢集之間的關聯性 強度則可以繪製出科學之間的關係圖,常見的有網路圖、時序圖、樹狀圖、圓形 圖及二維空間圖。但是根據研究結果所繪製出的圖形或叢聚具有高度複雜的分 析,需要有專業知識才有辦法解讀 (Chaomei Chen, 2005),因此在專家驗證上會 是趨勢研究最終的挑戰。
(二)應用於文獻主題探測之相關研究
Persson(1994)利用書目對和共被引分析 JASIA 中 209 篇期刊文獻,發現資訊 科學領域的核心文獻大多集中於 1970 年以後,且該領域的兩大研究主流分別是 資訊計量學和資訊檢索。Åström(2007)針對圖書資訊學領域的文獻進行共被引分 析,該研究印證資訊計量學和資訊檢索為兩大研究主流外,亦發現在資訊計量學 的文獻集叢中,網路計量學形成了新的群聚;而在資訊檢索領域中,研究議題由 系統導向的資訊檢索 議題轉變為注重使用者互動的檢索系統以及資訊檢索行為 研究,也印證 Persson(1994)提到資訊檢索領域中關於使用者等相關議題的 軟性 (soft)研究逐漸增加並影響關於技術方面的硬性(hard)研究。
Zhao and Strotmann(2007)利用作者共被引分析 XML 的相關文獻並進行該領 域的研究趨勢預測,以比較兩種不同的學術傳播管道對預測研究趨勢上的表現 。 他們分別下載代表期刊的 ISI 資料庫與代表網路文獻的 CiteSeer 兩種管道的 XML 相關文獻,並以 SPSS 軟體進行作者共被引分析該領域的作者群 ,透過年代看出 作者所發表的文獻其所屬領域變化,再利用因素分析繪製該領域的知識架構,以 獲得更清楚的圖像。其研究結果發現從 1996 至 2001 年間於 CiteSeer 所下載的文 獻作者群所屬的主題領域中,有部份與從 2001 至 2006 年間於 SCI 所下載的文獻 作者群所屬領域有相同之處。也就是說,他們發現 CiteSeer 所下載較早期的文獻 已有部分出現於 SCI 所下載的文獻中,因此作者認為 CiteSeer 比 SCI 更能夠預測
在國內則有蔡明月與吳嘉雯於 2000 年針對半導體文獻進行期刊與作者雙被 引分析,以 SCI 資料庫下載 30 種期刊為研究樣本,共得 435 組數據進行分析;
以 46 位作者,共得 1035 組數據,以相關係數分別進行分析,並繪製二維圖像進 行探討,該研究發現半導體文獻具有強烈跨學科性質,且以物理學為主要領域 , 但無法判斷核心主題。
曾元顯、林瑜一(2006)針對教育評鑑領域的 318篇期刊文獻進行趨勢偵測 , 該研究利用SCI資料庫篩選Education Evaluation Policy Analysis (EAAP)期刊做為 分析對象,採用自動化的方式偵測,以書目對分析和共現字分析兩種方法,找出 EAAP期刊中歷時不衰的研究主題與研究前沿 ,該研究主要採用自動化的方式針 對非結構化的資料進行探測,不透過人工的方式進行處理。該研究進行分析時,
因資料集內欄位的關鍵字、文獻來源等控制詞彙不足,因此採用曾元顯開發的關 鍵詞及關聯詞擷取技術,自標題、摘要的欄位內容中,自動擷取重要的辭彙,並 將主題相近的詞彙歸類成 「概念」,以消除單一詞彙主題模擬兩可之情形 ,並以
因資料集內欄位的關鍵字、文獻來源等控制詞彙不足,因此採用曾元顯開發的關 鍵詞及關聯詞擷取技術,自標題、摘要的欄位內容中,自動擷取重要的辭彙,並 將主題相近的詞彙歸類成 「概念」,以消除單一詞彙主題模擬兩可之情形 ,並以