第三章 研究方法
第五節 研究對象與工具
本研究所分析的對象乃是以期刊文獻與會議文獻為主,其研究對象之選取方 式及所使用之研究工具,分別敘述如下:
一、 研究對象
(一) 期刊文獻:以核心期刊作為研究樣本
本研究以檢索自 Web of Science 資料庫中,收錄主題為資訊檢索的所有文 獻,依照期刊數量排列後取出數量最多的前七名期刊3與新加坡學者於 1999 年的 研究中找出資訊檢索領域的核心期刊 (Ding et al.,1999b)之交集,最後決定以五 本核心期刊中所收錄的資訊檢索文獻作為研究對象 ,此五本核心期刊分別是 : Journal of information science 、 Information processing & management 、 JASIST&JASIS、Journal of documentation、Information retrieval。最後,本研究進 行期刊文獻的樣本檢索條件如下 :
(1) 檢索語為:Topic4= “Information Retrieval”5 (2) 年代限制:1990 至 2007 年
(3) 期 刊 名 稱 限 制 : Journal of information science 、 Information processing & management 、 JASIST&JASIS 、 Journal of documentation、Information retrieval。
最後共得文獻總數為 1037 篇,表 3-10 為各期刊所佔篇數與比例分佈,其中以 INFORMATION PROCESSING& MANAGEMENT 佔全部樣本文獻的 38.48%,而 JASIS&JASIST 佔全部樣本文獻的 36.55%,分居第一、二名,圖 3-9 則是樣本文 獻中各本期刊所佔之比例圓餅圖。
3 期刊依文獻數量多寡排名依序為 INFORMATION PROCESSING & MANAGEMENT 、 JASIS&JASIST、JOURNAL OF DOCUMENTATION 、ONLINE INFORMATION REVIEW 、 JOURNAL OF DOCUMENTATION 、INFORMATION RETRIEVAL、ACM TRANSACTIONS ON INFORMATION SYSTEMS 、JOURNAL OF INFORMATION SCIENCE
4檢索欄位 Topic 即同時跨欄位檢索 Title + Abstract + Author Keywords + Keywords Plus®。
5檢索詞“Information Retrieval”,加註雙引號即代表檢索詞中的所有單字視為一個詞彙 。
表 3- 10 期刊文獻樣本中各期刊所佔之篇數與比例
38%
10% 8%
7%
37%
INFORMATION PROCESSING &
MANAGEMENT
INFORMATION RETRIEVAL
JOURNAL OF DOCUMENTATION
JOURNAL OF INFORMATION SCIENCE
JASIS&JASIST
圖 3- 9 樣本文獻中各本期刊所佔之比例圓餅圖
(二) 會議文獻:SIGIR 歷年來所收錄的會議論文為主要研究樣本 。
本研究以資訊檢索領域為研究範圍 ,因此會議文獻的研究樣本經由專家建 議取自資訊檢索領域中最具有代表性的 ACM SIGIR 會議為研究樣本。
SIGIR 會議從 1978 年至 2007 年,共舉辦 30 屆,而本研究所指的 SIGIR 會議文獻乃是會議論文集所收錄發表於會議中的文獻,但不包括會議前或會議中 的專欄文獻(Keynote)與摘要(Summery),及會議論文集後半部的 海報(Posters)與 示範(Demos)文獻,僅以會議論文集中所發表的研究文獻為研究樣本 。
本研究下載年代範圍界定於 1990 至 2007 年的文獻作為分析對象,圖 3-10 為 SIGIR 各年度的文獻分佈長條圖,由圖中可知近年來 SIGIR 會議文獻有逐年
期刊名稱 文獻篇數 所佔百分比
INFORMATION PROCESSING & MANAGEMENT 399 38.48%
INFORMATION RETRIEVAL 85 8.20%
JOURNAL OF DOCUMENTATION 102 9.84%
JOURNAL OF INFORMATION SCIENCE 72 6.94%
JASIS&JASIST 379 36.55%
總計 1037 100%
0 10 20 30 40 50 60 70 80 90
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007
圖 3- 10 SIGIR 會議文獻 1990~2007 年各年度文獻篇數
(三) 研究樣本之調整
由於第一種主題與第二種主題整併之 期刊文獻的部份,必須藉由關鍵字詞彙 進行主題歸類與分析,而期刊文獻樣本於 1990 年以前的文獻均無關鍵字詞彙,
故刪除 1990 年的文獻,從 1991 年至 2007 年進行主題歸類與分析,而會議文獻 同樣刪除 1990 年之文獻,將其年代調整至與期刊文獻相同 。在系統自動化歸類 的部分,因不需採用關鍵字詞彙作為歸類的依據,故仍期刊文獻與會議文獻仍以 1990 年至 2007 年的文獻進行分析。
此外,在期刊文獻樣本的 1037 篇文獻中共取得 3154 次的關鍵字詞彙,雖然 每篇文獻有可能有多個關鍵字詞彙,但每篇文獻的關鍵字詞彙均不會重複出現,
故本研究將各次的關鍵字詞彙均視為一篇文獻,然而關鍵字詞彙的數量過多,故 最後僅擷取出現次數超過 10 次以上之關鍵字詞彙做為分析對象,總計為 1845 次的關鍵字詞彙。
二、 研究工具
(一) 資料庫
1. SCIE、SSCI 資料庫
透過 Web of Science ®可以直接使用 Thomson Scientific 的三大引文資料庫 Science Citation Index Expanded ™, S ocial Sciences Citation Index ®, Arts &
Humanities Citation Index®。資料可以一直回溯到 1900 年。這一豐富的綜合性資 訊來自於全球 9,300 多份權威的、高影響力的學術期刊。透過獨特的被引文獻檢 索,可以用一篇文章、一個專利號、一篇會議文獻或者一本書作爲檢索詞,檢索 這些文獻被引用的情況 ,也可以輕鬆地回溯某一研究文獻的起源與歷史 (Cited References)或者追蹤其最新的進展 (Citing Articles)。本研究以 Web of Science 的 SCIE 和 SSCI 資料庫做為檢索對象,以下載期刊文獻進行分析 。
2. ACM Digital Library
ACM 全名為 Association for Computing Machinery ,是全世界最大的教育和 電腦科學社群,傳遞最新先進的電腦相關資訊 ,ACM 提供電腦領域最首要的數 位圖書館,服務它的成員並扮演提供時代尖端的出版商 、研討會、職業資源。
ACM 數位圖書館是一個收錄大量 ACM 期刊、時事通訊和會議文獻的引用文獻 與全文資料庫。SIGIR 會議文獻即完整收錄於 ACM 數位圖書館中。
(二) 微軟(Microsoft)Office 軟體 - Excel 試算表
微軟公司所發展的 Excel 整合性試算表套裝軟體,主要提供了電子試算表 、 繪製統計圖表及資料處理等三種應用功能 ,以便使用者進行工作表之建立 、編 輯、運算等工作,並能依資料提供繪製統計圖表,例如:直條圖、折線圖等;資 料處理方面,提供了資料內容之排序、篩選、彙總、樞紐統計等簡易分析作業 。
(三) Visual Basic 程式
由於本研究進行主題趨勢預測時 ,需透過公式計算趨勢指標及相對位差得 分,為避免人工計算之錯誤發生 ,本研究委由程式纂寫人員將各種計算公式以 Visual Basic 語法編寫程式,以利本研究將各組文獻數量載入程式進行計算 。
(四) SPSS 統計分析軟體
本研究使用 SPSS 12.0 統計分析軟體進行統計分析 ,SPSS 是 Statistical Package for the Social Science 的縮寫,為一用於社會科學研究上的統計分析軟 體,目前 SPSS 與 SAS 同為世界上公認最優秀的統計分析軟體 (楊世瑩,2005)。
其資料分析方法為獨立樣本雙因子變異數分析,以暸解兩個自變項對依變項的影 響,由於本研究為一個依變項 ,故採用單變量的雙因子變異數分析 。
(五) 主題萃取系統
曾元顯所開發的主題萃取系統可以應用於書目對分析 、控制詞彙之趨勢分 析、少量文件之歸類分析、自由詞彙之共現字分析等。該系統首先將文件下載後,
進行切割、分欄擷取、正規化、解剖儲存至關聯式資料庫中,以便於管理與運用,
並進行初步量化分析與圖表製作,以便掌握其統計特性,並對其有初步之認識。
再以文字探勘技術,分別對下載的文件進行主題自動偵測與辨識的工作,必要時 須將「詞彙」或「文件」歸類成「概念」、「概念」歸類成「主題」、「主題」歸類 成「次領域」、「次領域」再歸類為「大領域」,以便進行概括性的趨向分析 。根 據自動辨識的主題,進一步分析並預測其未來趨勢,並自動擷取各類別特徵詞彙 或標題詞彙,以協助人工判讀。最後將上述主題偵測與分析結果,以主題樹或主 題地圖方式呈現,並結合其他結構化資料,如:出刊年代、國家、期刊等,以提 供豐富多樣的判讀素材(曾元顯,2007)。