• 沒有找到結果。

第三章 研究設計與實施

第四節 研究實施步驟

本研究擬採用的研究步驟,如下:

一、 確定分析領域

本研究以臺灣地區圖書資訊學為研究分析領域。

二、 選定研究範圍、蒐集文件資料集

本研究以臺灣地區圖書資訊學領域之學位論文與期刊文獻為研究對象。針對 學位論文的相關系所、15種期刊的名稱演變進行調查,以了解系所及期刊出版狀 況。

(一)、 學位論文

經由全國博碩士論文資料庫的檢索系統,以資料庫檢索欄位「院校名 稱」、「系所名稱」、「畢業學年度」等欄位,以系統名稱 DP=「圖」、

「教育」搭配9所大學院校院校名稱進行檢索,整批下載搜尋結果的資料至 本機硬碟,接著,以人工檢視的方式比對各校系所畢業論文清單,將系統

下載民國62年至民國96年7月止,歷年來的學位論文研究文獻,共計912篇。

每一篇學位論文,包含系統編號、研究生中文名、論文中文名稱、畢 業學年度、中文關鍵詞、論文中文摘要、論文參考文獻、引用文獻、論文 英文名稱、指導教授、學位類別、院校名稱、系所名稱、畢業學年度、論 文出版年度、論文頁數、英文關鍵詞、論文英文摘要、論文目次、論文開 放範圍等,共20個欄位。

將全國博碩士論文資料庫下載的文件集,檢視整理、過濾重複資料後,

與自動萃選系統的欄位比對,對應出自動化分析需要的 6個主題分析使用 欄位,將欄位依照自動萃選系統欄位名稱轉入資料庫中,準備進行分析。

全國博碩士論文資料庫的欄位名稱與自動萃選系統欄位名稱(以英文代號 表示)、欄位意義,對應欄位資料範例,簡述如下:

系統編號(UT),例如:084FJU00447006。

畢業學年度(PY),例如:1994。

研究生中文姓名(AU),例如:康芳菁。

論文中文名稱(TI),例如:網路資源主題檢索機制之研究。

中文關鍵詞(DE),例如:檢索機制;主題檢索機制;網路資源;主題檢索。

論文中文摘要(AB),例如:本研究將以文獻分析法……

院校名稱 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 中國文化大學 2 2 1 1 2 1 2 3 3 3 4 1 國立臺灣大學 2 3 8 10 6 9 8 6 12 14 6 17 12 12 11 10 12 12 15 16 12 12 14 22 12 國立臺灣師範大學 1 1 2 1 1 12 10 10 41 39 輔仁大學 7 9 16 10 8 8 18 16 8 18 9 13 國立政治大學 2 4 5 8 13 15 17 17 14 10 淡江大學 16 11 10 21 16 12 12 國立中興大學 13 4 8 3 9 8 世新大學 11 16 19 21 國立交通大學 1

0 5 10 15 20 25 30 35 40 45

72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 00 01 02 03 04 05 06 07

中國文化大學 世新大學 國立中興大學

國立交通大學 國立政治大學 國立臺灣大學

國立臺灣師範大學 淡江大學 輔仁大學

圖3-1 臺灣地區圖書資訊學學位論文數量一覽表

* 學位論文文件集數量為0者,以空白表示

(二)、 期刊文獻

期刊文獻文件集,經由國家圖書館「中文期刊篇目索引影像系統」,

以刊名為檢索條件,整批下載搜尋結果的資料至本機硬碟,接著,以人工 建檔的方式將影像系統中無摘要資料的期刊文獻,到個出版單位的網站,

以下載或是單筆建檔的方式補足摘要。以此方式,本研究選定之圖書資訊 學15種期刊文獻,1994年至2007年7月止,共計3,128 筆。

每一篇期刊文獻,包含篇名、並列篇名、作者、刊名、出版年、卷期 / 年月、出版者、中文關鍵詞、英文關鍵詞、類號、分類類目、中文摘要、

英文摘要等,共13個欄位。

將國家圖書館「中文期刊篇目索引影像系統」下載的文件集,檢視整 理、過濾重複資料後,與自動萃選系統的欄位比對,對應出自動化分析需 要的 5個主題分析使用欄位,將欄位依照自動萃選系統欄位名稱轉入資料 庫中,準備進行分析。全國博碩士論文資料庫的欄位名稱與自動萃選系統 欄位名稱(以英文代號表示)、欄位意義,對應欄位資料範例,簡述如下:

文獻篇名(SO),例如:談當前編目教育的衝擊與挑戰。

作者(AU),例如:張慧銖。

期刊題名(TI),例如:國立台灣大學圖書館。

中文關鍵詞(DE),例如:編目教育。

中文摘要(AB),例如:目錄(catalog)及書目控制… …

期刊

編號 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 1 37 32 34 20 20 19 18 18 18 16 2 21 20 19 24 29 28 41 3 13 13 10 18 30 37 28 27 23 24 21 20

4 6 4 6 7 5

5 26 41 33 35 45 45 38 34 33 46 31 41 37

6 17 11 6 12 16 6 7 8

7 19 27 22 21 22 21 19 14 8 26 25 29 32 40 39 31 24 9 41 34 40 33 10 6 7 11 10 30 25 26 28 31 33 25 28 26 27

11 7 8 9 7 16 24

12 6 6 7 7 6

13 20 16 19 14 16 23 17 16 14 35 36 37 33 33 31 33 29

15 13 49 57 47 49 52

0 10 20 30 40 50 60

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007

0

Macro=0.3229, Micro=(375/393)=0.9542, No. of empty DE=607 期刊文獻文件集:

Macro=0.1877, Micro=(724/741)=0.9771, No. of empty DE=2533

(二)、 統計標題、摘要、關鍵詞等欄位之空值數量、字數等統計值。

學位論文文件集:

TI: EmptyRec=0, MaxWordCount=46, MinWordCount=5, Avg=20.2961 AB: EmptyRec=43, MaxWordCount=3503, MinWordCount=1,Avg=699.8257 DE: EmptyRec=32, MaxWordCount=21, MinWordCount=1, Avg=4.3377

期刊文獻文件集:

TI: EmptyRec=61, MaxWordCount=129, MinWordCount=1, Avg=16.6415

AB: EmptyRec=2397, MaxWordCount=753, MinWordCount=2,Avg=51.0061 DE: EmptyRec=433, MaxWordCount=13, MinWordCount=1, Avg=3.2001

四、 自動化歸類研究主題

以文字探勘、文件自動擷取關鍵詞、詞彙歸類、關鍵詞趨勢分析等方式,首 先將出現在文字訊息中的字串擷取出來作為分析詞彙,接下來結合詞彙出現年 份,並以自動歸類的方法,選出主要的研究主題詞彙,進行分析及資料驗證。

圖3-3 共現字分析示意圖

(引用自:曾元顯、林瑜一(2006)。文字探勘技術在教育評鑑研究發展趨勢分析之應用。)

五、 多階層主題歸類

將「詞彙(term)」或「文件(doc)」歸類成「概念(concepts)」、「概 念(concepts)」歸類成「主題(topics)」、「主題(topics)」歸類成「次領 域(sub-domain)」,「次領域」再歸類為「大領域」,以便於分析。歸類後,

並自動擷取各類別特徵詞彙或標題詞彙,以便於判讀(曾元顯,林瑜一,2006)。

文 件 A

文 件 B 詞彙 1 詞彙 2 詞彙 T

圖3-4 多階層歸類示意圖

(引用自:曾元顯、林瑜一(2006)。文字探勘技術在教育評鑑研究發展趨勢分析之應用。)

六、 結果呈現與比較

判讀自動萃選系統歸類結果的量化圖表與分析地圖,進行研究主題分析與發 展趨勢預估。例舉歸類結果呈現範例如下:

(一)、 列舉部分歸類的群組數量及關鍵詞詞彙數據如下:

S1 (0.1) →S2 (0.01):234 clusters, 892 items →32 clusters, 232 items S1 (0.1) →S2 (0.1):234 clusters, 892 items →73 clusters, 221 items S2 (0.1) →S3 (0.01):73 clusters, 221 items →9 clusters, 72 items S2 (0.1) →S3 (0.1):73 clusters, 221 items →23 clusters, 68 items S3 (0.1) →S4 (0.01):23 clusters, 68 items →2 clusters, 23 items

上述數據列表項目中,S 為階層代號;S1 表示文件集第一階層;Clusters 表 示該階層門檻值進行主題歸類後得到的分群群組數量;Items 表示前一階層主題 歸類的分群群組數量。

(二)、 列舉多階段歸類,主題偵測標題與類別歸類結果如下:

Topics

Concepts

Terms or docs.

圖3-5 主題偵測歸類結果呈現範例

圖3-5 的主題偵測歸類結果中,資料顯示「3(6):」(左上方圓圈處) 表示 自動歸類第3 群組共計有6 個主題關鍵詞詞彙;「393 : 58筆 : 0.2421(圖 書 館:

75.3, 館 員: 64.2, 大 學: 57.8, 圖 書 館 館 員: 54.0, 大 學 圖 書 館: 53.5)」

(中間圓圈處),其中「393」為主題地圖中顯示的編號、「58筆」代表在該群 組中的文件篇數、「0.2421」代表該群組的運算分數;「(圖 書 館: 75.3, 館 員:

64.2, 大 學: 57.8, 圖 書 館 館 員: 54.0, 大 學 圖 書 館: 53.5)」(方框處),

代表該群組萃取出的主題關鍵詞及運算分數。

(三)、 列舉多階段歸類主題地圖繪圖呈現如下:

圖3-6 學位論文歸類結果主題地圖呈現範例

Terms or docs. Concepts

Topics

圖3-6 的主題地圖呈現圖例中,標號表示群組歸類的代號,是與圖3-5的群 組號碼鄉對應的;主題地圖的圓圈,代表群組編號所畫出的圓圈,圓圈大小代表 該群組的篇數數量多寡,圓圈越大代表篇數越多;圓圈之間的距離代表歸類群組 之間的相似度,圓圈越接近相似度越高;圓圈所顯示的顏色,代表自動歸類系統 將較小的群組,往更高階層歸類為同一類別。

在圖3-6學位論文歸類結果主題地圖呈現範例中,左上角圖示為第一階層的 歸類主題地圖、右上角圖示為第二階層的歸類主題地圖、左下角圖示為第三階層 的歸類主題地圖、右下角圖示為第四階層的歸類主題地圖。同一階層不同門檻值 的主題地圖不會變動,群組及主題關鍵詞數量會依據門檻值的不同而有變化。

(四)、 列舉主題詞彙與相關論文標題如下:

圖3-7 主題詞彙與相關論文標題呈現範例

圖3-7 的主題詞彙與相關論文標題範例中,左邊方框處,顯示群組歸類的篇 數資料系統編號、年代、標題資訊;右邊方框處,顯示該文獻萃選出的主題關鍵 詞詞彙。

本研究依據以上歸類結果交互比對,首先,將圖3-5 主題偵測標題與類別歸 類結果出現的個別概念關鍵詞,逐一讀出;接下來,參考歸類結果的關鍵詞,將 詞彙組合成為有意義的主題關鍵詞;參考圖3-6 主題地圖的呈現,將主題地圖標 示接近但系統歸類到不同群組的相近主題概念合併為同一個群組。依序取得學位 論文及期刊文獻的研究主題。