會議與期刊文獻對預測主題趨勢之比較研究—以「資訊檢索」領域為例

全文

(1)國立臺灣師範大學圖書資訊學研究所碩士學位論文. 指導教授：曾元顯. 博士. 會議與期刊文獻對預測主題趨勢之比較研究 — 以「資訊檢索」領域為例 A comparison study on conference papers and journal articles for predicting topic trends – using「Information Retrieval」as an example. 研究生：許育聞. 撰. 中華民國九十八年六月.

(2) 誌謝在即將畢業的此刻，心中五味雜陳，求學的階段在此暫告一段落，心中終於可以放下心中一塊大石頭。未來即將邁向工作階段，有期待也有不捨，校園生活的點點滴滴讓我感動在心頭，即使一路走來跌跌撞撞，但不可否認地這確實是一顆甜美又豐碩的果實，很高興自己可以在台灣師範大學取得學位，校園裡的人、事、物和一切都將讓我終生難忘。感謝我的師傅兼指導教授元顯老師，總是不厭其煩地指導育聞，也在我最無助與困惑的時候給予許多寶貴的建議。謝謝口委兼導師的小蝶老師，從剛進研究所到畢業，總是帶給育聞許多不同面向的觀點與思考模式，豐富了我對人生看法，謝謝口委明月老師巨細靡遺地協助育聞修正論文，謝謝建成老師在馬來西亞對育聞的照顧以及給予畢業班最大的精神支持。謝謝同屬畢業班兼玩樂團隊的怡君、老王、佩佩瑛、湯姆，有你們的歡笑才能讓我熬過寫論文的辛苦；謝謝從凌網變麻吉的慧婷、育云、宜臻，和你們一起分享生活瑣碎的大小事，讓我備感溫馨；謝謝一起奔向馬來西亞的好夥伴戴寧及同窗好友琳禎、郁秀、輝宏等，能和你們在師大相遇、相識是育聞很珍惜的福分；謝謝曾幫助過我的同學兼學姊惠萱與佳臻，及相識超久的死黨們，小瑾、家需、菊、蝦、陳政、牛、娟、A 里等，有你們的關心與問候讓育聞加速寫論文的動力。謝謝工作上遇到的每位主管與夥伴，玲莉姊、秀珍姊、姜文、凱真、梅均、語涵等，有你們的鼓勵，才能讓育聞順利完成學業。最後，感謝在背後默默支持我的家人，謝謝父母親多年來的養育及栽培，讓育聞幸福又無後顧之憂的完成學業，也謝謝喜歡和我拌嘴的弟弟，願意和我分享生活上的大小事並善盡後勤支援的責任，及總是調皮搗蛋的巧克力，願意每天守在門口等我回家，並時常給我ㄧ個超可愛又無辜的眼神。要感謝的人太多，但能打的字太少，千言萬語道不盡育聞對每個人的感謝，謝謝大家、有你們真好！育聞謹誌. i.

(3) 摘要多數進行主題趨勢探測的學者，皆採用期刊文獻作為主要的分析素材，鮮少針對其他類型的文獻進行研究，然而在學術傳播中會議論文的重要性不可小覷，因此本研究以資訊檢索（Information Retrieval）領域為範圍，針對會議文獻與期刊文獻分別進行主題趨勢預測，以觀察不同類型的文獻進行主題趨勢預測時的差異性。本研究收集 1990 年至 2007 年資訊檢索領域具代表性的 SIGIR 會議文獻及五本核心期刊中收錄主題為「資訊檢索」的期刊文獻，五本核心期刊分別是： Information Processing & management 、JASIST&JASIS、Journal of Information science、Journal of Documentation、Information Retrieval，主題歸類的部份是以主題整併和自動化歸類兩種方式進行。為了確保預測的準確性，本研究以相同文獻類型和相異文獻類型分別進行預測，以比較其預測上的準確性，最後分別改變預測集和驗證集之年代範圍以比較其差異性。研究發現會議文獻和期刊文獻在主題詞彙的用法上有所差異，且各自有較關注探討的主題。會議文獻大部分比期刊文獻較早出現，然而在主題預測上，會議文獻並未佔有優勢，當預測的主題範圍較廣時，期刊文獻預測之效果較佳，且相同類型文獻預測效果優於交叉預測之效果。最後提出之建議為：期刊文獻之控制詞彙尚未完善，許多單複數詞彙和縮寫詞彙尚需統整；主題預測的部份，若要瞭解較廣泛的領域趨勢，以期刊文獻預測的效果較佳，而要了解細部領域的趨勢則是以相同的文獻類型進行預測較佳；在後續研究的部份，可以針對像是專利或部落格等其他類型的灰色文獻進行研究，或是以文獻之作者群進行社會網絡分析也是一個可行的研究方向。. 關鍵詞：主題趨勢預測、會議文獻、共字分析、自動化歸類、資訊檢索. ii.

(4) Abstract Many scholars who study topic trends use journal articles as primary texts for analysis and hardly pay attention to other types of documents. However, the importance of conference papers cannot be negl ected in the academic field of Scholarly Communication. Hence, the research focusing on Informal Retrieval puts topic trends into practice in two kinds of literature , conference papers and journal articles, and observes the discrepant results of those in different types of documents. The research collects representative researches on “Information Retrieval” in SIGIR conference papers and five core journals: Information Processing & Management, JASIST&JASIS, Journal of Information Science, Journal of Documentation, and Information Retrieval. The methods of categorizing documents rely on topics of journal articles given in databases, session titles of conference papers, and then the previous articles and papers in automatic categorization. In order to ensure the accuracy of prediction, and prediction is experimented in two groups, the same and the different types of literature. Then, the research change s periods of prediction and validation set to compare the results. The research finds that conference papers and journal articles differ not only in the uses of topic vocabulary but also in the topics of their concerns. Although most conference papers publish earlier than journal articles, the latter possesses more advantages in topic prediction. When the scope of the predicted topic is wider, the predicted results of journal articles are better. The predicted results of documents from the same type also generate superior outcomes than those from the different type. Suggestions are proposed in the end of the rese arch. Control terms of publication papers are defective because plenty of singular/plural vocabulary and abbreviations need arranging. In the part of topic prediction, if understanding trends in wilder fields is needed, the prediction of topic trends in jo urnal articles leads to better effects . The result of using journal articles to predict topic trends is better. To understand trends in detailed field, the prediction of topic trends in same type of documents is more effective. Finally, further studies on Information Retrieval is recommended to study other types of gray literature, such as patents or articles on blogs, or make an social network analysis on authors of documents .. Keywords：topic trends predict, conference paper, co-word analysis, automatic categorization, information retrieval. iii.

(5) 目次摘要 .................................................................................. ii 目次 ................................................................................. iv 表次 ................................................................................. vi 圖次 ................................................................................ xii 附錄表次 ....................................................................... xiv 第一章緒論.................................................................. 1 第一節第二節第三節第四節. 研究動機與背景.................................................................................. 1 研究目的與研究問題 .......................................................................... 4 研究範圍與限制.................................................................................. 5 名詞解釋 ............................................................................................. 6. 第二章文獻探討 ............................................................ 7 第一節會議文獻與期刊文獻 .......................................................................... 7 第二節主題趨勢之相關研究 ........................................................................ 17. 第三章研究方法 .......................................................... 27 第一節研究概念 ........................................................................................... 27 第二節研究假設 ........................................................................................... 28 第三節研究方法 ........................................................................................... 28 第四節研究流程與實驗規劃 ........................................................................ 36 第五節研究對象與工具................................................................................ 47. 第四章研究結果與分析.............................................. 53 第一節文獻主題判斷與歸類 ........................................................................ 53 第二節文獻主題與年代分佈 ........................................................................ 65 第三節會議與期刊文獻主題趨勢預測差異 ................................................100 第四節小結..................................................................................................145. 第五章結論與建議.................................................... 153 第一節結論..................................................................................................153 iv.

(6) 第二節建議..................................................................................................157. 參考文獻 ...................................................................... 161 附錄 .............................................................................. 167 附錄一. 第一種和第二種主題整併下主題年代序列表.............................167. 附錄二附錄三. 主題萃取系統歸類結果 ............................................................... 182 系統自動萃取主題之文獻數量年代排序 ....................................188. v.

(7) 表次表 2- 1 會議與期刊文獻比較表 ............................................................................. 14 表 3- 1 文獻集熱門主題計算與排列方式範例表 .................................................. 30 表 3- 2 SLP 範例計算之原始資料 .......................................................................... 31 表 3- 3 SLP 範例計算之結果與排序 ...................................................................... 31 表 3- 4 評鑑排序方式之範例 ................................................................................. 32 表 3- 5 兩種評鑑排序指標之計算過程 .................................................................. 33 表 3- 6 研究目的、研究問題與研究方法對照表 .................................................. 35 表 3- 7 預測集年代範圍大小之分組詳細年代表 .................................................. 39 表 3- 8 驗證集年代範圍大小之分組詳細年代表 .................................................. 40 表 3- 9 兩種趨勢預測指標之實驗各組詳細起始年代 ........................................... 41 表 3- 10 期刊文獻樣本中各期刊所佔之篇數與比例............................................. 48 表 4- 1 各年代缺少關鍵字詞彙與 DE 詞彙的文獻分佈比率 ................................ 54 表 4- 2 ID 主題詞彙次數分佈比率 ........................................................................ 54 表 4- 3 資訊檢索領域中核心期刊文獻每年主題分佈情況 ................................... 55 表 4- 4 ID 主題詞彙出現 10 次以上之數量分佈 ................................................... 55 表 4- 5 會議文獻各年度文獻主題平均數量分佈 .................................................. 57 表 4- 6 SIGIR 會議文獻主題數量分佈 .................................................................. 58 表 4- 7 期刊文獻無法對應至會議文獻之主題 ...................................................... 60 表 4- 8 會議文獻無法對應到期刊文獻之主題表 .................................................. 61 表 4- 9 會議文獻與期刊文獻主題相似但詞彙不同之主題 ................................... 63 表 4- 10 第一種主題整併後會議文獻與期刊文獻統整比較表 ............................. 80 表 4- 11 第二種主題整併後會議文獻與期刊文獻統整比較表 ............................. 89 表 4- 12 會議文獻第一種與第二種主題整併結果比較表 .................................... 90 表 4- 13 期刊文獻第一種與第二種主題整併結果比較表 .................................... 91 表 4- 14 自動化歸類下系統萃取 38 個類別主題文獻統整表 ............................... 93 表 4- 15 本研究與先前研究之比較 ....................................................................... 96 表 4- 16 自動化歸類與先前研究相同年代比較表 ................................................ 97 表 4- 17 自動化歸類接續先前研究之主題對應表................................................ 98 表 4- 18 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .............................................102 表 4- 19 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之 Levene's Test .........................................................................102 表 4- 20 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之二因子變異數分析摘要表 .....................................................103 表 4- 21 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相 vi.

(8) 對位差得分之各項細格平均數與邊緣平均數 .............................................103 表 4- 22 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之 Levene's Test .........................................................................104 表 4- 23 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之二因子變異數分析摘要表 .....................................................104 表 4- 24 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .............................................105 表 4- 25 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之 Levene's Test .........................................................................105 表 4- 26 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之二因子變異數分析摘要表 .....................................................106 表 4- 27 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .............................................106 表 4- 28 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之 Levene's Test .........................................................................107 表 4- 29 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之二因子變異數分析摘要表 .....................................................107 表 4- 30 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .............................................108 表 4- 31 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之 Levene's Test .........................................................................109 表 4- 32 四種文獻類型以 API 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之二因子變異數分析摘要表 .....................................................109 表 4- 33 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .............................................110 表 4- 34 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之 Levene's Test .........................................................................110 表 4- 35 四種文獻類型以 SLP 為預測指標在不同年代區間呈現對趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..................................................... 111 表 4- 36「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ...................... 113 表 4- 37「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test .................................................. 113 表 4- 38「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .............................. 114 表 4- 39「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ...................... 114 表 4- 40「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨 vii.

(9) 勢預測排序相對位差得分之 Levene's Test .................................................. 115 表 4- 41「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .............................. 115 表 4- 42「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ...................... 116 表 4- 43「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test .................................................. 116 表 4- 44「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .............................. 117 表 4- 45「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ...................... 117 表 4- 46「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test .................................................. 117 表 4- 47「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .............................. 118 表 4- 48「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ...................... 119 表 4- 49「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test .................................................. 119 表 4- 50「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................120 表 4- 51「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................120 表 4- 52「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................121 表 4- 53「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................121 表 4- 54 不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ......................................................122 表 4- 55「不同預測集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................122 表 4- 56「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................123 表 4- 57「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................123 表 4- 58「不同預測集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................124 表 4- 59「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨 viii.

(10) 勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................126 表 4- 60「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................126 表 4- 61「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................127 表 4- 62「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................127 表 4- 63「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................128 表 4- 64「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................128 表 4- 65「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................129 表 4- 66「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................129 表 4- 67「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................130 表 4- 68「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................130 表 4- 69「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................131 表 4- 70「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................131 表 4- 71「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................132 表 4- 72「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................132 表 4- 73「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................133 表 4- 74「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................133 表 4- 75「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................133 表 4- 76「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................134 表 4- 77「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................135 表 4- 78「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨 ix.

(11) 勢預測排序相對位差得分之 Levene's Test ..................................................135 表 4- 79「不同驗證集年代範圍」與「各年度區間」以 API 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................136 表 4- 80「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 ......................136 表 4- 81「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之 Levene's Test ..................................................136 表 4- 82「不同驗證集年代範圍」與「各年度區間」以 SLP 為預測指標在主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 ..............................137 表 4- 83「不同預測指標」與「各年度區間」在會議預測會議主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .........................................139 表 4- 84「不同預測指標」與「各年度區間」在會議預測會議主題趨勢預測排序相對位差得分之 Levene's Test .....................................................................139 表 4- 85「不同預測指標」與「各年度區間」在會議預測會議主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .................................................140 表 4- 86「不同預測指標」與「各年度區間」在期刊預測會議主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .........................................140 表 4- 87「不同預測指標」與「各年度區間」在期刊預測會議主題趨勢預測排序相對位差得分之 Levene's Test .....................................................................141 表 4- 88「不同預測指標」與「各年度區間」在期刊預測會議主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .................................................141 表 4- 89「不同預測指標」與「各年度區間」在會議預測期刊主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .........................................142 表 4- 90「不同預測指標」與「各年度區間」在會議預測期刊主題趨勢預測排序相對位差得分之 Levene's Test .....................................................................142 表 4- 91「不同預測指標」與「各年度區間」在會議預測期刊主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .................................................143 表 4- 92「不同預測指標」與「各年度區間」在期刊預測期刊主題趨勢預測排序相對位差得分之各項細格平均數與邊緣平均數 .........................................143 表 4- 93「不同預測指標」與「各年度區間」在期刊預測期刊主題趨勢預測排序相對位差得分之 Levene's Test .....................................................................144 表 4- 94「不同預測指標」與「各年度區間」在期刊預測期刊主題趨勢預測排序相對位差得分之二因子變異數分析摘要表 .................................................144 表 4- 95 以 API 為預測指標之各項假設檢定之綜合整理 ....................................146 表 4- 96 以 SLP 為預測指標之各項假設檢定之綜合整理 ...................................148 表 4- 97 兩種不同預測指標之假設檢定統整 .......................................................149 表 4- 98 採用兩種預測指標下的各次預測結果統計表 ........................................149 表 4- 99 交叉預測之情形依準確度大小排序 .......................................................150 x.

(12) 表 4- 100 依驗證集為區分對象之交叉預測情形 .................................................151. xi.

(13) 圖次圖 2- 1 資訊循環圖................................................................................................... 8 圖 2- 2 策略座標圖................................................................................................. 23 圖 3- 1 研究架構圖................................................................................................. 27 圖 3- 2 研究流程圖................................................................................................. 36 圖 3- 3「預測集」與「驗證集」預測橫跨年代示意圖 ........................................ 37 圖 3- 4 實驗流程圖................................................................................................. 42 圖 3- 5 第一種主題整併 API 為趨勢指標下 1995~2004 年 CC/JC 主題趨勢預測 42 圖 3- 6 期刊主題整理流程圖 ................................................................................. 43 圖 3- 7 判斷會議文獻重新分類流程圖 .................................................................. 44 圖 3- 8 各階段歸類之原則與流程.......................................................................... 46 圖 3- 9 樣本文獻中各本期刊所佔之比例圓餅圖 .................................................. 48 圖 3- 10 SIGIR 會議文獻 1990~2007 年各年度文獻篇數 ..................................... 49 圖 4- 1 主題系統萃取歸類期刊文獻之範例 .......................................................... 64 圖 4- 2 會議文獻第一種主題整併後 18 個主題整體趨勢圖Ⅰ ............................ 66 圖 4- 3 會議文獻第一種主題整併後 18 個主題整體趨勢圖Ⅱ ............................. 66 圖 4- 4 期刊文獻第一種主題整併後 18 個主題整體趨勢圖Ⅰ ............................. 67 圖 4- 5 期刊文獻第一種主題整併後 18 個主題整體趨勢圖Ⅱ ............................. 67 圖 4- 6 以 Web 為主題的會議和期刊文獻各年度數量折線圖 .............................. 68 圖 4- 7 以 Model(S)為主題的會議和期刊文獻各年度數量折線圖 ...................... 69 圖 4- 8 以 Text Categoris(z)ation 為主題的會議和期刊文獻各年度數量折線圖 .. 69 圖 4- 9 以 User 為主題的會議和期刊文獻各年度數量折線圖 .............................. 圖 4- 10 以 Interfaces 為主題的會議和期刊文獻各年度數量折線圖 .................... 圖 4- 11 以 Evaluation 為主題的會議和期刊文獻各年度數量折線圖 ................... 圖 4- 12 以 Efficiency 為主題的會議和期刊文獻各年度數量折線圖 ................... 圖 4- 13 以 Queries 為主題的會議和期刊文獻各年度數量折線圖 ........................ 70 71 72 72 73. 圖 4- 14 以 Query Expansion 為主題的會議和期刊文獻各年度數量折線圖 ........ 73 圖 4- 15 以 Language 為主題的會議和期刊文獻各年度數量折線圖 .................... 74 圖 4- 16 以 Relevance Feedback 為主題的會議和期刊文獻各年度數量折線圖 ... 74 圖 4- 17 以 Routing and filtering 為主題的會議和期刊文獻各年度數量折線圖 ... 75 圖 4- 18 以 Fusion 為主題的會議和期刊文獻各年度數量折線圖 ......................... 75 圖 4- 19 以 Distributed 為主題的會議和期刊文獻各年度數量折線圖 .................. 76 圖 4- 20 以 Cross language 為主題的會議和期刊文獻各年度數量折線圖 ........... 77 圖 4- 21 以 Cluster 為主題的會議和期刊文獻各年度數量折線圖 ........................ 77 圖 4- 22 以 Theory 為主題的會議和期刊文獻各年度數量折線圖 ........................ 78 圖 4- 23 以 Multi-lingual IR 為主題的會議和期刊文獻各年度數量折線圖 .......... 78 圖 4- 24 會議文獻第二種主題整併後 11 個主題整體趨勢圖 ............................... 82 xii.

(14) 圖 4- 25 期刊文獻第二種主題整併後 11 個主題整體趨勢圖 ............................... 83 圖 4- 26 Web；Hypertext；Link analysis 的會議和期刊文獻各年度數量折線圖 83 圖 4- 27 Semantics；LSI；Probabilistic Models；(IR) Theory；Logic；Inference Networks 的會議和期刊文獻各年度數量折線圖 .......................................... 84 圖 4- 28 Classification&Categorisation(Classifiers) ；Clustering；Filtering；Fusion 的會議和期刊文獻各年度數量折線圖 ......................................................... 84 圖 4- 29 Performance Evaluation；Test collections 的會議和期刊文獻各年度數量折線圖 ............................................................................................................... 85 圖 4- 30 Efficiency；Scalability 的會議和期刊文獻各年度數量折線圖 ............... 85 圖 4- 31 Indexing(structures)；Term Relationships；Statistics；Question and answering 的會議和期刊文獻各年度數量折線圖 ......................................................... 86 圖 4- 32 Natural Language Processing ；Cross language；MIR 的會議和期刊文獻各年度數量折線圖 ........................................................................................ 86 圖 4- 33 User behavior；Human ；Interface Design and Display；Visualization 的會議和期刊文獻各年度數量折線圖 ................................................................. 87 圖 4- 34 Relevance Feedback；Query；Query Expansion 的會議和期刊文獻各年度數量折線圖 .................................................................................................... 87 圖 4- 35 Distributed(IR)(Systems) 的會議和期刊文獻各年度數量折線圖 ........... 88 圖 4- 36 DB&IR(Integration)(Structures) ；Systems；Knowledge Based Information Retrieval 的會議和期刊文獻各年度數量折線圖 .......................................... 88 圖 4- 37 主題萃取系統歸類後結果判讀示意圖 .................................................... 92. xiii.

(15) 附錄表次表 1 全部可對應之主題類別年代序列 ................................................................ 167 表 2 補足對應之主題類別 ...................................................................................174 表 3 第一種主題整併之文獻年代序列 ................................................................ 176 表 4 第二種主題整併年代序列 ............................................................................180. xiv.

(16) 第一章第一節. 緒論. 研究動機與背景. 在學術傳播的過程中，通常可將資料分為一次資料(primary sources)、二次資料(secondary sources)、三次資料(tertiary sources)，科技研究者通常最重視一次資料，因為一次資料可以傳遞最新的研究消息與研究方向，並且常以研究日誌、書信、電話、簡訊、專利、會議、研究報告或期刊等方式進行學術交流 (蔡明月， 1997)。會議是學術傳播中重要的管道之ㄧ，且會議兼具正式與非正式的傳播形式，研究者往往得以從會議中先行發表自己的研究成果，並可於會議中和與會者進行交談，一起分享和討論研究成果，因此會議的舉辦對研究領域而言相當重要。從學術會議中所產生的會議文獻，可以看出該領域的最新研究方向，會議文獻之所以可以備受科學家的重視是因具有下列特色 (Subramanyam, 1981)：一、快速深入新研究和新發展的領域；二、回顧過去的研究、現在的技術、展望新技術的研究方向；三、透視科學理論，將其應用至新領域；四、經由邀請的專家，可快速得到問題的現況和解決的趨勢；五、由新的研究發現和創意的想法，融會貫通到新的技術領域；六、蒐集目前工業所存在的應用技術，提出具體的研究；七、將專家和設備重新組合，對進行中的研究實施模擬和修正；八、整合技術、設備和理論的應用；九、可瞭解目前研究情形，避免重複的研究和錯誤。對於研究者而言，想要了解該領域的研究趨勢與動向，會議文獻將會是一個很好的研究素材。然而會議文獻具有灰色文獻的特性，蔡佳玲(1990)將灰色文獻定義為：「灰色文獻是指發行數量特定且缺乏書目控制，無法經由一般管道取得的公開文獻或電子資訊」，會議文獻因會議的舉行而印製，且大多缺乏書目控制，因. 1.

(17) 此許多國家皆把會議文獻列為灰色文獻的範疇，像是英國、美國、日本等，再加上會議文獻並沒有特定的出版形式，有的刊載在學會、協會的期刊上，作為專刊、特輯或增刊，有些則發表在專門刊載會議紀錄或會議論文摘要的期刊上 (中國大百科全書智慧藏)。由此可知，會議文獻的多樣性更是讓使用者難以取得。期刊文獻係指以定期或不定期連續出版的出版品之一，在我國則習慣將雜誌(magazine)或期刊(journal)分別定位在不同屬性的定期刊物，雜誌泛指一般大眾通俗性定期刊物；而期刊之內容則多屬於學術與專業性論文為主體的定期刊物 (邱炯友，2006)。相較之下期刊文獻有特定的出版管道與形式，使用者可以透過期刊出版或資料庫查詢等方式取得期刊資源，像是引文索引資料庫中即收錄大量的期刊文獻與相關的引用索引資料，可以讓研究者自行下載所需文獻並進行分析，對專門研究文獻分析的學者而言是一個相當方便的研究工具，因此許多專門研究文獻的學者多會以該資料庫作為研究工具下載期刊文獻。蔡明月與劉瓊芳 (2007)針對 1992 至 2005 年資訊計量學領域的發展與演變研究中指出，資訊計量學領域的研究對象多集中在期刊文獻，採用會議文獻作為研究樣本所進行的研究數量就明顯少很多。然而書目計量學的引用研究卻提出，學術界引用或參考灰色文獻的情形有明顯增加的趨勢 (Perry, 1996)，且在獸醫學領域引用灰色文獻的書目計量學研究中亦發現，該領域所引用的灰色文獻中有 50％即是屬於會議文獻 (Pelzer, 2003)。也就是說，會議文獻的重要性已不可同日而語，然而書目計量學的相關研究卻少以會議文獻作為研究對象，因而引發本研究更進一步思考，在學術傳播的過程中，尚有許多其他學術產物可瞭解該學科領域的知識架構，如會議文獻、技術報告、專利文獻等，並非只有期刊文獻可以做為進行研究趨勢的探測。此外，會議所發表的文獻平均而言大多比期刊早約一年至兩年，因此本研究推測會議文獻在預測該領域的研究趨勢時，與期刊文獻所得出的結果相較之下應更具有說服力，是故本研究採實證之方法，以資訊檢索領域為研究範疇，提出相關數據展現會議文獻與期刊文獻在預測該領域的研究趨勢時，兩者之間的相對性效果。 2.

(18) 本研究以資訊檢索做為研究範疇，主要因當前資訊科技的快速發展與網際網路的普及下，資訊檢索領域直到今日仍有大量的文獻產出，也有許多資訊檢索系統成功發展完成，由此可見該領域已成為一門成熟的學科領域，值得我們進一步去探究。此外，資訊檢索領域也有許多學者已針對相關文獻進行書目計量學分析，如新加坡的三位學者已於 1999 年找出該領域 1987 至 1997 年最高被引用的 39 位作者，並以作者雙被引的分析方式繪製資訊檢索領域的知識架構，並將資訊檢索研究主題劃分成六個主題，分別是「資訊檢索基本理論與技術」、「資訊檢索模式」、「資訊檢索系統技術」，「資訊尋求與檢索行為」、「電腦化資訊檢索系統及數學模式」和「資訊檢索通則」，從中也發現在資訊檢索主題下，隨著科技技術的進步與學科領域的衍生，形成更多樣的研究主題 (Ding, Chowdhury & Foo, 1999a, 1999b)。由此可知，選用資訊檢索領域為研究範疇，不但可以對照許多先前的相關研究，也可以更進一步了解資訊檢索領域近年來的發展與研究趨勢，因此本研究將選擇資訊檢索領域作為研究範疇。綜合上述所言，本研究以實證之方式比較資訊檢索領域中，會議文獻與期刊文獻應用於趨勢研究時的相對性效果。首先分別收集資訊檢索領域裡，關注於資訊檢索議題之計算機組織社群 (Association for Computing Machinery's Special Interest Group on Information Retrieval，簡稱 ACM SIGIR)的會議論文以及下載自 Web of Science 資料庫的五本核心期刊文獻，分別是：Journal of Information Science、Information Processing & Management、Journal of the American society for Information Science and Technology ，簡稱 JASIST( 其前身為 Journal of the American Society for Information Science)、Journal of Documentation、Information Retrieval。探討該領域會議文獻與期刊文獻主題趨勢，並分別比較兩者對於預測研究趨勢上相對性的效果，以數據的方式檢驗會議文獻是否在預測研究趨勢時有較好的表現。此外本研究也針對預測主題趨勢時，採用的文獻集年代範圍與預測指標間是否會有差異存在加以探討，作為未來圖書館及資料庫廠商收錄，以為文獻後續進行文獻主題趨勢預測研究的參考依據。 3.

(19) 第二節. 研究目的與研究問題. 根據本研究之宗旨，具體而言本研究的研究目的有以下四點：一、瞭解資訊檢索領域，核心會議文獻與期刊文獻的主題分佈與研究趨勢變化。二、比較會議與期刊文獻進行預測研究趨勢的差異。三、瞭解會議與期刊文獻在預測研究趨勢上的穩定性。四、瞭解趨勢預測指標對預測研究趨勢的影響情形。五、綜合研究結果，提供圖書館與其他資料庫廠商未來收集主題資源、後續進行文獻主題趨勢預測時的參考方向。. 根據上述研究目的，本研究所欲了解的問題如下：一、資訊檢索領域的主要研究議題有哪些？各年代之間的主題變化為何？二、預測研究趨勢時，採用會議論文和期刊文獻作為研究樣本之相對性效果為何？會議文獻是否比期刊文獻較為準確？三、會議文獻與期刊文獻對研究趨勢預測的情形是否穩定？是否隨著選定預測範圍的年代不同而有差異？四、不同的趨勢預測指標應用於預測研究趨勢時有何變化？. 4.

(20) 第三節. 研究範圍與限制. 本研究旨在比較會議與期刊文獻對預測主題趨勢上的相對性效果，由於主題趨勢預測上多以期刊文獻為主，故本研究探討以會議文獻進行主題趨勢預測之結果，其準確度是否優於期刊文獻預測之結果，故以「資訊檢索」領域作為本研究之主題範圍。在年代範圍的限制上，因期刊文獻受限於人工主題整併時需採用資料庫中的關鍵字詞彙(KeyWords Plus®)1，而關鍵字詞彙受限於 Web of Science 資料庫由 1991 年起開始收錄，故人工主題整併之研究樣本年代受限於 1991 年至 2007 年；而自動化歸類則是採用 1990 年至 2007 年的期刊文獻。會議文獻的年代範圍則是與期刊文獻同步，故人工主題整併之年代範圍同樣為 1991 年至 2007 年；自動化歸類則為 1990 年至 2007 年。在資料收集的限制上，會議文獻僅包括正式收錄於會議論文集中的論文，且發表於 SIGIR 會議上之會議文獻，不包括會議進行中的其他相關資料，亦不包含以海報(poster)發表等其他論文；期刊文獻的收集因受限於資料庫的取樣便利性，故研究樣本僅止於收錄在 Web of Science 資料庫中，且由於期刊文獻的研究樣本數量過大，故進一步將期刊文獻的範圍限制在資訊檢索領域的核心期刊作為本研究期刊文獻樣本的範圍。本研究所採用的會議與期刊文獻因本身性質上即有差異，且各自有偏重探討之議題，在進行主題對應上會產生部份無法對應之情形，故本研究在探討資訊檢索領域之主題時，僅以可對應之主題進行探討。在主題趨勢預測的部份，除了盡可能將主題詞彙進行統整，也另搭配主題萃取系統進行自動化萃取，以排除主題在對應上需靠人工統整的主觀性差異，然因人工主題整併後之主題數量仍偏多，故僅針對文獻數量多於 10 篇之主題進行後續實驗，而自動化歸類之主題則不再以文獻數量為門檻。 1. KeyWords Plus® 是由 Thomson Reuters 創建的索引詞，是取自文獻所引用的參考文獻標題中，頻繁出現的重要詞語。 5.

(21) 第四節. 名詞解釋. 一、會議文獻(Conference Literature) 本研究所指的會議文獻為發表於 ACM SIGIR 研討會上，正式收錄於會議論文集中的文獻資料，不包含研討會中以海報或其他方式發表之論文，或論文集中的前言、序論等文獻。. 二、熱門主題(Hot topic) 本研究所稱之熱門主題是以驗證集的文獻數量加總後，再依文獻總數多寡排序作為本研究的熱門主題排序。. 三、趨勢預測指標(Trend Indices) 本研究所採用之趨勢預測指標共有兩種，其一為平均文獻成長率(average percentage of increase，簡稱 API)，其二是年代序列上線性迴歸的最佳曲線 (slope of the linear regression line，簡稱 SLP)。其作用皆為計算預測集熱門排序之依據，亦即以這兩種指標分別計算針對預測集主題文獻之趨勢預測值，再依照計算值的大小排序，作為預測集的熱門主題排序。. 四、趨勢預測評鑑(Trend Detect Evaluation) 本研究所指的趨勢預測評鑑是用於評估預測之準確性，所採用的評鑑方式為 AR(All Ranking)，亦即將所有排列之主題皆做為主題比對的依據，也就是說，本研究計算驗證集與預測集兩種主題排序之間的相對位差，作為評估預測準確性之得分。. 6.

(22) 第二章. 文獻探討. 本研究旨在探討會議與期刊文獻對於主題趨勢預測的相對性效果。本章將分為三節，第一節簡述比較會議與期刊文獻的特性；第二節則進一步探討主題趨勢預測相關方法與研究。. 第一節. 會議文獻與期刊文獻. 會議文獻與期刊文獻是本節所探討的重點，以下先簡介兩者在學術傳播上的角色，再分別探討兩種文獻的特性、起源與相關研究，最後比較兩者之間的差異。. 一、. 會議文獻與期刊文獻在學術傳播中所扮演的角色. Borgman and Furner(1990)將學術傳播定義為所有學門領域的學者透過正式與非正式管道來使用與傳播資訊的過程。在傳播過程中所產生的資料，依照其資料類型又可區分為一次資料、二次資料及三次資料。Subramanyam(1981)指出透過追蹤科學循環的過程可以暸解科學文獻的演變，於是提出科學資訊進展的概要圖，透過此概要圖可以看清楚所有文獻在資訊傳播中所扮演的角色。由圖 2-1 可知，研究發展幾乎都由同儕間非正式的溝通開始，而會議文獻則是所有正式的論文、技術報告、學會、專書等不同媒體之前的預印本，由會議所衍生出的三種出版品分別是：1.由作者或主辦單位所印製的預印本；2.會議議程中所包含的文件與討論的摘要及相關資訊；3.會議結束後發行的重印本。同樣地期刊文獻也會衍生出類似於會議的三種出版品。會議文獻與期刊文獻都同屬於一次資料，也同屬於正式傳播的管道，兩者之間在性質上十分相似，但仍有些許差異之處，將於後續內容進行探討。. 7.

(23) 圖 2- 1 資訊循環圖資料來源：K. Subramamyam, Scientific and Technical Information Resources (New York: Marcel Dekker, 1981)p.5. 科學傳播是資訊科學和知識組織的研究範疇之一(Hjerland, 2003)，且資訊科學家比較偏好出版於學術圈的期刊文獻 (Drott, 1995)，因此有學者認為會議文獻所具備的角色應該是期刊文獻的補充說明，然而後續並沒有很多的研究者認同此論點，反而是比較多研究者接著探討會議文獻和期刊文獻的相對性研究(Montesi & Owen, 2008)。由於網路科技的發達，使得學術傳播的模式也已經改變，在 XML 領域的學者已習慣先將研究成果發佈於網路上，再與同領域的研究人員分享成果，最後才是發表於期刊或會議上(Zhao & Strotmann, 2007)。由此可知，在科學傳播中，人們的習慣早已隨著科技的發達而有所改變，且會議文獻的重要性已不僅是期刊文獻的補充而已。 (一). 會議文獻本質與特性會議文獻的產生主要是起源於會議的舉辦，會議除了提供研究者公開發表的. 8.

(24) 場所，更能藉此機會讓學者與其他研究者彼此交流、交換意見，以迅速取得直接的回饋。根據英國國家標準 BS 4446 解釋「會議」(Conference)是指「任何一型的集會，於集會中發表論文，討論某一專題，或針對單一主題進行廣泛的討論」 (轉引自蔡明月、鄭琚媛，2004)。會議的大小規模各有不同，小型會議通常是針對部分章節或特殊興趣的團體集會，彼此討論新的知識，具有教學性質；大型會議則有數千名來自世界各國的代表出席，為了回顧過去的發展，獲得現階段的知識，及指出未來的研究目標。會議文獻的主要特色為專深、新穎、簡化，學術會議主要針對單一主題或多個議題進行探討，參與者大多為該領域的專家或是正在從事研究的人員，在科技會議上，會議論文所闡述的觀點是最新的研究成果，且會議文獻的發行時間一般比期刊早約一年 (郭華，2006)。會議文獻在內容形式上大致可分為兩種：會議論文集和會議實錄。預定於會議中發表的文章摘要，通常會預先發佈給可能的參與者或刊出在期刊當中，除能告知參與者研討會大概的內容，也能讓無法前來參加的人對活動有一些大致的了解。有時作者也會先將文章的複本散佈出去，希望參與者能夠事先閱讀，以便能有更多的時間在會議上進行討論。會議進行時，參與者通常可以取得文章的摘要或預印的文章；在會議結束後，出版的文獻通常包括完整的會議紀錄及研討會中個人發表的文章(Subramanyam, 1981)。 (二). 期刊文獻本質與特性期刊的概念源自於英國皇家學會主席 Robert Moray 爵士，他認為以個人通. 信作為科學資訊交流媒介有諸多缺點，因而提出此概念，其後法國在 1665 年 1 月 5 日正式創立了第一本期刊－學者雜誌(scavans)。期刊的興起隨著高速印刷技術的進步、科學與技術的專門化、科學人員與技術人員積極的研究與出版等發展而來，期刊的暴增也帶來許多困擾，並減緩了資訊流通的速度，詳盡的編審程序導致研究文獻從投稿至出版經過一年至兩年左右的延遲，因此迫使某些需要快速新資訊的研究人員轉向其他傳播管道，例如研討會等。. 9.

(25) Subramanyam(1981)指出當科學家或圖書館員選擇以期刊作為學術傳播的管道時，會面臨到的缺點有五項：1.出版上的延遲。2.期刊的暴增且相關主題被分散至各種期刊上，選擇的相關期刊變多，科學人員很難再去掌握最新發展；圖書館或從事二次資料收集的人員僅能針對小範圍的資料收錄。3.連續出版品的增加讓科學人員感到緊張，且導致期刊可以提供給研究人員的幫助越來越小。4.期刊成本的增加，影響到出版商、圖書館、讀者，作者也受到影響，因其必須負擔一部分出版成本。5.時間上的耗費，消耗科學人員的時間和精力，導致研究人員寧願轉往其他管道。由此可知，期刊的暴增帶給出版商、讀者、圖書館員、科學人員等許多困擾，圖書館在徵選期刊時，面對眾多期刊應如何選擇成了當前主要的課題，核心期刊即是能解決此種困擾的方式之一。 (三). 核心期刊(Core journal) 核心期刊的概念起源於布萊德福定律 (Bradford's Law)，是布萊德福於 1934. 年觀察 300 種索引與摘要的文獻分佈所提出。他為特定領域或主題中大部分的文獻會集中於少部分的期刊，而少部分的文獻會集中於大部分的期刊。也就是說，如果將期刊按照文獻數量多寡進行排列時，可以找出該學科或主題中最有貢獻的核心區，以及含有數量與之相等的其他幾個區域，這時核心區與其他相鄰的區域，所屬的期刊數量會呈現 1：n：n 2 的情況(昌炎新，2006)。核心期刊的認定可以作為圖書館在評選期刊時的參考依據，同時也可以做為讀者在查找期刊時的一個便利的管道。觀察特定領域的文獻分佈情形，進而界定核心期刊相關的實證研究，在國內有蔡明月(1989)針對「索引摘要」及「電腦在化學分析」兩大主題分別進行實證研究，其後也陸續有許文華 (2001)針對基因工程學等領域；劉瓊芳 (2006)針對資訊計量學；林秀惠(2006)針對資訊科學，驗證布萊德福定律並找出核心期刊與文獻分佈情形。 Ding et al.(1999) 針對資訊檢索領域的期刊文獻進行期刊共被引分析 (co-citation analysis)，利用 SSCI資料庫下載1987-1997年間資訊檢索領域的期刊. 10.

(26) 文獻，找出在該領域中被引用最多次的期刊。其研究發現在資訊檢索領域中的期刊引用與被引用情形很穩定，並提出六種在資訊檢索領域中核心期刊的核心，分別是：Journal of the American Society for Information Science(JASIS) 、Information Processing & Management 、 Journal of Documentation 、 Annual Review of Information Science and Technology、Journal of Information Science、Proceedings of the ASIS Annual Meeting。. 二、. 會議文獻相關研究. 會議文獻是具有快速發表且深具學術內涵的文獻。會議文獻所報告的是目前最流行的資訊，其相關出版品可以成為發展中科學的權威性調查報告及參考資料，也是受研究人員或學者重視的資料來源。但會議文獻因書目控制不易、書目不完整等因素，使其成為灰色文獻。Subramanyam(1981)提出會議論文集有五項缺點分別是：1.出版上的延遲。2.文獻重複性高，通常會出版在很多地方讓與會者方便取得。3.參考書目不完整：許多會議文獻沒有提供完整的參考書目。4.審查過程不嚴謹，許多會議文獻或投稿並未經過合格的審查。5.資料來源難以認定，很難認定所檢索到資訊是出自於會議論文集中。會議文獻具有灰色文獻的特質，造成研究人員、圖書館員、讀者的取用不便，也因而產生許多值得探討的議題，如多語言問題、索引和摘要品質不均和延續出版等。會議文獻的取用不易，再加上資料庫的快速發展，且資料庫又多以收錄期刊文獻為主，讓主題趨勢預測的研究多以期刊文獻做為主要的分析對象，而忽略會議文獻也可以作為主題趨勢研究的樣本，因此本研究延續這樣的想法，進行會議與期刊文獻對預測主題趨勢的比較研究。 (一). 會議文獻的延續出版研究針對會議文獻進行研究的議題，早年多集中於其特質上的探討，進而找出會. 議文獻潛藏的問題所在，其後的相關學者則針對會議文獻的延續出版等議題多做 11.

(27) 探討。1958 年 Felix Liebesny 的研究中發現會議論文集中約有 48.5%的論文沒有延續性出版，約有 51%的會議文獻進行延續出版，且其中的 1/3 以期刊型式出版，其他則僅以摘要方式出版，而延續出版中，多在一至兩年後才出版(轉引自黃淑娟、蔣嘉寧、黃擎天與宋雪芳，1998)。 Garvey(1972)調查 1966 年至 1971 年間九個科技和社會科學的會議，針對會議延續出版品研究發現參與會議之後有 50%的論文發表者，會在 1 至 2 年內進行會後延續性出版，而在 2 年或 2 年後以期刊型式出版(轉引自傅雅秀，1996)；50% 則表示在會議中所獲得的回饋對其會後出版相當有幫助。次年，Garvey 等在接續研究中，將參與會議者分成論文發表者、出席討論會與索取論文者，以問卷的方式進行會議文獻在同儕間資訊同化的調查。結果顯示，會議上所發表的論文有半數是剛完成於六個月內的研究，另有半數是在兩年內開始的研究工作，此結果印證會議文獻是研究人員收集最新研究趨勢的重要管道。 Subramanyam and Schatter(1981)的研究報告則指出，隨著不同學科，會議文獻延續出版的比例約在 30%至 70%之間。Allen(1995)以普渡大學圖書館的物理館藏進行研究，結果發現 32%的期刊包括會議文獻，總頁數佔 28%。Drott(1995) 以 1987 年美國資訊科學學會(American Society for Information Science，簡稱 ASIS) 的年會論文和同年 ASIS 的期刊為研究對象，結果發現會議文獻只有 13%延續出版於期刊中發表，但是期刊文獻卻有 33%為會議文獻的延續出版。而針對簡訊或摘要類型的延續出版研究則有 Athreton(1961)以「物理評論簡訊」(Physical Review Letters)的作者進行問卷調查，了解其延續出版的情況，結果有 39%會在兩年內發表於簡訊的論文，又以正式論文型式出版者中，有 4%以會議文獻型式出現。Keane and Ronayne(1972)則以「化學期刊」(Chemical Abstract) 的兩種期刊簡訊 2 至 3 年後被 SCI 索引的情形進行研究，其基本假設是以期刊簡訊上的第一作者於延續出版後，會引用自己在簡訊上的文獻。研究結果發現，再出版的比率分別是 20%和 29%。. 12.

(28) SIGIR 會議. (二). 在資訊檢索領域中，SIGIR 會議為資訊檢索領域中具有代表性的社群之一， ACM SIGIR 全名為 Association for Computing Machinery's Special Interest Group on Information Retrieval，是一個專門以資訊檢索為研究興趣的協會組織。SIGIR 關注於所有關於資訊儲存、檢索和散佈的面向，包括研究策略、產出架構和系統評鑑等。 SIGIR 會議起源於 1971 年，Jack Minker 和 Sam Rosenfeld 組織 ACM SIGIR 資訊儲存與檢索研討會，第一個正式的 SIGIR 會議由 James Iverson 主辦，於 1978 年在美國紐約羅徹斯特(Rochester, New York)舉行2。針對 SIGIR 會議進行研究的學者有 Smeaton, Keogh, Gurrin, McDonald, and Sødring (2002)利用 25 年來發表於 SIGIR 會議的 853 篇文獻進行內容分析。. 三、. 會議與期刊文獻的比較研究. 會議文獻與期刊文獻在資訊循環中所扮演的角色有所不同，因此兩者所重視的面向、文獻特性、出版形式等也會有所差異，會議重視最新的研究以及學術交流，主題通常比期刊更為新穎。會議大部分以口頭報告為主，期刊則注重嚴謹的文獻結構；期刊的同儕審查(peer-review)制度亦較會議文獻嚴謹。Gardner(1980) 和 Montesi & Owen(2008)分別比較期刊文獻與會議文獻之間的差異，歸納如表 2-1。Montesi & Owen 以會議文獻的延續出版至期刊的過程進行研究，該研究訪問 22 位編輯與助理編輯，並利用網路發放問卷給 122 位將會議文獻出版成期刊文獻的作者填寫，由表中可知，除了可以很清楚的看出會議文獻與期刊文獻在時效性、完整性上有較大的不同以外，其閱讀的對象和所扮演的角色也有一些差異。. 2. 上網日期：2007/06/03，檢索自 http://www.sigir2007.org/history.html 13.

(29) 表 2- 1 會議與期刊文獻比較表文獻類型. 會議文獻. 特性比較. 目的. 期刊文獻. 以傳遞進行中或最新研究的成果具有完整的研究成果，通常是會議文為主，重點在於發佈新知。快速獻的延續出版品，注重推翻舊資料、更新的作品，供作者展現其想法修改理論、提供外延的文獻。和概念。. 出版速度與對象. 表現方式與完整度. 內容與特性. 同儕審查制度. 引文特性. 延續發展. 出版速度很快。為特定或專門人士所準備。. 出版過程通常很久。為大眾所準備，可作為學生的作業基礎。. 通常只刊載發現、結論和影響，具有完整的理論、實驗資料、結論和有些甚至只出版問題的詢答和有引文，表現方式較為嚴謹。較長且主價值的答覆。精簡且具有投稿的題完整。本質。題材比較新穎和創新。協助領域中其他研究者可以跟上腳步。. 承接先前研究者的想法並完整瞭解先前研究的過程與成果。類似檔案形式，且想要成為某時點的最終作品. 純粹是個人科學發現優先權的主動審查制度較為鬆散，甚至以邀稿動機，甚至發表時須符合該期刊所預的方式進行特殊主題的探討。定的研究主題，並接受審查制度。引用文獻較為新穎，而且會有特出版需經ㄧ至兩年的延誤，引用文獻別的引用文獻出現。較老，但屬於較正式的資訊載體。作品有可能會進一步發展成後續文獻. 作品注重完整的敘述，且文獻具有自我完備的特性(self-contained). 資料來源：本研究整理會議文獻與期刊文獻雖然在許多面向上都有所不同，但並非所有領域皆是如此。在不同的學門中，有不同的特殊發表管道，像是自然科學界經常將研究直接發表於期刊上；應用科學界則將研究成果發表於會議上；醫學、食物製造、農業和能源科學，並以國際型式的會議方式進行 (黃秀琴，1998)。社會科學則傾向全文式的發表；科學與工程類常以非描述性的文字表達，如使用大量的圖表或口語式的敘述，因此，對非與會的資料使用者而言，會議文獻對其研究幫助較有限(蔡. 14.

(30) 明月、鄭琚媛，2004)。會議文獻對某些特定領域的研究者來說，則是很重要性的。傅雅秀曾於 1996 年針對生命科學專家進行研究調查指出，該領域 33％的研究員每年參加國內二個以上的會議，51.4％的研究員經常由會議報告中獲得資訊者，且 44％的研究人員認為在會議中間休息的交談中可以得到幫助。蔡明月等於 2000 年觀察半導體文獻進行研究時亦提出，會議文獻尤在新興領域中越來越受到重視。此外該研究亦發現在 INSPEC 資料庫裡，會議文獻與期刊文獻的數量總和已達全部文獻的 99.67％，其中期刊文獻佔 66.85％；會議文獻佔 32.82％，顯示出學術傳播過程中，會議文獻已日趨受重視(Tsay, Jou, & Ma, 2000)。在會議與期刊文獻的比較研究中可發現，兩者在引用文獻的比較上，會議的引用文獻數量均少於期刊文獻。Zhao and Strotmann 於 2007 年的研究發現 XML 領域中發現，從 CiteSeer 下載的會議文獻，其參考文獻明顯少於 SCI 所下載的文獻 20％。Cai and Card 於 2008 年發現軟體工程(software engineering)領域會議文獻的引用文獻數量明顯少於期刊文獻約三分之ㄧ。而會議的引用文獻數量少於期刊文獻其原因的探究上，Zhao and Strotmann(2007)推測是因為期刊文獻通常會仔細地建構論點，因此需要大量的參考文獻，此外會議文獻通常在長度上也會受到會議主辦單位的限制。在會議與期刊文獻的被引用情形可看出，大多的學者引用文獻時會以期刊文獻為主。Funk(1988)於研究中發現，以心臟血管為主題的會議和期刊文獻的引用情形發現，會議文獻和期刊文獻的影響係數分別為 0.98 及 3.86，期刊被引用次數約是會議文獻被引次數的四倍之多。Drott(1995)則指出資訊科學家在引用文獻的題材選擇上偏好期刊文獻，其結果顯示會議文獻只有 10%被引用，而該領域的期刊文獻卻高達 67%被引用。究其原因，Funk 曾以五種影響因素的差異顯著性考驗下，該研究仍無法找出確切的原因可解釋會議比期刊文獻較少被引用的情形。由以上的文獻可知，若以會議與期刊引用或被引用的文獻數量來比較其重要 15.

(31) 性或實用性，則會忽略新穎性、取用的便利性、時間上的落差等其他因素對兩者之間的影響。此外，圖書館對於灰色文獻的重視也應日趨增加，期刊文獻並非學術傳播上的唯一管道，專利、會議文獻、技術報告等對研究人員等皆是重要的文獻，因此針對這些文獻加以保存的重要性應受到重視。而在會議與期刊文獻的主題比較研究上，Cai and Card(2007)發現期刊文獻有 73%被集中歸類在 ACM 所擬定的前三大類主題；而會議文獻中則有 89%被歸類於前三大之相同主題，顯示出此研究中會議文獻的主題較期刊文獻集中。 Funk(1988)則發現影響係數的高低並不會造成會議文獻的熱門主題分佈不均，亦即熱門主題不論在影響係數高或低的會議文獻中均可被看見。. 16.

(32) 第二節. 主題趨勢之相關研究. 要深入暸解特定領域的研究發展，其方法之一就是對該領域所發表的文獻進行分析與分類。透過對發表文獻的分析與分類，可以歸納出該研究領域的研究範圍、議題以及在不同階段的發展重心，而文獻與資料的主題分析向來是圖書資訊學的研究重心之一。羅思嘉、陳光華與林純如(2001)指出當研究者在進行主題分析研究時，其主題類目的擬定大致有兩種方式：一是針對所研究的學科範圍，訂定一個包含整個學科領域的完整類表；另一則是事先檢視已蒐集文獻之內容，根據在文獻中出現的主題擬定主題類目。前者如 Cai and Card(2007)利用 ACM 的分類架構將文獻進行主題分類，後者即是書目計量學的相關研究所常進行之方法，本研究即是以後者做為主題分析之方式，因此會經過以下幾項步驟： (1) 決定該領域欲進行分析的文獻或資料範圍 (2) 收集研究樣本 (3) 利用相關研究方法找出文獻探究之主題並加以歸類 (4) 以時間順序呈現主題脈絡或趨勢圖像 (5) 設法進行解讀，以驗證研究結果資訊計量學(informetrics)即是利用量化的統計分析，描述各領域出版文獻的特性及發展模式，藉以檢視各學科的起源與進展，進而對未來的研究趨勢加以預測，這是資訊計量學在出版文獻、學科評價及學術傳播方面的重要應用 (蔡明月、劉瓊芳，2007)。針對特定領域的主題研究趨勢進行探測時，找出該領域的研究主題是一個很重要的課題。因此本章節先針對文獻主題探測的書目計量學相關研究進行瞭解，最後將目前已針對資訊檢索領域文獻進行主題探測的研究加以統整。. 一、. 書目計量學應用於文獻主題探測相關研究. 引用文獻分析(citation analysis)是指有系統的組織文獻及其所引用的資料，其目的希望藉由兩者關係圖的發展，了解文獻與文獻之間的關係，進一步探索學 17.

(33) 術間的知識傳播模式 (羅思嘉，2001)。引用文獻分析方法大致上可分為兩種模式：數量上的計算及文獻連結關係的分析。前者指的是單純以統計的方式來分析期刊、作者或文獻等被引用的次數；後者則是透過書目連結等方式分析文獻之間的關係(Baker, 1990)。 (一)文獻主題探測之方法書目計量學中可應用於探討研究文獻之間主題的關係，則有三種方法：共被引分析 (co-citation analysis) 、書目對分析 (bibliographic coupling) 和共字分析 (co-word analysis)。共被引分析的基本概念乃是指一群引用文獻依據他們共同出現於期刊文獻的參考書目中的數量所群聚，根據其分析對象又可細分為文獻共被引、期刊共被引、作者共被引；書目對分析的基本概念是指依據共同分享的參考文獻數量所群聚的引用文獻(Persson, 1994)；共字分析是指出現在兩篇文獻同一欄位，相同的字或詞來測量兩篇文獻的聯結關係(蔡明月，2003)。書目對與共被引分析都同樣是利用第三文獻與兩篇存在的文獻之間的引用與被引用關係，建立兩篇文獻之間的聯結關係。而這兩者之間最主要的差別在於書目對是以引用文獻(citing document)為叢集的主體，共被引則是以被引用文獻為叢集的組成分子。因此兩種方法所得的結果會有一些偏差。利用書目對方法僅能測出科學發展趨勢的成長點，屬於科學計量學的預測作用；共被引方法則有較廣的應用，除了可以暸解學科分支的進化情形，亦可用於科學的歷史研究。蔡明月(2003)指出共被引分析比書目對分析更可有效的指出相似的主題，亦能反應出被引用文獻之間的語意關係，進而對科學結構，科學或文獻之間的聯結掌握其歷史性的動態研究。而曾元顯(2007)則認為依照書目對歸類的好處是論文 A 和 B 的用語可以差異極大，只要兩者共同引用足夠多相同的文獻，但若兩者之間沒有足夠的相同參考文獻時，卻又使用相同的主題詞彙，則兩者之間就可以藉由共字分析對應起來，因此，書目對分析與共字分析可以互補，也可以彼此強化對方的結果。. 18.

(34) 共字分析是計算和分析文獻間經常一起出現的關鍵字詞，能夠直接的將文獻的主題展現出來，且共字分析是分析自然語言，因此很重要的是這種方法可以代出文獻中的科學概念、構想和知識(van Raan & Tijssen, 1993)。此外，蔡明月(2003) 也提到共字分析不同於共被引分析只限於引用的文獻，共字分析的字詞來源相當普遍，許多書目記錄的欄位都可以是共字分析的對象。在不同的研究中，研究者所採用的欄位皆有所不同，像是 Ding et al.(2001)利用文章的關鍵字、標題、摘要等三個欄位進行分析；Chaomei Chen(2005)是以標題、摘要、描述、引用文獻進行分析；曾元顯、林瑜一(2006)則利用文章標題和摘要進行分析。傳統的書目計量學分析像是期刊或作者共被引分析，都是藉由分析科學文獻的引用文獻，但卻無法直接將文獻的主題顯示在文獻中，共字分析可以解決此傳統書目計量學無法直接於文獻中顯示出文獻主題的缺失 (Ding et al., 2001)。從大量文獻中歸類出重要的研究主題，除了可以應用上述的書目計量學等方法以外，也有其它方式可以進行主題判斷。Funk(1988)判斷熱門或冷門主題的方法是先以 1973 年為基礎年度，再計算每年度的詞彙增長比例作為熱門主題的判斷依據，計算辭彙的增長斜率以藉此找出熱門或冷門的主題。Smeaton et al.(2002)則是利用 Clustan Graphics 軟體輔助分類後再以人工進行檢視並給予主題；Cai and Card(2007)是先利用 ACM 的分類架構再以人工之方式將文獻進行主題分類，而涉及以人工方式進行分類的缺點除了耗時耗工以外，也很難排除掉個人的主觀意識。賴芊卉與劉瓊芳(2007)則是採取較客觀的方式，從索引摘要資料庫中取出各篇文獻的關鍵字欄位進行分析，此種方法雖可避免人為的主觀因素，但會受制於資料庫的限制。而黃惠美(2007)也提出書目計量學的研究需要相關資料庫做為基礎，假使資料庫沒有收錄研究者所需分析的資料時，即無法採用此種方式進行分析，像是會議文獻顯少被收錄於資料庫中，若需要將會議文獻進行主題分析與歸類時就會遇到此問題。因此欲暸解會議文獻的研究主題，若無法採用資料庫中所給予的主題詞彙，又欲以節省時間的方式進行歸類，就需使用其他相關分析軟體進行輔助歸類。 19.