第四章 研究結果與分析
第四節 小結
本節將實驗所得到的資料與數據,經統計分析後將其結果綜合整理,並依序 以三個面向說明:
一、 主題年代序列之結果
將期刊文獻的 ID 詞彙與會議文獻主題詞相對應 ,找出無法對應之主題再以 自動化歸類結果輔助檢驗後可發現,會議文獻與期刊文獻各自有偏重 的主題。會 議文獻較注重的主題是 Question and answering、Multi-lingual IR、Summarization
、 Distributed(IR) ;期刊文獻較為注重的主題是 INFORMATION-SEEKING 、 ALGORITHM(S)、LIBRARY;CATALOG、BIBLIOMETRICS。
在可對應之主題比較上來說,以整體趨勢而言,第二種主題整併下會議主題 與期刊主題趨勢較為一致。第一種主題整併的 18 個主題中,會議主題與期刊主 題成長趨勢一致的有 8 個,約有 44%的主題趨勢走向相同;第二種主題整併的 11 個主題中則共有 7 個成長趨勢一致,約有 63%的主題趨勢走向相同。由此可 知,當主題涵蓋範圍越大時,會議文獻與期刊文獻的主題成長趨勢走向越為一致。
在細部主題文獻數量的比較上來說 ,第一種主題整併的 18 個主題中,期刊 文獻比會議文獻多的主題是 Relevance Feedback 和 Language(Retrieval)(Formal) Models , 而 會 議 文 獻 比 期 刊 文 獻 多 的 主 題 則 是 Text Classification、
Categorisation(Classifiers)、Efficiency&Scalability、Languag、NLP(Natural Language Processing)。第二種主題整併後的 11 個主題中,期刊文獻中比例最多且差距與會 議文獻最大的主題是 DB&IR(Integration)(Structures)、Systems、Knowledge Based Information Retrieval ; 會 議 文 獻 比 期 刊 文 獻 多 的 主 題 是 Natural Language Processing 、 Cross language 、 MIR , 兩 者 文 獻 數 量 都 偏 少 的 主 題 是 Distributed(IR)(Systems) ,各大類主題下有各自的發展特色。在自動化歸類的 38 個主題中,期刊比會議文獻多的主題是 interactive&information-seeking、citation、
recall and precision;會議比期刊文獻多的主題是 track、question answer。
在初始年代的差距比較上來看,第一種主題整併的 18 個主題中,會議文獻 較多主題早於期刊文獻,總計有 9 個主題;第二種主題整併後的 11 個主題中,
兩者同時出現佔多數;在自動化歸類的 38 個主題中則是會議文獻比期刊文獻早
出現的主題數量佔多數。由此可知,雖然會議文獻與期刊文獻在細部主題上的出
(18) 4.278 4.741 5.519 6.111 Type1 < Type4
第二種主題整併
(11) 3.712 2.712 4.227 3.833 Type2 < Type3
自動化歸類
(38) 10.380 11.199 11.741 10.357
以自動化歸類為基礎之實驗
由第一種主題整併之預測結果可知,會議文獻預測會議文獻優於期刊文獻預 測期刊文獻,Cai and Card(2007)曾指出會議文獻之主題比期刊文獻集中,因此有 可能是此原因導致會議文獻預測會議文獻之效果較佳。而第二種主題整併後的結 果與第一種主題整併之結果有所不同,反而是在期刊預測會議文獻時預測效果較 佳,由此可以推測在主題較廣的時候,期刊文獻預測較佔優勢,在主題較細時,
會議文獻預測佔優勢。
在預測集年代範圍的假設檢定結果中可看出,當期刊文獻預測會議主題、會 議文獻預測期刊主題、期刊文獻預測期刊主題時,預測集年代範圍越大則效果越 不好,亦即預測集為 4 年時效果最佳,但是在會議預測會議主題時,反而以預測 集為 8 年時效果最好,但其結果均未達到統計上的顯著差異,所以無法證明預測 集範圍大小足以明顯影響到預測之效果。
在驗證集範圍的假設檢定中,當預測對象為會議主題時,驗證集為 2 年的效 果最佳;當預測對象為期刊主題時,驗證集為 1 年的效果最佳,但其結果均未達 到統計上的顯著差異,亦即無法證明預測集範圍大小足以明顯影響到預測之效 果。
(二) 以 SLP 為預測指標所進行之假設檢定
當預測指標以 SLP 為計算方式時,其結果如表 4-96 所示,在主題趨勢預測 的部分,第一種主題整併下的預測皆無顯著性差異,第二種主題整併則是以期刊 預測期刊為最佳、會議預測期刊效果最差,且兩者之間有達到信心水準為 95%
的顯著性差異;期刊預測期刊之效果優於會議預測會議和會議預測期刊 ,亦有達 到信心水準為 95%的顯著性差異,比預測指標為 API 時更加深在第二種主題整 併後,期刊在主題趨勢預測上所 佔的優勢;在自動化歸類的預測結果則顯示相同 文獻類型預測之效果較佳,相異類型的文獻預測效果則較差,此結果與預測指標 為 API 時相同,且同樣也有達到信心水準為 95%的顯著性差異。
在預測集年代範圍的假設檢定結果中可看出,當文獻進行交叉預測時,預測 集年代範圍越大則效果越不好,亦即當期刊文獻預測會議主題、會議文獻預測期 刊主題時,都顯示出預測集為 4 年時效果最佳,而在會議預測會議主題時,反而 以預測集為 8 年時效果最好,此與預測指標為 API 時相同,只有在期刊預測期刊 時顯示出當預測集範圍越大則效果越佳,此與預測指標為 API 時相異,然其結果
亦均未達到統計上的顯著差異,即無法證明選擇的預測集範圍大小明顯影響到預
(18) 4.509 4.713 5.398 4.694 無顯著差異
第二種主題整併
(11) 3.242 2.970 4.667 2.000
Type4 < Type1 < Type3 Type2 < Type3 自動化歸類
(38) 9.316 11.752 11.579 8.767 Type4 < Type1 < Type2 Type4 < Type1 < Type3 以自動化歸類為基礎之實驗
表 4- 97 兩種不同預測指標之假設檢定統 整 第一種主題整併 4.509 4.278 4.713 4.741 5.519 5.398 6.111 4.694 第二種主題整併 3.712 3.242 2.712 2.970 4.227 4.667 3.833 2.000 自動化歸類 10.380 9.316 11.199 11.752 11.741 11.579 10.357 8.767 預測集 = 4年 10.289 10.643 10.782 11.038 10.711 11.034 9.857 10.165 預測集 = 6年 9.508 9.876 10.842 11.237 10.808 11.289 9.932 9.312 預測集 = 8 年 9.342 9.218 11.538 11.752 11.538 11.564 10.297 9.346 預測集 = 10 年 10.380 9.316 11.199 11.752 11.741 11.579 10.357 8.767 驗證集 = 1 年 10.158 9.825 11.325 11.746 11.689 11.575 10.057 9.066 驗證集 = 2 年 10.127 9.346 11.004 11.697 11.803 11.715 10.075 8.548 驗證集 = 3 年 10.461 9.548 11.136 11.741 11.877 11.912 10.167 8.325 註:數值越小,代表預測效果越佳
在預測集範圍大小的預測上,在兩種預測指標下的效果可於表 4-93 中看出,
無論指標採用 API 或 SLP 皆可發現會議預測會議時預測集為 8 年最佳;而交叉 類型預測(期刊預測會議、會議預測期刊)的部份則是以預測集為 4 年較佳;惟獨 在期刊預測期刊的情況時則是採用 API 和 SLP 之結果會完全相反,亦即在期刊 預測期刊時,當預測指標為 API 則預測集範圍越小越佳,但當預測指標為 SLP 則預測集範圍越大越佳。
在驗證集範圍大小的進行預測的結果上則會發現 ,相同類型文獻預測(期刊 預測會議、會議預測期刊)時,採用 SLP 作為預測指標皆比採用 API 做預測指標 其預測結果都較佳;在預測不同類型文獻(期刊預測會議、會議預測期刊)時則不 一定,期刊預測會議的情況下普 遍以 API 為預測指標較佳。
三、 綜合討論
本研究以三種不同的主題整併方式為基礎進行主題預測各有其優缺點,第一 種主題整併與第二種主題整併之不同在於第二種主題整併有較宏觀的看法,第一 種主題整併則是以較細部的觀察各主題間的變化,但無論是第一種主題整併或第 二種主題整併都需透過人為的主觀介入 ,因此自動化歸類則可以排除這樣的疑 慮。
由於本研究所採用之文獻類型兩者之間本身即有差異存在,故仍舊無法完全 統整兩者之間的差異,僅能就兩者之間在字面上或主題上可看出相同之主題進行 比較分析。而表 4-99 則是以文獻交叉預測後四種情況按主題預測後所得之分數 排序,其分數越小者代表準確度越高,由此可看出第三種類型的預測大多排序在 後,而第一類型和第四類型的預測排序較前 。
表 4- 99 交叉預測之情形依準確度大小排序 預測指標
整併形式 以 API 為預測指標 以 SLP 為預測指標 第一種主題整併 1 < 2 < 3 < 4 1 < 4 < 2 < 3 第二種主題整併 2 < 1 < 4 < 3 4 << 2 < 1 <<3
自動化歸類 4 < 1 < 2 < 3 4 <<1 << 3 < 2
表 4-100 則是將四種類型的預測按照驗證集區分,亦即會議文獻與期刊文獻 同時預測會議文獻;會議預測和期刊文獻同時預測期刊文獻,由表中可看出當驗 證集為會議主題時,兩種預測的準確度各有優劣,且不因預測指標改變而有所不 同,而在驗證集為期刊主題時 ,期刊預測期刊(第四類型)較準確佔大多數。
表 4- 100 依驗證集為區分對象之交叉預測情形
驗證集為會議文獻 驗證集為期刊文獻
指標類型
整併形式 以 API 為預測指標 以 SLP 為預測指標 以 API 為預測指標 以 SLP 為預測指標 第一種主題整併 1 < 2 1 < 2 3 < 4 4 < 3 第二種主題整併 2 < 1 2 < 1 4 < 3 4 << 3
自動化歸類 1 < 2 1 << 2 4 < 3 4 << 3 註:<<有達到信心水準 95%顯著性差異