第三章 研究方法
第二節 研究假設
根據研究目的、研究問題及研究架構,提出本研究之研究假設如下 : 假設一:兩種文獻類型交叉預測於不同年代序列,在主題趨勢預測的結果上有顯
著差異。
假設二:不同預測集年代範圍於不同年代序列,在主題趨勢預測的結果上有顯著 差異。
假設三:不同驗證集年代範圍於不同年代序列,在主題趨勢預測的結果上有顯著 差異。
假設四:不同預測指標兩種於不同年代序列 ,在主題趨勢預測的結果上 有顯著 差異。
第三節 研究方法
本研究主要採用實驗法比較兩種不同的文獻,預測資訊檢索領域時之 相對性 效果,其作法為先將文獻分成「預測集」與「驗證集」,利用「預測集」所取出 的主題趨勢預測「驗證集」所呈現的主題。首先必須萃取出預測集和驗證集的主 題,再以趨勢預測指標的計算值將「預測集」依熱門程度依序排列主題,而驗證 集則是以文獻總數量作為熱門程度之排序,最後比對「預測集」和「驗證集」中 各主題的相對位差作為主題趨勢預測的結果,即完成主題趨勢預測的部份 。
驗證的部份則是以統計的雙因子變異數分析,檢定各年度所計算的相對位差 平均值,檢驗各組文獻集預測表現及其穩定度,以下針對主題萃取方式、主題趨 勢預測方式、驗證集與預測集之取樣、資料分析的方法等加以詳述。
一、 主題萃取方式
本研究的主題萃取方式主要可分為以下三種:
(1) 期刊文獻:取出 WOS 資料庫所下載之關鍵字詞彙(KeyWords Plus®,
(3) 期刊和會議文獻:合併後匯入主題萃取系統進行歸類。
期刊文獻因數量龐大且不易由人工逐一比對,故採用資料庫所下載取得的 ID 詞 彙再搭配系統自動萃取之方式,如此較為省時省力。資料庫所提供的 ID 詞彙即 可代表每篇文獻的主題,雖然每篇文獻的 ID 詞彙不只一個,但每個 ID 詞彙卻 只會對應至一篇文獻中,因此本研究將每個 ID 詞彙視為一篇文獻之主題進行年 代統計後,做為本研究的期刊主題依據的一部份,另一部分則是由於會議文獻與 期刊文獻的主題會有不一致的情形產生,故本研究再針對會議文獻中的重要主題 但卻無法對應至期刊文獻的部份,由主題萃取系統分析期刊文獻後取出 各年代篇 數,以補強無法對應的部分期刊主題。
會議文獻的主題萃取方法則採用專家分類法 ,因 SIGIR 會議每年度的文獻 均已分類至各會期的主題 (Session Topic),本研究以 SIGIR 會議的分類主題為依 據,再透過人工的方式給予權威控制 ,將 SIGIR 會議文獻更嚴謹地分類至各主 題中,最後由一位具有資工相關背景的教授協助檢視歸類。
最後,因上述兩種主題萃取與歸類方式皆需透過部份人工進行 ,難以完全排 除個人主觀之因素干擾,故本研究最後再將會議文獻和期刊文獻全部合併後,一 併利用主題萃取系統進行文獻主題的歸類,再取出可看出明顯主題的文獻群組進 行統計分析。而本研究透過主題萃取系統萃取主題之方式是以書目計量學中的共 現字分析作為系統的萃取方法,將標題和摘要由文獻中取出並經由系統自動偵測 主題。系統主題偵測的方式為先將文件中的重要詞彙萃取出來後歸類為概念 ;再 將各種概念進一步歸類為主題;再以主題歸類為次領域和大領域,以逐步地方式 將文獻主題歸納出來(曾元顯、林瑜一,2006)。
二、 主題趨勢預測方式
本研究主題趨勢的預測方式分為兩階段:第一階段為利用趨勢預測指標計算 預測集中各主題之熱門程度,再按熱門程度排序主題。第二階段則是以趨勢預測 評鑑之方式比對「預測集」與「驗證集」的相對位差,以觀察會議文獻和期刊文
獻的預測相對性效果,以下分別就趨勢預測指標和評鑑方式 兩部份做詳細說明。 linear regression line),簡稱 SLP,此為統計學上較常使用於趨勢預測之方式 ,其 詳細之計算方式如下:
Question answering 5 12 17 (12-5)/5=140% 3 Relevance feedback 8 17 25 (17-8)/8=112.5% 4
Signature files 5 4 9 (4-5)/5=-20% 5
Evaluation 0 34 34 (35-1)/1 =340% 1
Cross lingual 0 16 16 (17-1)/1=160% 2
表 3- 2 SLP 範例計算之原始資料 Web(IR,search,structure,www) -1.2 0.4 0 -0.4 -0.8 -2 -0.632 3
Retrieval Model(S) 7.6 -4.2 0 -0.8 10.4 13 4.1109 1 Classification、Categorisation(Classifiers) 7.2 0.6 0 3.4 -1.2 10 3.1623 2 User Issues 2.4 -1.8 0 -1.2 -2.4 -3 -0.949 4 Evaluation = PERFORMANCE -4.4 -1.2 0 -1.8 -3.6 -11 -3.478 5 (二) 主題趨勢預測評鑑
「預測集」依趨勢預測指標計算出熱門程度的排序後,需要再透過評鑑指標 的比對「驗證集」的熱門主題,才能看出會議文獻和期刊文獻在預測主題趨勢上 的相對性效果。
Tseng, Lin, Kuo, & Lee(2008)在網路計量與探勘學術研討會中 曾提出的兩種 趨勢評鑑的指標,分別是 NAP(Non-interpolated Average Precision rate)和 Pre@
R(Precision rate at Recall position )。NAP 的計算公式為
RiWeb(IR,search,structure,www) 4 3 4 3 3 17
Retrieval Model(S) 1 9 0 4 10 24
Classification、Categorisation(Classifiers) 0 3 5 7 3 18
User Issues 0 3 3 0 0 6
Evaluation = PERFORMAN CE 4 3 2 0 0 9
另以計算全部排序之相對位差的方式 (All Ranking,簡稱 AR)作為本研究主要的 評鑑排序方式。
AR 之計算方式為
N Rank Rank
AR i j
,
Rank
i和Rank
j為相同主題在兩種排序下的位置,亦及比對兩種排序之相對位差後,再取其位差絕對值除以主題 數量得出平均相對位差值 (AR)。以表 3-4 為例,以 S2 相對於 S1 之 AR 值而言,
V 主題之相對位差值為|1-6︳= 5,W 主題之相對位差值為|2-7︳= 5,
而 A 至 Z 主題相對位差絕對值總和則為 50,則平均相對位差得分即為 5。
表 3- 4 評鑑排序方式之範例
Rank S1 S2 S3
1 A V A
2 B W V
3 C X B
4 D Y W
5 E Z C
6 V A X
7 W B D
8 X C Y
9 Y D E
10 Z E Z
NAP 1.00 0.35 0.68
Pre@R 1.00 0.00 0.60
All Ranking 0 5 2
資料來源:改編自 Tseng, Y.-H., Lin, Y.-I., Kuo, C.-H., & Lee, Y.-Y. (2008).
AR 和 NAP 分別為兩種類似的評鑑排序方法,其差別在於 AR 的計算方式較 為嚴謹,其全部的主題排序位置皆視為同等重要 ,亦即無論排序在前或後的主 題,其對應至驗證集的順序都要被考量進去 ;而 NAP 的計算方式則較為寬鬆,
僅考量前面特定主題的是否有相同的主題而已,且在前面幾個主題範圍內的排序
最熱門主題,S1 至 S3 則分別代表三種不同的排序方式 。S1 代表最優的排序方 法,可依照熱門程度將前五種熱門主題排序為最前端;S2 代表最差的排序方式,
將熱門主題 A-E 排在最後五項;S3 則是將五種熱門主題 A-E 分散至各處(Tseng, Lin, Kuo, & Lee, 2008)。在客觀的認定下,三種排序方式依照優劣可分為 S1 為最 佳排序方式、S3 次之、S2 最差,其評鑑三種排序方法的兩種評鑑指標之計算過 程如下表 3-5,然而這兩個評鑑指標最終所計算出來的結果 ,在解讀上的意義為 NAP 的結果與其排序優劣成正比 、AR 的結果則是成反比,亦即 NAP 數值越大 越好,AR 的數值則是越小越好。此乃因 NAP 的計算結果為 S2 和 S3 在比對 S1 時,其相符程度越高者數值越高,但是 AR 的計算值則是 S2 和 S3 在比對 S1 時 的相對差距,亦即兩者之間的差距越小越好,故在解讀時須特別注意兩者數值的 不同。
表 3- 5 兩種評鑑排序指標之計算過程 NAP 評鑑之計算範例
S1 (1/1+2/2+3/3+4/4+5/5)÷5=1.0
S2 (1/6+2/7+3/8+4/9+5/10)÷5=0.3547 劣
S3 (1/1+2/3+3/5+4/7+5/9)÷5=0.6787 優
AR 評鑑之計算範例
S1 (1-1+2-2+3-3+4-4+5-5+6-6+7-7+8-8+9-9+10-10) ÷10=0
S2 (|1-6|+|2-7|+|3-8|+|4-9|+|5-10|+|6-1|+|7-2|+|8-3|+|9-4|+|10-5|)÷10=5 劣 S3 (|1-1|+|2-3|+|3-5|+|4-7|+|5-9|+|6-2|+|7-4|+|8-6|+|9-8|+|10-10|)÷10=2 優
三、 預測集與驗證集之判定與取樣
在比較會議與期刊文獻對主題 趨勢預測的相對性效果時,須事先決定可供比 對驗證的文獻集,稱之為「驗證集」。因無法以客觀的角度判定具有絕對性的驗 證集,本研究以兩種獨立的驗證集作為比較對象,也就是說,本研究之驗證集分 別以會議文獻和期刊文獻作為兩組獨立的驗證集,再各自以不同來源的預測集進 行趨勢預測,而驗證集的文獻總數量即為熱門程度判斷之依據 。
根據文獻探討,Subramanyam(1981)指出會議與期刊文獻之間約有一年左右 的時間落差,Zhao and Strotmann(2007)則認為網路文獻與期刊文獻的時間落差大 約為 2~3 年,而 WOS 資料庫在計算影響係數(Impact factor)時,計算方法是以該 期刊前兩年中所刊登的論文在今年被引用的次數總和,除以該期刊前兩年中出版 論文的總數。值愈高,表示平均每篇文章被引用的次數愈高,代表該期刊的影響 力愈大。故本研究在主題趨勢預測之驗證集取樣以兩年作為驗證集的年代範圍 , 在預測集的年代範圍則是固定以 10 年為一區段進行預測。
此外,本研究亦想要探討驗證集的年代範圍大小對預測效果之影響 ,故本研 究以接續預測集後的一年、兩年、三年,各年度區間的文獻總數作為主題趨勢預 測的標準答案,以作為供預測主題趨勢時可比對的驗證集。在探討預測集年代範 圍大小對主題預測之影響 的部份,預測集的年代範圍採用 4、6、8、10 年的年代 區間,預測驗證集為 2 年的情況下加以探討,最後也會分別依照兩種不同的預測 指標對主題預測之影響進行 比較分析。
四、 資料分析方法
在探討資訊檢索領域文獻的主題 分佈與研究趨勢變化時,是以各主題的篇數 按年代排列與基礎的描述統計進行探討,而在主題萃取系統的歸類方式上是以共
測後,取得各組實驗後的相對位差平均數,再以雙因子變異數分析檢定各組實驗 之平均數是否有達到信心水準 95%下的顯著性差異,以探討兩自變數間是否存在 主要效果與交互效果,
表 3-6 為本研究之研究目的與問題 及其對應的研究方法和檢定方式,由表中 可知,本研究主要是以共現字分析與實驗法作為主要的研究方法 ,並以描述統計 和雙因子變異數分析檢定其差異性 。
表 3- 6 研究目的、研究問題與研究方法對照表
研究目的與問題 研究方法 檢定方式
瞭解資訊檢索領域文獻的主題 分佈與研究趨勢變化。
1. 資訊檢索領域的研究主題 分佈為何?
2. 近年來,資訊檢索領域的研究趨勢有何變化 ?
描述統計 共現字分析 比較會議與期刊文獻進行預測研究趨勢的差異 。
1. 採用會議文獻和期刊文獻作為研究樣本之 交叉預測的相對性 效果為何?會議文獻是否比期刊文獻較為準確 ?
2. 交叉預測之結果是否隨著年代不同而有差異 ?
實驗法 雙因子
變異數分析
瞭解會議與期刊文獻在預測主題趨勢上的穩定性 。
1. 主題趨勢預測的情形是否隨著預測集的改變而有所不同 ?
1. 主題趨勢預測的情形是否隨著預測集的改變而有所不同 ?