第三章 研究方法
第四節 研究流程與實驗規劃
本研究之研究流程如下圖 3-2,在相關的研究背景與產生研究意識的情況下 發展出研究目的與研究問題,收集文獻進行探討後擬定研究架構與方法,在根據 研究設計與規劃進行主題趨勢預測和實驗 ,最後分析統計資料並撰寫論文 。
圖 3- 2 研究流程圖 研究背景與研究意識
研究目的與研究問題
文獻探討
擬定研究架構與方法
研究設計與規劃
資料分析與統整
撰寫論文 實驗分組:
1. 以會議為驗證集 (1)會議預測會議 (2)期刊預測會議 2. 以期刊為驗證集
(1)期刊預測期刊 (2)會議預測期刊
進行實驗 實驗內容:
1. 改變預測集範圍 2. 改變驗證集範圍 3. 兩種預測指標
分析項目:
1. 主題分佈 2. 統計檢定 3. 自動歸類結果
主題趨勢預測
本研究以實驗法針對兩種資料類型對 交叉預測主題趨勢之相對性效果、預測 集與驗證集年代範圍、預測指標之應用等進行比較與探討,再以統計檢定驗證研 究假設,以下分為實驗規劃、分組與流程分別敘述如下:
一、 實驗規劃
本研究將各文獻分為「預測集」與「驗證集」,再以各組「預測集」預測「驗 證集」之主題,圖 3-3 表示各組「預測集」與「驗證集」所跨越的年代分佈與預 測路徑。
圖 3- 3「預測集」與「驗證集」預測橫跨年代示意圖
二、 實驗之自變項與依變項
(一) 兩種文獻類型之主題交叉趨勢預測
此階段之實驗分別以第一種主題整併、第二種主題整併、自動化歸類等三種 不同的歸類情況下進行分析比較,而自變項與依變項之項目皆相同。亦即以三種 不同的文獻規模進行主題趨勢預測,以觀察文獻在不同的整併方法下,所呈現的 主題趨勢預測情形,以下為自變項與依變項之細部說明 :
1. 自變項
(1) 文獻類型:會議預測會議、期刊預測會議、會議預測期刊、期刊 預測期刊。
1995 2000 2005
1990
預測集 預測路徑
驗證集
(2) 年代範圍:以 1991、1992、1993、1994、1995、1996 為預測集起 始年代,其後 10 年為預測集之範圍,再以預測集後 2 年為驗證集 範圍。
2. 依變項:主題趨勢預測排序相對位差得分 (二) 預測集年代範圍大小之預測
預測集的年代範圍大小是否影響預測結果,為本研究所欲探討的項目之 ㄧ,
為避免影響實驗之其他因素,故本研究僅採自動化歸類後之結果進行實驗,以排 除在歸類上人工主觀之因素 。此實驗之自變項與依變項如下 :
1. 自變項:
(1) 預測集年代範圍:預測集為 4 年、6 年、8 年、10 年。
(2) 年代區間:以 1990、1991、1992、1993、1994、1995、1996 為 預測集起始年代。
2. 依變項:主題趨勢預測排序相對位差得分。
表 3-7 為預測集年代範圍大小之各組詳細的年代起始範圍,由表中可看出每次的 預測下,因起始年代不同的關係都會進行 7 次實驗(G1-G7),而每次實驗所的之 結果皆會取得平均數後分別進行雙因子變異數分析,以檢定是否各次實驗之間有 達到顯著性差異。
表 3- 7 預測集年代範圍大小之分組詳細年代表
(三) 驗證集年代範圍大小之預測
驗證集的年代範圍大小是否影響預測結果 ,亦為本研究所欲探討的項目之 ㄧ,為避免影響實驗之其他因素 ,故本研究亦僅採自動化歸類後之結果進行實 驗,以排除在歸類上人工主觀之因素。由表 3-8 可見此實驗之自變項與依變項如 下:
1. 自變項:
(1) 驗證集年代範圍:驗證集為 1 年、2 年、3 年。
(2) 年代區間:以 1990、1991、1992、1993、1994、1995 預測集起 始年代。
2. 依變項:主題趨勢預測排序相對位差得分。
表 3-8 為驗證集年代範圍大小之各組詳細的年代起始範圍,由表中可看出每 次的預測下,因起始年代不同的關係都會進行 6 次實驗(H1-H6),而每次實驗所 的之結果皆會在取得平均數後分別進行 雙因子變異數分析,以檢定是否各次實驗
代碼 組別 實驗組 1 實驗組 2 實驗組 3 控制組
組別代碼 4v2 6v2 8v2 10v2
預測集年代 1990~1993 1990~1995 1990~1997 1990~1999 G-1 驗證集年代 (1994、1995) (1996、1997) (1998、1999) (2000、2001)
預測集年代 1991~1994 1991~1996 1991~1998 1991~2000 G-2 驗證集年代 (1995、1996) (1997、1998) (1999、2000) (2001、2002)
預測集年代 1992~1995 1992~1997 1992~1999 1992~2001 G-3 驗證集年代 (1996、1997) (1998、1999) (2000、2001) (2002、2003)
預測集年代 1993~1996 1993~1998 1993~2000 1993~2002 G-4 驗證集年代 (1997、1998) (1999、2000) (2001、2002) (2003、2004)
預測集年代 1994~1997 1994~1999 1994~2001 1994~2003 G-5 驗證集年代 (1998、1999) (2000、2001) (2002、2003) (2004、2005)
預測集年代 1995~1998 1995~2000 1995~2002 1995~2004 G-6 驗證集年代 (1999、2000) (2001、2002) (2003、2004) (2005、2006)
預測集年代 1996~1999 1996~2001 1996~2003 1996~2005 G-7 驗證集年代 (2000、2001) (2002、2003) (2004、2005) (2006、2007)
之間有達到顯著性差異。
表 3- 8 驗證集年代範圍大小之分組詳細年代表
代碼 組別 實驗組 1 控制組 實驗組 2
組別代碼 10 v 1 10 v 2 10 v 3
預測集年代 1990~1999 1990~1999 1990~1999 H-1 驗證集年代 2000 2000、2001 2000、2001、2002
預測集年代 1991~2000 1991~2000 1991~2000 H-2 驗證集年代 2001 2001、2002 2001、2002、2003
預測集年代 1992~2001 1992~2001 1992~2001 H-3 驗證集年代 2002 2002、2003 2002、2003、2004
預測集年代 1993~2002 1993~2002 1993~2002 H-4 驗證集年代 2003 2003、2004 2003、2004、2005
預測集年代 1994~2003 1994~2003 1994~2003 H-5 驗證集年代 2004 2004、2005 2004、2005、2006
預測集年代 1995~2004 1995~2004 1995~2004 H-6 驗證集年代 2005 2005、2006 2005、2006、2007
(四) 趨勢預測指標不同之預測
預測指標之不同是否影響預測結果,亦為本研究所欲探討的項目之 ㄧ,由於 本研究進行主題趨勢預測時,即會採用兩種預測指標進行預測,故此階段僅以前 述進行自動化歸類的主題趨勢預測實驗時,所取得之數據進行假設檢定,而自變 項與依變項如下:
1. 自變項:
(1) 趨勢預測指標:API、SLP。
(2) 年代區間:以 1990、1991、1992、1993、1994、1995、1996 預 測集起始年代。
2. 依變項:主題趨勢預測排序相對位差得分。
表 3-9 為兩種趨勢預測指標之各組詳細的年代起始範圍,由表中可看出每次的預 測下,因起始年代不同的關係都會進行 7 次實驗(I1-I7),而每次實驗所的之結果
到顯著性差異。
表 3- 9 兩種趨勢預測指標之實驗各組詳細起始年代 預測指標
組別代碼 預測指標為 API 預測指標為 SLP
I-1 1990~1999 2000、2001 1990~1999 2000、2001 I-2 1991~2000 2001、2002 1991~2000 2001、2002 I-3 1992~2001 2002、2003 1992~2001 2002、2003 I-4 1993~2002 2003、2004 1993~2002 2003、2004 I-5 1994~2003 2004、2005 1994~2003 2004、2005 I-6 1995~2004 2005、2006 1995~2004 2005、2006 I-7 1996~2005 2006、2007 1996~2005 2006、2007
三、 實驗流程
圖 3-4 為本研究實驗之詳細流程,由圖中可看出各次實驗進行之細節,其中 會議文獻與期刊文獻皆以三種歸類方式進行主題預測。也就是說,本研究將文獻 按照第一種主題整併、第二種主題整併、自動化歸類三種情形先進行文獻的主題 統整與對應,接著再以兩種預測指標 API 和 SLP 進行主題趨勢的預測,最後採 用統計學上的雙因子變異數分析進行顯著性差異的檢定 。
而在進行預測集和驗證集的範圍大小實驗時,為了避免人工因素的干擾影響 實驗之進行,因此僅採用自動化歸類的結果進行實驗,分別改變預測集和驗證集 的年代範圍,再以兩種預測指標 API 和 SLP 進行主題趨勢的預測,以觀察不同 的預測集和驗證集之範圍是否會影響主題趨勢 預測的結果,最後同樣採用統計學 上的雙因子變異數分析進行顯著性差異的檢定。而預測指標是否對預測主題趨勢 有所影響,則是將上述之實驗過程擷取兩種不同的趨勢指標 做分析探討,而顯著 性差異的檢定則採用自動化歸類後的趨勢結果進行分析 。
圖 3-5 即為預測結果之範例圖,由圖中可知本研究以系統驗算出以 API 為預 測指標下 1995 年至 2004 年為預測集、2005 年和 2006 年為驗證集,所得到之會 議預測會議與期刊預測會議 (CC/JC)預測結果排序,最後再由排序之相對位差計 算出最後預測結果得分。
圖 3- 4 實驗流程圖 年代序列 往後推演
四、 資料處理步驟與流程
(一) 會議文獻與期刊文獻整理流程
本研究針對期刊文獻的主題整理流程如圖 3-6,即為先將期刊文獻出現 10 次以上之 ID 詞彙統整出年代序列,再將主題對應至 SIGIR 會議文獻,若無 SIGIR 可對應但卻又 SIGIR 屬於重要探討之主題,本研究再以主題萃取系統將期刊文 獻各年代進行歸類後以人工之方式找出文獻之主題年代與篇數 。
圖 3- 6 期刊主題整理流程圖
會議文獻的主題由每年度的評選委員審定,故並無統一的架構或詞彙,需由 人工統整會議主題詞彙,且為求嚴謹本研究亦採用人工逐一比對會議文獻與會議 主題是否相符,並由一位具有資工系博士背景之教授協助進行檢視原始分類 。圖 3-7 即本研究針對會議文獻是否需要重新分類之判斷流程圖 ,首先將會議文獻中 具有雙重主題之文獻重新選定主題,再將會議文獻中具有僅該年度特有主題之特 性的文獻進行重新分類,因該年度特有之主題通常為該年度委員無法歸類或該年 度篇數過少等特殊文獻,故需將其重新分類,而無上述兩種情形的一般文獻,則
僅比對文獻是否符合該年度所給予的主題 即可,最後再以人工的方式將文獻主題 詞進行詞彙統整。
圖 3- 7 判斷會議文獻重新分類流程圖 (二) 會議文獻與期刊文獻主題歸類
本研究在期刊文獻的主題詞部份係採用資料庫內的 ID 詞彙,因每篇期刊文 獻的 ID 詞彙數量並不一致,故每篇期刊文獻皆可能出現重複分類的情形 ,但每 個 ID 詞彙在同一篇期刊文獻中只會出現一次 ,因此本研究將各次的 ID 詞彙均 納入分析,並將每次 ID 詞彙視為一篇文獻的主題,亦即在各年度中 ID 詞彙出 現的次數即代表該主題出現的篇數;而會議文獻的部份,因各篇會議文獻均僅有 一個主題,無重複分類的情形,故在年代序列中各篇會議文獻的主題 次數即代表
討之,歸類方式共分為以下三個階段進行 。 1. 第一種主題整併
第一種主題整併即將文獻在文字上「完全相同」之詞彙主題先進行整合,像 是單複數、縮寫、不同詞性等的文字,為求嚴謹先於文字上整合後的結果進行初 步比較,再進一步將同義詞(Synonyms)與相似詞(Ambiguity)的字彙進行合併歸 類。因此,在第一種主題整併後共找出 18 個可對應的主題,進行後續分析的會 議文獻共 479 篇;期刊文獻共 663 篇,其歸類結果如附錄一的表三。
2. 第二種主題整併
第二種主題整併合併則是以第一種主題整併為基礎,再進一步將各主題之廣 義詞、狹義詞和同類詞進行合併,第二種主題整併後總共找出 11 個主題,進行 後續分析的會議文獻共 609 篇;期刊文獻共 1090 篇,在數量上有較大的差距,
其歸類結果如附錄一的表四。
3. 主題萃取系統自動化歸類
系統輔助主題歸類之方式乃以曾元顯教授所開發之主題萃取系統進行歸類
系統輔助主題歸類之方式乃以曾元顯教授所開發之主題萃取系統進行歸類