第四章 研究結果與分析
第二節 文獻主題與年代分佈
本研究將會議文獻與期刊文獻相同的主題文獻進行統計後,依年代序列分別 依照主題相關度將其並列,以便看出相近主題下的文獻數量增長情形,然因採用 人工之方式進行歸類時,皆需介入人工之判斷,因此無法完全達到公正客觀的角 度,故最後再以系統進行會議文獻與期刊文獻一併歸類,一方面可比較與人工判 斷之間的差異性,另一方面亦可補強前述之公正客觀的特性 。
一、 主題整併之結果
在進行歸類前即可看出共有 33 個主題為字面上相同之主題詞彙 ,但有部分 主題因數量過少且文獻集中於特定年代中,無法看出年代變化,因此於第一種主 題整併後先將此類文獻群淘汰,僅以數量較多或年代分散之主題類別進行比較分 析。
(一) 第一種主題整併結果
由附錄一的表三可知其各年代文獻數量的分佈,表中期刊文獻之主題是以字 母皆為大寫所表示;會議文獻的主題則是以僅有開頭字母為大寫表示之;期刊文 獻之主題前後加上『_』則表示以主題萃取系統進行輔助歸類之主題 。
1. 整體趨勢之探討
將此區的主題整併後會議文獻共 479 篇,期刊文獻共 663 篇,總計 18 個主 題,以 3 個年代區間來觀看 18 個主題的文獻總數量趨勢,則可看出在前後兩階 段各主題的文獻消長情形,圖 4-2 和圖 4-3 為會議文獻的 18 個主題趨勢;圖 4-4 和圖 4-5 為期刊文獻的 18 個主題趨勢。在會議文獻的部份可發現,主題文獻數 量的成長曲線大致上可分為四種 :
(1) 逐年增長之主題 :Web、Retrieval Model(S) 、Evaluation 、Routing and filtering、Distributed(IR) 、Fusion、(IR) Theory
(2) 第 一 區 間 下 降 而 後 成 長 : Classification&Categorisation(Classifiers) 、
Queries、Relevance Feedback
(3) 第 一 區 間 成 長 而 後趨於 平 穩 或 下 降 : User Issues 、 Efficiency 、 Cross language(IR) 、Multi-lingual IR、Clustering
(4) 逐年下降之主題:Query Expansion、Interface Design and Display、Natural Language Processing
其中 Web 是成長率最為驚人的主題,Retrieval Model(S)和 Evaluation 次之,(IR) Theory 也是在近年來成長較快 的主題。
1991~1996 1997~2002 2003~2007
篇數
Interface Design and Display
Evaluation = PERFORMANCE
Efficiency
在期刊文獻的部份則可發現 ,大部分的主題文獻數量 都是呈現正成長,除了 MODEL(S)和 RELEVANCE FEEDBACK 在近年度有下降的趨勢 。
0
WORLD-WI DE-WEB(WWW,WEB) MODEL(S) CLASSIFICATION CATEGORI(S)ZATION USER(S)
IR INTERFACE(S) PERFORMANCE (STANDARDS)
RETRIEVAL EFFECTIVENESS QUERY(S)
QUERY EXPANSION
圖 4- 4 期刊文獻第一種主題整併後 18 個主題整體趨勢圖Ⅰ
1991~1996 1997~2002 2003~2007
篇 數
LANGUAGE(S)(LANGUAGE IR) RELEVANCE FEEDBACK Filter_AI
2. 各主題文獻數量分佈與趨勢探討
由相同主題下比較會議和期刊文獻 的數量差異與分佈,則可以看出文獻出現 的先後順序以及成長曲線 ,以下分別是 18 個主題在會議文獻與期刊文獻主題在 相同主題下,各年度所呈現的文獻數量分佈:
(1) Web 和 WORLD-WIDE-WEB
由圖 4-6 可看出有 關 WWW 主題之期刊和會議文獻的出現年代同樣都始於
WORLD-WI DE-WEB(WWW,WEB)(期刊)
圖 4- 6 以 Web 為主題的會議和期刊文獻各年度數量折線圖 (2) Retrieval Model(S) 和 MODEL(S)
期刊文獻 MODEL(S)的類別共有 105 篇文獻,佔此區期刊文獻的 15.84%,
而會議文獻則是分佈於 4 種次主題之下,若以完全相近的主題詞進行比較則有 Information Retrieval Models 、Retrieval Model(S)、Formal Models 三種主題共 48 篇文獻,佔此區會議文獻的 11.90%,在此主題下兩者的文獻數量都算偏多 ,由 圖 4-7 可看出兩者之間在數量曲線上都有兩次的高峰期出現,分別是期刊文獻的
2002 年至 2005 年有相同的高峰期出現。 (3) Text Categoris(z)ation 和 TEXT CATEGORI(S)ZATION
此主題將 Categorisation 和 Classification 視為同一主題,會議文獻共出現 49 篇,期刊文獻則出現 29 篇,相較之下期刊文獻明顯較少 。由圖 4-8 可看出,在 CLASSIFICATION CATEGORI( S)ZATION(期刊)
圖 4- 8 以 Text Categoris(z)ation 為主題的會議和期刊文獻各年度數量折線圖
(4) User Issues 和 USER(S)
由此主題的文獻數量上可看出,期刊文獻比會議文獻多一些,期刊文獻總共 有 65 篇,佔此區期刊文獻的 9.80%;會議文獻共有 34 篇,佔此區會議文獻的 7.10%。由圖 4-9 可看出,期刊文獻比會議文獻較早 約 3 年出現,期刊文獻於 1993 年後數量便開始下降,但此時卻正好是會議文獻開始出現並成長的階段;又期刊 文獻於 1998 年出現第一次高峰後即趨於平穩,於 2004 年出現第二次的高峰期,
然會議文獻則是於 1998 年後各年間的文獻數量起伏不定,直至 2005 年才又有高 峰出現,但兩者都同樣於 2006 年後持平穩的成長水準。
0 1 2 3 4 5 6 7 8 9
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 年代
篇數 UserIssues(會議)
USER(S)(期刊)
圖 4- 9 以 User 為主題的會議和期刊文獻各年度數量折線圖 (5) Interfaces 和 IR INTERFACE(S)
此主題下可看出有 3 個次主題都很相似,若將 3 個次主題合併來看可知,在 數量上會議文獻共有 12 篇,佔此區會議文獻的 2.51%;期刊文獻則有 35 篇,佔 此區期刊文獻的 5.28%,相差有 1 倍之多。但在年代分佈上則呈現有趣的現象,
由圖 4-10 可看出會議文獻的年代分佈為 1991 年至 1995 年而後則未再出現,但 與前一相近主題「User Issues」恰巧可銜接上,由此可知,會議文獻的詞彙已從 早年的 Interfaces 在 1995 年以後轉變為 User Issues;期刊文獻則分佈於 1994 之 後年,雖較晚於會議文獻,但卻持續有相關文獻產出,與會議文獻有很大的不同。
0
(6) Evaluation 和 PERFORMANCE
會議文獻的主題詞「Evaluation」在期刊文獻中並無找到完全相對應的 ID 詞 彙,僅有相近的主題詞「PERFORMANCE」與「SYSTEM PERFORMANCE」可
2001、2002 年有少量文獻的產出,直到 2004 年以後才又有持續性的成長;期刊 文獻的部份則是從 1994 年後均陸續有文獻產出,於 2003 年達到高峰後又往下 降,至 2005 年之後才又開始持續攀升。
0 (7) Efficiency 和 RETRIEVAL EFFECTIVENES
該主題下期刊文獻出現的時間較早於會議文獻 ,期刊文獻於 1992 年即出 EFFECTIVENESS(期刊)
圖 4- 12 以 Efficiency 為主題的會議和期刊文獻各年度數量折線圖 (8) Queries 和 QUERY(S)
會議文獻共出現 13 篇,佔此區會議文獻的 2.71%;期刊文獻則出現 31 篇,
佔此區期刊文獻的 4.68%,兩者數量都偏少,由圖 4-13 可看出期刊文獻於 2001
0
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 年代
篇數
Queries(會議) QUERY(S)(期刊)
圖 4- 13 以 Queries 為主題的會議和期刊文獻各年度數量折線圖 (9) Query Expansion 和 QUERY EXPANSION
在此主題下,會議主題共有 8 篇,佔此區會議文獻的 1.67%;期刊文獻則出 (10) Natural Language Processing 和 LANGUAGE(S)(LANGUAGE IR)
「Language」在會議文獻的主題中有較多相似主題的出現,其中又以「Natural Language Processing」有 21 篇為數量最多者,而此主題下的會議文獻共 29 篇,
佔此區會議文獻的 6.05%;期刊文獻則有 15 篇,佔此區期刊文獻的 2.26%。兩 者在數量上都沒有很多,由圖 4-15 可看出在會議文獻比期刊文獻早約二年,且 早期的期刊文獻數量皆很少 ,直到 2004 年之後才有較多的文獻出現 ,而會議文 獻則是陸續都有出現,但與期刊文獻同樣於 2001 年至 2003 年都無文獻產生。
0 LANGUAGE(S)(LANGUAG E IR)(期刊)
圖 4- 15 以 Language 為主題的會議和期刊文獻各年度數量折線圖 (11) Relevance Feedback 和 RELEVANCE FEEDBACK
在此主題下可看出會議文獻主題僅集中於三個主題下,但期刊文獻的主題分 (12) Routing and filtering 和 Filter
此主題的期刊文獻因沒有相對應的 ID 詞彙,故以主題萃取系統進行輔助歸
由圖 4-17 可看出會議比期刊早約 1~2 年的時間,會議文獻於 2002 年達到高峰,
(13) Fusion 和 Fusion
此主題的期刊文獻數量也是藉由主題萃取系統的輔助,將期刊文獻中關於此 (14) Distributed(IR) 和 Distribute
此主題的期刊文獻亦是透過主題萃取系統的輔助,在數量分佈上,會議文獻 共有 29 篇,佔此區會議文獻的 6.05%;期刊文獻則有 23 篇,佔此區期刊文獻的
3.47%。由圖 4-19 可看出在年代分佈上以會議文獻於 1991 年首次出現 Distributed (15) Cross language(IR) 和 Cross language
此主題的期刊文獻亦是透過主題萃取系統的輔助,會議與期刊文獻數量相差
0
(16) Clustering 和 Cluster
此主題的期刊文獻亦是透過主題萃取系統的輔助,數量上兩者相差不大,會 (17) (IR) Theory 和 Theory
此主題的期刊文獻亦是透過主題萃取系統的輔助,會議文獻共有 22 篇,佔
此區會議文獻的 4.59%;期刊文獻則有 13 篇,佔此區期刊文獻的 1.96%。期刊
(18) Multi-lingual IR
此主題的期刊文獻亦是 透過主題萃取系統的輔助,此主題的會議文獻共有
以上所敘述的 18 個類別,即為第一種主題整併後可比較之主題類別,其統 整如表 4-10,由表中的文獻數量與百分比可知,期刊文獻數量最多的主題分別是 Web 、 Language(Retrieval)(Formal) Models 、 User Interaction 、 User Studies 、 Evaluation&Performance Evaluation、Relevance Feedback;會議文獻數量最多的主 題 分 別 是 Web 、 Language(Retrieval)(Formal ) Models 、 Text Classification&
Categorisation(Classifiers)、User Interaction&User Studies、Evaluation&Performance Evaluation。由兩者數量百分比的差距則可看出 ,差距最大的前五名依序是 :
(1) Relevance Feedback
(2) Text Classification&Categorisation(Classifiers) (3) Efficiency&Scalability
(4) Language(Retrieval)(Formal) Models
(5) Language& NLP(Natural Language Processing)
其 中 期 刊 文 獻 比 會 議 文 獻 多 的 主 題 是 Relevance Feedback 和 Language(Retrieval)(Formal) Models ,而會議文獻比期刊文獻多的主題則是 Text Classification&Categorisation(Classifiers) 、 Efficiency&Scalability 和 Language&
NLP(Natural Language Proc essing) 。
兩者數量差距過大的主題亦是很值得探討的議題,在第一階段尚未歸類前即 可看出期刊比會議文獻數量上明顯較多的主題有七個 ,分別是:MODEL(S)、
QUERY(S)&QUERY EXPANSION 、 USER(S) 、 RELEVANCE 、 SYSTEM(S) 、 DATABASE(S) 、KNOWLEDGE。此亦代表兩種情形之可能 ,一為期刊主題的 ID 詞彙含義過廣,導致多篇文獻皆可取用該 ID 詞彙,另一可能性為期刊文獻比 會議文獻要重視此主題,如 KNOWLEDGE 即為會議文獻極少出現之主題 。
而在初始年代先後的差異上,會議文獻比期刊文獻早的一共有 9 個主題,期 刊文獻比會議文獻早的則有 6 個,兩者同時出現的有 3 個,由此可知大部分的主 題仍然是以會議文獻較早出現 。
表 4- 10 第一種主題整併後會議文獻與期刊文獻統整比較表
1 Web(IR,search,structure,www) 43 63 =
8.98% 9.50%
2 Language(Retrieval)(Formal) Models 57 105 =
11.90% 15.84%
3 Text Classification&Categorisation(Classifiers) 52 29 = 10.86% 4.37%
4 User Interaction&User Studies 34 65 △
7.10% 9.80%
5 Search Interfaces(Issues) 12 35 ●
2.51% 5.28%
6 Evaluation&Performance Evaluation 31 39 △
6.47% 5.88%
7 Efficiency&Scalability 28 10 △
5.85% 1.51%
8 Queries&Query Processing 13 31 △
2.71% 4.68%
9 Query Expan(d)sion 8 24 △
1.67% 3.62%
10 Language& NLP(Natural Language Processing) 29 15 ● 6.05% 2.26%
11 Relevance Feedback 18 131 △
3.76% 19.76%
12 Routing and filtering 26 12 ●
5.43% 1.81%
13 Fusion 11 8 ●
2.30% 1.21%
14 Distributed Systems(IR) 29 23 ●
6.05% 3.47%
15 Cross language(IR) 25 23 ●
5.22% 3.47%
16 Clustering 22 23 ●
4.59% 3.47%
17 (IR) Theory 22 13 ●
4.59% 1.96%
18 Multi-lingual IR 19 14 ●
(二) 第二種主題整併結果
第二種主題整併後已將較細的分類進行合併,因此可明顯看出數量偏多或偏 少之主題,亦可較容易看出數量上差距過大或年代過於分散的主題 ,由於合併歸 類至第二種主題整併後,尚有三個類別的文獻數量仍少於十篇,故亦不再進行趨 勢分析,分別是 Compression、Multimedia(IR)、Summarization&Sentence
Selection(multidocuments and new applications) 。 1. 整體趨勢之探討
第二種主題整併後排除少量文獻的類別 ,即出現 11 個大類可以進行趨勢預 測分析,將全部年代分成 3 個區段則可看出文獻主題的數量趨勢 ,圖 4-24 為會 議文獻的 11 個主題文獻數量趨勢,其成長曲線大致上可分為四種 :
(1) 逐年增長之主題:
Classification&Categorisation(Classifiers) ; Clustering ; Filtering ; Fusion
Web;Hypertext;Link analysis
Performance Evaluation;Test collections
Indexing(structures);Term Relationships;Statistics;Question and answering
Distributed(IR)(Systems)
Efficiency;Scalability (2) 第一區間下降而後成長:
Semantics;LSI;Probabilistic Models;(IR) Theory;Logic;Inference
Semantics;LSI;Probabilistic Models;(IR) Theory;Logic;Inference