• 沒有找到結果。

第四章 研究結果與分析

第二節 文獻主題與年代分佈

本研究將會議文獻與期刊文獻相同的主題文獻進行統計後,依年代序列分別 依照主題相關度將其並列,以便看出相近主題下的文獻數量增長情形,然因採用 人工之方式進行歸類時,皆需介入人工之判斷,因此無法完全達到公正客觀的角 度,故最後再以系統進行會議文獻與期刊文獻一併歸類,一方面可比較與人工判 斷之間的差異性,另一方面亦可補強前述之公正客觀的特性 。

一、 主題整併之結果

在進行歸類前即可看出共有 33 個主題為字面上相同之主題詞彙 ,但有部分 主題因數量過少且文獻集中於特定年代中,無法看出年代變化,因此於第一種主 題整併後先將此類文獻群淘汰,僅以數量較多或年代分散之主題類別進行比較分 析。

(一) 第一種主題整併結果

由附錄一的表三可知其各年代文獻數量的分佈,表中期刊文獻之主題是以字 母皆為大寫所表示;會議文獻的主題則是以僅有開頭字母為大寫表示之;期刊文 獻之主題前後加上『_』則表示以主題萃取系統進行輔助歸類之主題 。

1. 整體趨勢之探討

將此區的主題整併後會議文獻共 479 篇,期刊文獻共 663 篇,總計 18 個主 題,以 3 個年代區間來觀看 18 個主題的文獻總數量趨勢,則可看出在前後兩階 段各主題的文獻消長情形,圖 4-2 和圖 4-3 為會議文獻的 18 個主題趨勢;圖 4-4 和圖 4-5 為期刊文獻的 18 個主題趨勢。在會議文獻的部份可發現,主題文獻數 量的成長曲線大致上可分為四種 :

(1) 逐年增長之主題 :Web、Retrieval Model(S) 、Evaluation 、Routing and filtering、Distributed(IR) 、Fusion、(IR) Theory

(2) 第 一 區 間 下 降 而 後 成 長 : Classification&Categorisation(Classifiers) 、

Queries、Relevance Feedback

(3) 第 一 區 間 成 長 而 後趨於 平 穩 或 下 降 : User Issues 、 Efficiency 、 Cross language(IR) 、Multi-lingual IR、Clustering

(4) 逐年下降之主題:Query Expansion、Interface Design and Display、Natural Language Processing

其中 Web 是成長率最為驚人的主題,Retrieval Model(S)和 Evaluation 次之,(IR) Theory 也是在近年來成長較快 的主題。

1991~1996 1997~2002 2003~2007

Interface Design and Display

Evaluation = PERFORMANCE

Efficiency

在期刊文獻的部份則可發現 ,大部分的主題文獻數量 都是呈現正成長,除了 MODEL(S)和 RELEVANCE FEEDBACK 在近年度有下降的趨勢 。

0

WORLD-WI DE-WEB(WWW,WEB) MODEL(S) CLASSIFICATION CATEGORI(S)ZATION USER(S)

IR INTERFACE(S) PERFORMANCE (STANDARDS)

RETRIEVAL EFFECTIVENESS QUERY(S)

QUERY EXPANSION

圖 4- 4 期刊文獻第一種主題整併後 18 個主題整體趨勢圖Ⅰ

1991~1996 1997~2002 2003~2007

篇 數

LANGUAGE(S)(LANGUAGE IR) RELEVANCE FEEDBACK Filter_AI

2. 各主題文獻數量分佈與趨勢探討

由相同主題下比較會議和期刊文獻 的數量差異與分佈,則可以看出文獻出現 的先後順序以及成長曲線 ,以下分別是 18 個主題在會議文獻與期刊文獻主題在 相同主題下,各年度所呈現的文獻數量分佈:

(1) Web 和 WORLD-WIDE-WEB

由圖 4-6 可看出有 關 WWW 主題之期刊和會議文獻的出現年代同樣都始於

WORLD-WI DE-WEB(WWW,WEB)(期刊)

圖 4- 6 以 Web 為主題的會議和期刊文獻各年度數量折線圖 (2) Retrieval Model(S) 和 MODEL(S)

期刊文獻 MODEL(S)的類別共有 105 篇文獻,佔此區期刊文獻的 15.84%,

而會議文獻則是分佈於 4 種次主題之下,若以完全相近的主題詞進行比較則有 Information Retrieval Models 、Retrieval Model(S)、Formal Models 三種主題共 48 篇文獻,佔此區會議文獻的 11.90%,在此主題下兩者的文獻數量都算偏多 ,由 圖 4-7 可看出兩者之間在數量曲線上都有兩次的高峰期出現,分別是期刊文獻的

2002 年至 2005 年有相同的高峰期出現。 (3) Text Categoris(z)ation 和 TEXT CATEGORI(S)ZATION

此主題將 Categorisation 和 Classification 視為同一主題,會議文獻共出現 49 篇,期刊文獻則出現 29 篇,相較之下期刊文獻明顯較少 。由圖 4-8 可看出,在 CLASSIFICATION CATEGORI( S)ZATION(期刊)

圖 4- 8 以 Text Categoris(z)ation 為主題的會議和期刊文獻各年度數量折線圖

(4) User Issues 和 USER(S)

由此主題的文獻數量上可看出,期刊文獻比會議文獻多一些,期刊文獻總共 有 65 篇,佔此區期刊文獻的 9.80%;會議文獻共有 34 篇,佔此區會議文獻的 7.10%。由圖 4-9 可看出,期刊文獻比會議文獻較早 約 3 年出現,期刊文獻於 1993 年後數量便開始下降,但此時卻正好是會議文獻開始出現並成長的階段;又期刊 文獻於 1998 年出現第一次高峰後即趨於平穩,於 2004 年出現第二次的高峰期,

然會議文獻則是於 1998 年後各年間的文獻數量起伏不定,直至 2005 年才又有高 峰出現,但兩者都同樣於 2006 年後持平穩的成長水準。

0 1 2 3 4 5 6 7 8 9

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 年代

UserIssues(會議)

USER(S)(期刊)

圖 4- 9 以 User 為主題的會議和期刊文獻各年度數量折線圖 (5) Interfaces 和 IR INTERFACE(S)

此主題下可看出有 3 個次主題都很相似,若將 3 個次主題合併來看可知,在 數量上會議文獻共有 12 篇,佔此區會議文獻的 2.51%;期刊文獻則有 35 篇,佔 此區期刊文獻的 5.28%,相差有 1 倍之多。但在年代分佈上則呈現有趣的現象,

由圖 4-10 可看出會議文獻的年代分佈為 1991 年至 1995 年而後則未再出現,但 與前一相近主題「User Issues」恰巧可銜接上,由此可知,會議文獻的詞彙已從 早年的 Interfaces 在 1995 年以後轉變為 User Issues;期刊文獻則分佈於 1994 之 後年,雖較晚於會議文獻,但卻持續有相關文獻產出,與會議文獻有很大的不同。

0

(6) Evaluation 和 PERFORMANCE

會議文獻的主題詞「Evaluation」在期刊文獻中並無找到完全相對應的 ID 詞 彙,僅有相近的主題詞「PERFORMANCE」與「SYSTEM PERFORMANCE」可

2001、2002 年有少量文獻的產出,直到 2004 年以後才又有持續性的成長;期刊 文獻的部份則是從 1994 年後均陸續有文獻產出,於 2003 年達到高峰後又往下 降,至 2005 年之後才又開始持續攀升。

0 (7) Efficiency 和 RETRIEVAL EFFECTIVENES

該主題下期刊文獻出現的時間較早於會議文獻 ,期刊文獻於 1992 年即出 EFFECTIVENESS(期刊)

圖 4- 12 以 Efficiency 為主題的會議和期刊文獻各年度數量折線圖 (8) Queries 和 QUERY(S)

會議文獻共出現 13 篇,佔此區會議文獻的 2.71%;期刊文獻則出現 31 篇,

佔此區期刊文獻的 4.68%,兩者數量都偏少,由圖 4-13 可看出期刊文獻於 2001

0

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 年代

篇數

Queries(會議) QUERY(S)(期刊)

圖 4- 13 以 Queries 為主題的會議和期刊文獻各年度數量折線圖 (9) Query Expansion 和 QUERY EXPANSION

在此主題下,會議主題共有 8 篇,佔此區會議文獻的 1.67%;期刊文獻則出 (10) Natural Language Processing 和 LANGUAGE(S)(LANGUAGE IR)

「Language」在會議文獻的主題中有較多相似主題的出現,其中又以「Natural Language Processing」有 21 篇為數量最多者,而此主題下的會議文獻共 29 篇,

佔此區會議文獻的 6.05%;期刊文獻則有 15 篇,佔此區期刊文獻的 2.26%。兩 者在數量上都沒有很多,由圖 4-15 可看出在會議文獻比期刊文獻早約二年,且 早期的期刊文獻數量皆很少 ,直到 2004 年之後才有較多的文獻出現 ,而會議文 獻則是陸續都有出現,但與期刊文獻同樣於 2001 年至 2003 年都無文獻產生。

0 LANGUAGE(S)(LANGUAG E IR)(期刊)

圖 4- 15 以 Language 為主題的會議和期刊文獻各年度數量折線圖 (11) Relevance Feedback 和 RELEVANCE FEEDBACK

在此主題下可看出會議文獻主題僅集中於三個主題下,但期刊文獻的主題分 (12) Routing and filtering 和 Filter

此主題的期刊文獻因沒有相對應的 ID 詞彙,故以主題萃取系統進行輔助歸

由圖 4-17 可看出會議比期刊早約 1~2 年的時間,會議文獻於 2002 年達到高峰,

(13) Fusion 和 Fusion

此主題的期刊文獻數量也是藉由主題萃取系統的輔助,將期刊文獻中關於此 (14) Distributed(IR) 和 Distribute

此主題的期刊文獻亦是透過主題萃取系統的輔助,在數量分佈上,會議文獻 共有 29 篇,佔此區會議文獻的 6.05%;期刊文獻則有 23 篇,佔此區期刊文獻的

3.47%。由圖 4-19 可看出在年代分佈上以會議文獻於 1991 年首次出現 Distributed (15) Cross language(IR) 和 Cross language

此主題的期刊文獻亦是透過主題萃取系統的輔助,會議與期刊文獻數量相差

0

(16) Clustering 和 Cluster

此主題的期刊文獻亦是透過主題萃取系統的輔助,數量上兩者相差不大,會 (17) (IR) Theory 和 Theory

此主題的期刊文獻亦是透過主題萃取系統的輔助,會議文獻共有 22 篇,佔

此區會議文獻的 4.59%;期刊文獻則有 13 篇,佔此區期刊文獻的 1.96%。期刊

(18) Multi-lingual IR

此主題的期刊文獻亦是 透過主題萃取系統的輔助,此主題的會議文獻共有

以上所敘述的 18 個類別,即為第一種主題整併後可比較之主題類別,其統 整如表 4-10,由表中的文獻數量與百分比可知,期刊文獻數量最多的主題分別是 Web 、 Language(Retrieval)(Formal) Models 、 User Interaction 、 User Studies 、 Evaluation&Performance Evaluation、Relevance Feedback;會議文獻數量最多的主 題 分 別 是 Web 、 Language(Retrieval)(Formal ) Models 、 Text Classification&

Categorisation(Classifiers)、User Interaction&User Studies、Evaluation&Performance Evaluation。由兩者數量百分比的差距則可看出 ,差距最大的前五名依序是 :

(1) Relevance Feedback

(2) Text Classification&Categorisation(Classifiers) (3) Efficiency&Scalability

(4) Language(Retrieval)(Formal) Models

(5) Language& NLP(Natural Language Processing)

其 中 期 刊 文 獻 比 會 議 文 獻 多 的 主 題 是 Relevance Feedback 和 Language(Retrieval)(Formal) Models ,而會議文獻比期刊文獻多的主題則是 Text Classification&Categorisation(Classifiers) 、 Efficiency&Scalability 和 Language&

NLP(Natural Language Proc essing) 。

兩者數量差距過大的主題亦是很值得探討的議題,在第一階段尚未歸類前即 可看出期刊比會議文獻數量上明顯較多的主題有七個 ,分別是:MODEL(S)、

QUERY(S)&QUERY EXPANSION 、 USER(S) 、 RELEVANCE 、 SYSTEM(S) 、 DATABASE(S) 、KNOWLEDGE。此亦代表兩種情形之可能 ,一為期刊主題的 ID 詞彙含義過廣,導致多篇文獻皆可取用該 ID 詞彙,另一可能性為期刊文獻比 會議文獻要重視此主題,如 KNOWLEDGE 即為會議文獻極少出現之主題 。

而在初始年代先後的差異上,會議文獻比期刊文獻早的一共有 9 個主題,期 刊文獻比會議文獻早的則有 6 個,兩者同時出現的有 3 個,由此可知大部分的主 題仍然是以會議文獻較早出現 。

表 4- 10 第一種主題整併後會議文獻與期刊文獻統整比較表

1 Web(IR,search,structure,www) 43 63 =

8.98% 9.50%

2 Language(Retrieval)(Formal) Models 57 105 =

11.90% 15.84%

3 Text Classification&Categorisation(Classifiers) 52 29 = 10.86% 4.37%

4 User Interaction&User Studies 34 65 △

7.10% 9.80%

5 Search Interfaces(Issues) 12 35 ●

2.51% 5.28%

6 Evaluation&Performance Evaluation 31 39 △

6.47% 5.88%

7 Efficiency&Scalability 28 10 △

5.85% 1.51%

8 Queries&Query Processing 13 31 △

2.71% 4.68%

9 Query Expan(d)sion 8 24 △

1.67% 3.62%

10 Language& NLP(Natural Language Processing) 29 15 ● 6.05% 2.26%

11 Relevance Feedback 18 131 △

3.76% 19.76%

12 Routing and filtering 26 12 ●

5.43% 1.81%

13 Fusion 11 8 ●

2.30% 1.21%

14 Distributed Systems(IR) 29 23 ●

6.05% 3.47%

15 Cross language(IR) 25 23 ●

5.22% 3.47%

16 Clustering 22 23 ●

4.59% 3.47%

17 (IR) Theory 22 13 ●

4.59% 1.96%

18 Multi-lingual IR 19 14 ●

(二) 第二種主題整併結果

第二種主題整併後已將較細的分類進行合併,因此可明顯看出數量偏多或偏 少之主題,亦可較容易看出數量上差距過大或年代過於分散的主題 ,由於合併歸 類至第二種主題整併後,尚有三個類別的文獻數量仍少於十篇,故亦不再進行趨 勢分析,分別是 Compression、Multimedia(IR)、Summarization&Sentence

Selection(multidocuments and new applications) 。 1. 整體趨勢之探討

第二種主題整併後排除少量文獻的類別 ,即出現 11 個大類可以進行趨勢預 測分析,將全部年代分成 3 個區段則可看出文獻主題的數量趨勢 ,圖 4-24 為會 議文獻的 11 個主題文獻數量趨勢,其成長曲線大致上可分為四種 :

(1) 逐年增長之主題:

 Classification&Categorisation(Classifiers) ; Clustering ; Filtering ; Fusion

 Web;Hypertext;Link analysis

 Performance Evaluation;Test collections

 Indexing(structures);Term Relationships;Statistics;Question and answering

 Distributed(IR)(Systems)

 Efficiency;Scalability (2) 第一區間下降而後成長:

 Semantics;LSI;Probabilistic Models;(IR) Theory;Logic;Inference

 Semantics;LSI;Probabilistic Models;(IR) Theory;Logic;Inference