文獻主題與年代分佈

第四章研究結果與分析

第二節文獻主題與年代分佈

本研究將會議文獻與期刊文獻相同的主題文獻進行統計後，依年代序列分別依照主題相關度將其並列，以便看出相近主題下的文獻數量增長情形，然因採用人工之方式進行歸類時，皆需介入人工之判斷，因此無法完全達到公正客觀的角度，故最後再以系統進行會議文獻與期刊文獻一併歸類，一方面可比較與人工判斷之間的差異性，另一方面亦可補強前述之公正客觀的特性。

一、主題整併之結果

在進行歸類前即可看出共有 33 個主題為字面上相同之主題詞彙，但有部分主題因數量過少且文獻集中於特定年代中，無法看出年代變化，因此於第一種主題整併後先將此類文獻群淘汰，僅以數量較多或年代分散之主題類別進行比較分析。

(一) 第一種主題整併結果

由附錄一的表三可知其各年代文獻數量的分佈，表中期刊文獻之主題是以字母皆為大寫所表示；會議文獻的主題則是以僅有開頭字母為大寫表示之；期刊文獻之主題前後加上『_』則表示以主題萃取系統進行輔助歸類之主題。

1. 整體趨勢之探討

將此區的主題整併後會議文獻共 479 篇，期刊文獻共 663 篇，總計 18 個主題，以 3 個年代區間來觀看 18 個主題的文獻總數量趨勢，則可看出在前後兩階段各主題的文獻消長情形，圖 4-2 和圖 4-3 為會議文獻的 18 個主題趨勢；圖 4-4 和圖 4-5 為期刊文獻的 18 個主題趨勢。在會議文獻的部份可發現，主題文獻數量的成長曲線大致上可分為四種：

(1) 逐年增長之主題：Web、Retrieval Model(S) 、Evaluation 、Routing and filtering、Distributed(IR) 、Fusion、(IR) Theory

(2) 第一區間下降而後成長： Classification&Categorisation(Classifiers) 、

Queries、Relevance Feedback

(3) 第一區間成長而後趨於平穩或下降： User Issues 、 Efficiency 、 Cross language(IR) 、Multi-lingual IR、Clustering

(4) 逐年下降之主題：Query Expansion、Interface Design and Display、Natural Language Processing

其中 Web 是成長率最為驚人的主題，Retrieval Model(S)和 Evaluation 次之，(IR) Theory 也是在近年來成長較快的主題。

1991~1996 1997~2002 2003~2007

篇數

Interface Design and Display

Evaluation = PERFORMANCE

Efficiency

在期刊文獻的部份則可發現，大部分的主題文獻數量都是呈現正成長，除了 MODEL(S)和 RELEVANCE FEEDBACK 在近年度有下降的趨勢。

WORLD-WI DE-WEB(WWW,WEB) MODEL(S) CLASSIFICATION CATEGORI(S)ZATION USER(S)

IR INTERFACE(S) PERFORMANCE (STANDARDS)

RETRIEVAL EFFECTIVENESS QUERY(S)

QUERY EXPANSION

圖 4- 4 期刊文獻第一種主題整併後 18 個主題整體趨勢圖Ⅰ

1991~1996 1997~2002 2003~2007

篇數

LANGUAGE(S)(LANGUAGE IR) RELEVANCE FEEDBACK Filter_AI

2. 各主題文獻數量分佈與趨勢探討

由相同主題下比較會議和期刊文獻的數量差異與分佈，則可以看出文獻出現的先後順序以及成長曲線，以下分別是 18 個主題在會議文獻與期刊文獻主題在相同主題下，各年度所呈現的文獻數量分佈：

(1) Web 和 WORLD-WIDE-WEB

由圖 4-6 可看出有關 WWW 主題之期刊和會議文獻的出現年代同樣都始於

WORLD-WI DE-WEB(WWW,WEB)(期刊)

圖 4- 6 以 Web 為主題的會議和期刊文獻各年度數量折線圖 (2) Retrieval Model(S) 和 MODEL(S)

期刊文獻 MODEL(S)的類別共有 105 篇文獻，佔此區期刊文獻的 15.84%，

而會議文獻則是分佈於 4 種次主題之下，若以完全相近的主題詞進行比較則有 Information Retrieval Models 、Retrieval Model(S)、Formal Models 三種主題共 48 篇文獻，佔此區會議文獻的 11.90%，在此主題下兩者的文獻數量都算偏多，由圖 4-7 可看出兩者之間在數量曲線上都有兩次的高峰期出現，分別是期刊文獻的

2002 年至 2005 年有相同的高峰期出現。 (3) Text Categoris(z)ation 和 TEXT CATEGORI(S)ZATION

此主題將 Categorisation 和 Classification 視為同一主題，會議文獻共出現 49 篇，期刊文獻則出現 29 篇，相較之下期刊文獻明顯較少。由圖 4-8 可看出，在 CLASSIFICATION CATEGORI( S)ZATION(期刊)

圖 4- 8 以 Text Categoris(z)ation 為主題的會議和期刊文獻各年度數量折線圖

(4) User Issues 和 USER(S)

由此主題的文獻數量上可看出，期刊文獻比會議文獻多一些，期刊文獻總共有 65 篇，佔此區期刊文獻的 9.80%；會議文獻共有 34 篇，佔此區會議文獻的 7.10%。由圖 4-9 可看出，期刊文獻比會議文獻較早約 3 年出現，期刊文獻於 1993 年後數量便開始下降，但此時卻正好是會議文獻開始出現並成長的階段；又期刊文獻於 1998 年出現第一次高峰後即趨於平穩，於 2004 年出現第二次的高峰期，

然會議文獻則是於 1998 年後各年間的文獻數量起伏不定，直至 2005 年才又有高峰出現，但兩者都同樣於 2006 年後持平穩的成長水準。

0 1 2 3 4 5 6 7 8 9

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 年代

篇數 UserIssues(會議)

USER(S)(期刊)

圖 4- 9 以 User 為主題的會議和期刊文獻各年度數量折線圖 (5) Interfaces 和 IR INTERFACE(S)

此主題下可看出有 3 個次主題都很相似，若將 3 個次主題合併來看可知，在數量上會議文獻共有 12 篇，佔此區會議文獻的 2.51%；期刊文獻則有 35 篇，佔此區期刊文獻的 5.28%，相差有 1 倍之多。但在年代分佈上則呈現有趣的現象，

由圖 4-10 可看出會議文獻的年代分佈為 1991 年至 1995 年而後則未再出現，但與前一相近主題「User Issues」恰巧可銜接上，由此可知，會議文獻的詞彙已從早年的 Interfaces 在 1995 年以後轉變為 User Issues；期刊文獻則分佈於 1994 之後年，雖較晚於會議文獻，但卻持續有相關文獻產出，與會議文獻有很大的不同。

(6) Evaluation 和 PERFORMANCE

會議文獻的主題詞「Evaluation」在期刊文獻中並無找到完全相對應的 ID 詞彙，僅有相近的主題詞「PERFORMANCE」與「SYSTEM PERFORMANCE」可

2001、2002 年有少量文獻的產出，直到 2004 年以後才又有持續性的成長；期刊文獻的部份則是從 1994 年後均陸續有文獻產出，於 2003 年達到高峰後又往下降，至 2005 年之後才又開始持續攀升。

0 (7) Efficiency 和 RETRIEVAL EFFECTIVENES

該主題下期刊文獻出現的時間較早於會議文獻，期刊文獻於 1992 年即出 EFFECTIVENESS(期刊)

圖 4- 12 以 Efficiency 為主題的會議和期刊文獻各年度數量折線圖 (8) Queries 和 QUERY(S)

會議文獻共出現 13 篇，佔此區會議文獻的 2.71%；期刊文獻則出現 31 篇，

佔此區期刊文獻的 4.68%，兩者數量都偏少，由圖 4-13 可看出期刊文獻於 2001

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 年代

篇數

Queries(會議) QUERY(S)(期刊)

圖 4- 13 以 Queries 為主題的會議和期刊文獻各年度數量折線圖 (9) Query Expansion 和 QUERY EXPANSION

在此主題下，會議主題共有 8 篇，佔此區會議文獻的 1.67%；期刊文獻則出 (10) Natural Language Processing 和 LANGUAGE(S)(LANGUAGE IR)

「Language」在會議文獻的主題中有較多相似主題的出現，其中又以「Natural Language Processing」有 21 篇為數量最多者，而此主題下的會議文獻共 29 篇，

佔此區會議文獻的 6.05%；期刊文獻則有 15 篇，佔此區期刊文獻的 2.26%。兩者在數量上都沒有很多，由圖 4-15 可看出在會議文獻比期刊文獻早約二年，且早期的期刊文獻數量皆很少，直到 2004 年之後才有較多的文獻出現，而會議文獻則是陸續都有出現，但與期刊文獻同樣於 2001 年至 2003 年都無文獻產生。

0 LANGUAGE(S)(LANGUAG E IR)(期刊)

圖 4- 15 以 Language 為主題的會議和期刊文獻各年度數量折線圖 (11) Relevance Feedback 和 RELEVANCE FEEDBACK

在此主題下可看出會議文獻主題僅集中於三個主題下，但期刊文獻的主題分 (12) Routing and filtering 和 Filter

此主題的期刊文獻因沒有相對應的 ID 詞彙，故以主題萃取系統進行輔助歸

由圖 4-17 可看出會議比期刊早約 1~2 年的時間，會議文獻於 2002 年達到高峰，

(13) Fusion 和 Fusion

此主題的期刊文獻數量也是藉由主題萃取系統的輔助，將期刊文獻中關於此 (14) Distributed(IR) 和 Distribute

此主題的期刊文獻亦是透過主題萃取系統的輔助，在數量分佈上，會議文獻共有 29 篇，佔此區會議文獻的 6.05%；期刊文獻則有 23 篇，佔此區期刊文獻的

3.47%。由圖 4-19 可看出在年代分佈上以會議文獻於 1991 年首次出現 Distributed (15) Cross language(IR) 和 Cross language

此主題的期刊文獻亦是透過主題萃取系統的輔助，會議與期刊文獻數量相差

(16) Clustering 和 Cluster

此主題的期刊文獻亦是透過主題萃取系統的輔助，數量上兩者相差不大，會 (17) (IR) Theory 和 Theory

此主題的期刊文獻亦是透過主題萃取系統的輔助，會議文獻共有 22 篇，佔

此區會議文獻的 4.59%；期刊文獻則有 13 篇，佔此區期刊文獻的 1.96%。期刊

(18) Multi-lingual IR

此主題的期刊文獻亦是透過主題萃取系統的輔助，此主題的會議文獻共有

以上所敘述的 18 個類別，即為第一種主題整併後可比較之主題類別，其統整如表 4-10，由表中的文獻數量與百分比可知，期刊文獻數量最多的主題分別是 Web 、 Language(Retrieval)(Formal) Models 、 User Interaction 、 User Studies 、 Evaluation&Performance Evaluation、Relevance Feedback；會議文獻數量最多的主題分別是 Web 、 Language(Retrieval)(Formal ) Models 、 Text Classification&

Categorisation(Classifiers)、User Interaction&User Studies、Evaluation&Performance Evaluation。由兩者數量百分比的差距則可看出，差距最大的前五名依序是：

(1) Relevance Feedback

(2) Text Classification&Categorisation(Classifiers) (3) Efficiency&Scalability

(4) Language(Retrieval)(Formal) Models

(5) Language& NLP(Natural Language Processing)

其中期刊文獻比會議文獻多的主題是 Relevance Feedback 和 Language(Retrieval)(Formal) Models ，而會議文獻比期刊文獻多的主題則是 Text Classification&Categorisation(Classifiers) 、 Efficiency&Scalability 和 Language&

NLP(Natural Language Proc essing) 。

兩者數量差距過大的主題亦是很值得探討的議題，在第一階段尚未歸類前即可看出期刊比會議文獻數量上明顯較多的主題有七個，分別是：MODEL(S)、

QUERY(S)&QUERY EXPANSION 、 USER(S) 、 RELEVANCE 、 SYSTEM(S) 、 DATABASE(S) 、KNOWLEDGE。此亦代表兩種情形之可能，一為期刊主題的 ID 詞彙含義過廣，導致多篇文獻皆可取用該 ID 詞彙，另一可能性為期刊文獻比會議文獻要重視此主題，如 KNOWLEDGE 即為會議文獻極少出現之主題。

而在初始年代先後的差異上，會議文獻比期刊文獻早的一共有 9 個主題，期刊文獻比會議文獻早的則有 6 個，兩者同時出現的有 3 個，由此可知大部分的主題仍然是以會議文獻較早出現。

表 4- 10 第一種主題整併後會議文獻與期刊文獻統整比較表

1 Web(IR,search,structure,www) 43 63 =

8.98% 9.50%

2 Language(Retrieval)(Formal) Models 57 105 =

11.90% 15.84%

3 Text Classification&Categorisation(Classifiers) 52 29 = 10.86% 4.37%

4 User Interaction&User Studies 34 65 △

7.10% 9.80%

5 Search Interfaces(Issues) 12 35 ●

2.51% 5.28%

6 Evaluation&Performance Evaluation 31 39 △

6.47% 5.88%

7 Efficiency&Scalability 28 10 △

5.85% 1.51%

8 Queries&Query Processing 13 31 △

2.71% 4.68%

9 Query Expan(d)sion 8 24 △

1.67% 3.62%

10 Language& NLP(Natural Language Processing) 29 15 ● 6.05% 2.26%

11 Relevance Feedback 18 131 △

3.76% 19.76%

12 Routing and filtering 26 12 ●

5.43% 1.81%

13 Fusion 11 8 ●

2.30% 1.21%

14 Distributed Systems(IR) 29 23 ●

6.05% 3.47%

15 Cross language(IR) 25 23 ●

5.22% 3.47%

16 Clustering 22 23 ●

4.59% 3.47%

17 (IR) Theory 22 13 ●

4.59% 1.96%

18 Multi-lingual IR 19 14 ●

(二) 第二種主題整併結果

第二種主題整併後已將較細的分類進行合併，因此可明顯看出數量偏多或偏少之主題，亦可較容易看出數量上差距過大或年代過於分散的主題，由於合併歸類至第二種主題整併後，尚有三個類別的文獻數量仍少於十篇，故亦不再進行趨勢分析，分別是 Compression、Multimedia(IR)、Summarization&Sentence

Selection(multidocuments and new applications) 。 1. 整體趨勢之探討

第二種主題整併後排除少量文獻的類別，即出現 11 個大類可以進行趨勢預測分析，將全部年代分成 3 個區段則可看出文獻主題的數量趨勢，圖 4-24 為會議文獻的 11 個主題文獻數量趨勢，其成長曲線大致上可分為四種：

(1) 逐年增長之主題：

 Classification&Categorisation(Classifiers) ； Clustering ； Filtering ； Fusion

 Web；Hypertext；Link analysis

 Performance Evaluation；Test collections

 Indexing(structures)；Term Relationships；Statistics；Question and answering

 Distributed(IR)(Systems)

 Efficiency；Scalability (2) 第一區間下降而後成長：

 Semantics；LSI；Probabilistic Models；(IR) Theory；Logic；Inference

在文檔中會議與期刊文獻對預測主題趨勢之比較研究—以「資訊檢索」領域為例 (頁 80-115)

第四章 研究結果與分析

第二節 文獻主題與年代分佈

一、 主題整併之結果

第四章研究結果與分析

第二節文獻主題與年代分佈

一、主題整併之結果