文獻縱覽 - 藉頭字語與引用文分析追蹤技術發展

2.1 引用文分析 (Citation Analysis)

一般學術論文必由正文及最末端的參考書目列表組成，這些參考書目即為這篇學術論文引用的文獻，而這些被引用文獻必也包含正文與參考書目列表。引文分析的理論即是建立於這種文件相互引用的關係上，並利用數學與統計學的方式，探討著正文和引用文或參考資料間的引證關係，進而討論相關性或引用特性，譬如引用或被引用的原因、

動機，或關聯性程度多寡。其主要目的在於方便後人作研究時了解該份文獻所述內容的相關發展走向以及知識架構[5]。Liu 在 [6]中，將引文分析相關研究的目的歸納為五大類：強化引文索引、引用功能的描述、評估引文的價值、定義對引用文件的貢獻以及判斷引用的動機。以下僅討論與本篇研究較具相關性的引文索引與引用文功能兩項：

2.1.1 引用文功能分析 (Citation Function Analysis)

這項議題探討的是作者基於什麼樣的理由而引用某篇論文[3]。最早在電腦科技尚未發達時，研究者們以人工閱讀、郵件詢問或面對面採訪作者的方式，來取得引用文功能的相關資料，並進行分析[2]。Chubin 等人從物理期刊中挑選 33 份快報和 10 份論文，分別分析它們與引用文間的關係，並以基本需求、間接需求、額外補充、冗餘補充、部分反對、完全反對這六個層面來分類[7]。Oppenheim 等人挑選 23 篇高引用率的早期文件，

並從 1974 到 1975 年間引用它們的文獻中隨機挑出 987 份進行分析，結果發現僅有 16%

是基於理論或技術上的用途而引用[8]。

為了能不依靠人工的手段來辨識引用文功能，研究者們嘗詴將文件中一些包含明確意向的文詞提示與引用文功能作聯結，尋找是否有對應的關連性，例如引用文是使用在引用文件的哪個章節或被提及次數的多寡。Maricic 等人的研究結果顯示，在文獻介紹 (Introduction)章節中出現的引用文，通常是粗略提及、不是那麼重要的；較有意義或較具關聯性的引用文主要是在方法、結果、和討論等章節出現[9]。Hooten 的研究則指出，

若某份引用文在同一項研究中被提及越多次，便可依此推斷該份引用文和引用它的文件具有密切關係[10]。不過 Hanney 等人則對此抱持有質疑的看法[11]。另外 Simone Teufel 等人在[3]中，將引用文功能歸納成數類，並以語言學中“cue phrase”概念，藉由一些對於後續文句內容有提示功能的字詞(例如：adopt, agree with, base, be based on, be derived from, be originated in, be inspired by, build on,…)，來對照所屬引用文功能類型。不過直至今日，關於這些文詞提示是否真的能正確地判斷出引用文功能，還仍沒辦法明確地證明 [12]；儘管如此，仍有不少研究者投入這項研究，尋找更具說服力的方法與可能性。

2.1.2 引用文索引(Citation Index)

引用文在學術文件間可視作一種關聯性上的連結，為了利用這種連結架構來搜尋相關的文件群，早期便有了引用文索引這類工具的研究[13]。到了近期，藉由全自動引用文索引線上搜尋工具，例如 Citeseer[1]和 Google Scholar，研究者可以輕易地蒐集具有某種共通關聯的學術文件。另外，為了能尋找引用同一篇引用文的文件，便產生了共引用分析(co-citation analysis)，藉此我們可以從兩篇文獻的共同引用數目來衡量關聯強度，

例如在[14] 中，Strohman 等人將文件間共引用的資訊視作一種特徵，讓搜尋系統在使用者輸入一份文件資料後，可以獲知這份文件中哪些引用文具有較高閱讀價值。Meij 與 de Rijke 則在語言模組中，利用引用次數(citation counts)來衡量相關文件的事前機率(prior probability) [15]。

2.2 頭字語分析 (Acronyms)

頭字語(acronyms)，也稱首字母縮略字，是由其他一連串單字的第一個字母所組成的字 [16]，用以代表原本冗長的實體名稱，本篇論文中我們以“全名”來稱呼這個實體名稱，例如“CPU”即是代表全名為“Central Processing Unit”的頭字語。目前學界對頭字語的主要研究工作可分為兩類：第一類是探討頭字語的組成特性，以辨認並取出文本中頭字語為主。由於目前頭字語的組成方式複雜化，已不再單純由第一個字母組成，而可能從

全名中其他位置擷取有意義的片段字母加以組成，於 [17] 中 Larkey 等學者提出 contextual、 canonical、 canonical/contextual 以及 simple canonical 這四類演算法，來針對不同特性(比如是否包含小寫字母)的頭字語進行辨認。第二類是頭字語辨識(acronym identification)，目的是取得文本中包含的頭字語與其全名[18]，其中也包含將頭字語還原成全文型態的擴展(acronym expansion)這項重要議題。另外也因為頭字語多樣的組成範疇，導致同一全名可能擁有不同長度的頭字語、或不同全名擁有相同的頭字語的狀況發生，是這議題最需要克服的難題[19]。 [20]中利用頭字語-全名對照表，來實現一種利用各式預先訂好的限制條件來尋找頭字語並配上適合的全名，這方法在辨識那些沒有成對出現的頭字語或全名時，特別有效。

文獻中重要的技術或理論，其全名在第一次出現時，通常會搭配一個括號附註其頭字語寫法，以方便後續內容的撰寫。本篇實驗將利用這個特性來尋找文本中與內容具高度相關性的頭字語。

2.3 文件分類 (Document Classification)

由於現代資訊數位化的影響，文件數量增長過大而不再適合以人工方式進行分類，

因此文件分類此一議題更顯重要。文件分類，顧名思義，指的是依照文件內容來歸類成數個類別。目前除了字面上的用途，也普遍應用於電子郵件或全球資訊網頁的管理上。

在學術界中，則提供了提供一種篩選及統整文件的方式，讓研究者們能更有效率地找到相關學術文件群。文件分類在方法主要可以歸類為兩大類：第一種是以關鍵字為基礎 (keyword-based)，以事先定義好的關鍵字彙資料庫來對文件進行比對並分類，為較傳統的方式。不過現今學界以第二種、也就是以內容為基礎(content-based)或以特徵為基礎 (feature-based)的文件分類[21]研究居多。這類技術使用特殊的演算法，從文件中分析並擷取出足以代表這份文件的特徵集合(例如文字出現頻率、文本架構乃至於圖片)，並依此作分類。最普遍的為 Salton 等人在[22]中提出的 TF*IDF，藉由計算字彙在個別文件與所有文件中出現頻率這兩種值，來判斷這個字彙對這份文件是否具代表性。另外 Bader

Aljaber 等人在[23]中，提到藉由“bag-of-words model”這種標籤分類機制與分群法的組合，有助於將含有特殊關鍵字且與研究之主題高度相關的文件篩選出來。另外也有 Small 等人結合前幾節所述引文架構，應用到開發對資料庫文件進行分類的系統中[24]。

在文檔中藉頭字語與引用文分析追蹤技術發展 (頁 14-18)