2.1 引用文分析 (Citation Analysis)
一般學術論文必由正文及最末端的參考書目列表組成,這些參考書目即為這篇學術 論文引用的文獻,而這些被引用文獻必也包含正文與參考書目列表。引文分析的理論即 是建立於這種文件相互引用的關係上,並利用數學與統計學的方式,探討著正文和引用 文或參考資料間的引證關係,進而討論相關性或引用特性,譬如引用或被引用的原因、
動機,或關聯性程度多寡。其主要目的在於方便後人作研究時了解該份文獻所述內容的 相關發展走向以及知識架構[5]。Liu 在 [6]中,將引文分析相關研究的目的歸納為五大 類:強化引文索引、引用功能的描述、評估引文的價值、定義對引用文件的貢獻以及判 斷引用的動機。以下僅討論與本篇研究較具相關性的引文索引與引用文功能兩項:
2.1.1 引用文功能分析 (Citation Function Analysis)
這項議題探討的是作者基於什麼樣的理由而引用某篇論文[3]。最早在電腦科技尚未 發達時,研究者們以人工閱讀、郵件詢問或面對面採訪作者的方式,來取得引用文功能 的相關資料,並進行分析[2]。Chubin 等人從物理期刊中挑選 33 份快報和 10 份論文,分 別分析它們與引用文間的關係,並以基本需求、間接需求、額外補充、冗餘補充、部分 反對、完全反對這六個層面來分類[7]。Oppenheim 等人挑選 23 篇高引用率的早期文件,
並從 1974 到 1975 年間引用它們的文獻中隨機挑出 987 份進行分析,結果發現僅有 16%
是基於理論或技術上的用途而引用[8]。
為了能不依靠人工的手段來辨識引用文功能,研究者們嘗詴將文件中一些包含明確 意向的文詞提示與引用文功能作聯結,尋找是否有對應的關連性,例如引用文是使用在 引用文件的哪個章節或被提及次數的多寡。Maricic 等人的研究結果顯示,在文獻介紹 (Introduction)章節中出現的引用文,通常是粗略提及、不是那麼重要的;較有意義或較 具關聯性的引用文主要是在方法、結果、和討論等章節出現[9]。Hooten 的研究則指出,
若某份引用文在同一項研究中被提及越多次,便可依此推斷該份引用文和引用它的文件 具有密切關係[10]。不過 Hanney 等人則對此抱持有質疑的看法[11]。另外 Simone Teufel 等人在[3]中,將引用文功能歸納成數類,並以語言學中“cue phrase”概念,藉由一些對於 後續文句內容有提示功能的字詞(例如:adopt, agree with, base, be based on, be derived from, be originated in, be inspired by, build on,…),來對照所屬引用文功能類型。不過直至 今日,關於這些文詞提示是否真的能正確地判斷出引用文功能,還仍沒辦法明確地證明 [12];儘管如此,仍有不少研究者投入這項研究,尋找更具說服力的方法與可能性。
2.1.2 引用文索引(Citation Index)
引用文在學術文件間可視作一種關聯性上的連結,為了利用這種連結架構來搜尋相 關的文件群,早期便有了引用文索引這類工具的研究[13]。到了近期,藉由全自動引用 文索引線上搜尋工具,例如 Citeseer[1]和 Google Scholar,研究者可以輕易地蒐集具有某 種共通關聯的學術文件。另外,為了能尋找引用同一篇引用文的文件,便產生了共引用 分析(co-citation analysis),藉此我們可以從兩篇文獻的共同引用數目來衡量關聯強度,
例如在[14] 中,Strohman 等人將文件間共引用的資訊視作一種特徵,讓搜尋系統在使用 者輸入一份文件資料後,可以獲知這份文件中哪些引用文具有較高閱讀價值。Meij 與 de Rijke 則在語言模組中,利用引用次數(citation counts)來衡量相關文件的事前機率(prior probability) [15]。
2.2 頭字語分析 (Acronyms)
頭字語(acronyms),也稱首字母縮略字,是由其他一連串單字的第一個字母所組成 的字 [16],用以代表原本冗長的實體名稱,本篇論文中我們以“全名”來稱呼這個實體名 稱,例如“CPU”即是代表全名為“Central Processing Unit”的頭字語。目前學界對頭字語的 主要研究工作可分為兩類:第一類是探討頭字語的組成特性,以辨認並取出文本中頭字 語為主。由於目前頭字語的組成方式複雜化,已不再單純由第一個字母組成,而可能從
全 名 中 其 他 位 置 擷 取 有 意 義 的 片 段 字 母 加 以 組 成 , 於 [17] 中 Larkey 等 學 者 提 出 contextual、 canonical、 canonical/contextual 以及 simple canonical 這四類演算法,來針 對不同特性(比如是否包含小寫字母)的頭字語進行辨認。第二類是頭字語辨識(acronym identification),目的是取得文本中包含的頭字語與其全名[18],其中也包含將頭字語還 原成全文型態的擴展(acronym expansion)這項重要議題。另外也因為頭字語多樣的組成 範疇,導致同一全名可能擁有不同長度的頭字語、或不同全名擁有相同的頭字語的狀況 發生,是這議題最需要克服的難題[19]。 [20]中利用頭字語-全名對照表,來實現一種利 用各式預先訂好的限制條件來尋找頭字語並配上適合的全名,這方法在辨識那些沒有成 對出現的頭字語或全名時,特別有效。
文獻中重要的技術或理論,其全名在第一次出現時,通常會搭配一個括號附註其頭 字語寫法,以方便後續內容的撰寫。本篇實驗將利用這個特性來尋找文本中與內容具高 度相關性的頭字語。
2.3 文件分類 (Document Classification)
由於現代資訊數位化的影響,文件數量增長過大而不再適合以人工方式進行分類,
因此文件分類此一議題更顯重要。文件分類,顧名思義,指的是依照文件內容來歸類成 數個類別。目前除了字面上的用途,也普遍應用於電子郵件或全球資訊網頁的管理上。
在學術界中,則提供了提供一種篩選及統整文件的方式,讓研究者們能更有效率地找到 相關學術文件群。文件分類在方法主要可以歸類為兩大類:第一種是以關鍵字為基礎 (keyword-based),以事先定義好的關鍵字彙資料庫來對文件進行比對並分類,為較傳統 的方式。不過現今學界以第二種、也就是以內容為基礎(content-based)或以特徵為基礎 (feature-based)的文件分類[21]研究居多。這類技術使用特殊的演算法,從文件中分析並 擷取出足以代表這份文件的特徵集合(例如文字出現頻率、文本架構乃至於圖片),並依 此作分類。最普遍的為 Salton 等人在[22]中提出的 TF*IDF,藉由計算字彙在個別文件與 所有文件中出現頻率這兩種值,來判斷這個字彙對這份文件是否具代表性。另外 Bader
Aljaber 等人在[23]中,提到藉由“bag-of-words model”這種標籤分類機制與分群法的組 合,有助於將含有特殊關鍵字且與研究之主題高度相關的文件篩選出來。另外也有 Small 等人結合前幾節所述引文架構,應用到開發對資料庫文件進行分類的系統中[24]。