引文與共同引文分析

第三章實驗方法

3.3 引文與共同引文分析

本章節所處理的文件，為經過 3.2 章節刪減後的子文件集合。我們希望從這些具有滿足我們實驗目的可能性的文件中，藉由引用文分析找出他們彼此關聯性以及有幫助的引用文。我們認為在未來，當研究者探討或使用這些子文件時，這些關聯性或引用文，能提供研究者選讀上的依據、或關於子文件理解及實作上的支援，更進一步地提升文獻探討的效率。

3.3.1 各文件參考文件列表

目前學術文件的參考文件列表標籤主要分為三種類型：

[編號] 引用文資訊

例：[3] Simone Teufel , Advaith Siddharthan and Dan Tidhar. 2006. “Automatic Classification of citation function”. In Proc. of EMNLP 2006, pages 103–110.

編號. 引用文資訊

例：1. Simone Teufel , Advaith Siddharthan and Dan Tidhar. 2006. “Automatic Classification of citation function”. In Proc. of EMNLP 2006, pages 103–110.

引用文資訊 (沒有任何標籤)

例：Simone Teufel , Advaith Siddharthan and Dan Tidhar. 2006. “Automatic Classification of citation function”. In Proc. of EMNLP 2006, pages 103–110.

在文件讀取至參考文件列表起始位置後，我們逐一地將各個引用文組合並依序儲存起來。前兩種參考文件格式皆能依靠標籤來辨識引用文開頭與結束的地方，第三類型則需依靠該行是否出現作者姓名的方式來判斷。

例：Andrews, D., P. Bickel, F. Hampel, P. Huber, W. Rogers and J. Tukey (1972)…

例：Zhang D, Pal SK (2002)…

我們在觀察後數十份文件後，統整出如下作者姓名格式，作為檢查字串中是否包含作者資訊的依據：

[upper_letter] [,|.] [not letters]

即是說，只要有連續字元滿足“大寫字母後接著逗號或點，然後再下一個字元不為英文字母”的格式，便可認定該字串包含作者姓名。將這第三類型的文件參考列表分析結果與原文本對照，我們的方法準確度為平均每份文件漏失一篇以下的引用文。

此外，部分文件在參考文件列表後尚有其他資料，如附錄或圖表，因此有時會被誤判而視作該份文件的參考文件之一。

3.3.2 尋找引用文標題

為了之後方便比對子文件間是否具備引用關聯性或有共同的引用文，必頇先將參考文件列表陣列的引用文資料簡化，僅僅留下標題部分作為識別，而之後在比對不同文件間引用文時，也將根據標題是否相同來作判斷。由於參考文件列表中引用文的撰寫格式相當多樣，間隔方式或使用的標點符號也不盡相同，而造成參考文件語法分析器 (reference parser)研究者的困擾。但因為本篇實驗中只需切出標題這部分，因此以簡單的方式去分析取得即可。

輸入：參考文件列表陣列每項欄位中的字串初始化：Title_Flag = 0

步驟一、如果字串包含(“ , ”)、(`` , ’’)任一對符號，截取夾在符號中間的字串即為標題，Title_Flag = 1。若含兩對以上則截取第一對步驟二、

1. 找尋字串中首組未有標點符號間隔的連續三個(或以上)單字例：H. Frigui and R. Krishnapuram, Clustering by Competitive Agglomeration,…

例：H. Frigui and R. Krishnapuram, Clustering by Competitive Agglomeration,…

2. 檢查該組連續字串是否：

i. 開頭不為小寫字母，否則該組字串無效，返回 1.繼續尋找(標題部分首位字母必為大寫)

例：Z Zhang, R Deriche, O Faugeras, and QT Luong,…

ii. 末端單字不符合作者姓氏格式，否則該組字串無效，返回 1.繼續尋找

例：Z. Zhang, R. Deriche, O. Faugeras and Q. T. Luong,…

iii. 標點符號除外的末端字元不為數字，否則該組字串無效，返回 1.繼續尋找

iv. 滿足上三項條件且不包含逗號(,)，或包含逗號但連續單字數大於二、且逗號前字母為小寫，則 Title_Flag = 1，表示找到標題字組了

└有標點符號間隔

└連續三字且無標點符號間隔

步驟三、

1. 如果 Title_Flag = 1，整理標題字串：

i. “-”的處理，連接兩關聯單字或文件中行尾單字過長而被斷至次行的情形

例：Semi-unsupervised，則保留“-”

例：Clustering by Competitive Agglo-meration，需去除“-”

ii. 去除頭尾的標點符號

iii. 去除開頭為年份。處理下述格式的參考文件列表：

例： H. Frigui and R. Krishnapuram, (1997) Clustering by Competitive Agglomeration, …

iv. 去除開頭為作者名。處理下述格式的參考文件列表：

例：H. Frigui and R. Krishnapuram: Clustering by Competitive Agglomeration, …

2. 如果 Title_Flag = 0，表示在步驟二未能找到標題。主要原因有兩個：

該欄位非屬於參考文件列表內容(附錄或頁面註解)，或標題僅由兩個單字組成。但在此皆視作後者進行處理：

i. 以點和逗點兩種符號對字串進行切割

ii. 檢查切段是否開頭為大寫字母且末端單字不符合作者姓氏格式 iii. 切段長度是否大於 9。在使用的三組測資中，我們所發現最短的

引用文標題為 10 字(“Fuzzy sets”;1965)，作為最低長度閾值。

iv. 若切段滿足 ii 和 iii 兩項條件，則視為找到標題字組，否則不予理會

步驟四、找到標題字組的話，回存參考文件陣列同欄位

3.3.3 建立引用關係表

符合實驗目的的子文件中，彼此也可能有承先啟後的關聯性；我們以暴力法直接將子文件的標題和所有參考文件列表中的引用文標題(除了所屬自己以外)作比對，並整理成如表 3-1 範例格式。D 為篩選後的子文件集合，上方橫向欄位是被集合中其他文件引用的子文件，左方縱向則為引用方。舉例說，範例中的 D₁引用了 D₃和 D₁₀兩份文件。

藉由觀察這些文件間的引用關係，有助於我們衡量文件的重要性。

表 3-1：子文件間引用關係表格範例 D1 D3 D5 D10

D1 0 1 0 1

D₅ 0 1 0 1

D₉ 1 0 1 1

3.3.4 建立共引用關係表

符合實驗目的的子文件間可能存在共同的引用文，而這些引用文之中，或許存在一些有用的訊息，在研究者將來實際應用根文獻時能作為觀念和技術上的輔助、或提供相關資訊，因此我們嘗詴以共引用分析的方法來找出這類引用文。在這部分我們同樣以暴力法直接檢查，從參考文件陣列的最上方第一個欄位開始，每行的欄位都會與其下方所有欄位作比較；若發現相同標題，則將該欄位標上記號，之後比對時跳過該項。共引用關係表為一布林陣列，行數為被共引用的引用文總數；列數為符合實驗目的的子文件總數。

在文檔中藉頭字語與引用文分析追蹤技術發展 (頁 22-27)

第三章 實驗方法

3.3 引文與共同引文分析

第三章實驗方法