• 沒有找到結果。

引文與共同引文分析

第三章 實驗方法

3.3 引文與共同引文分析

本章節所處理的文件,為經過 3.2 章節刪減後的子文件集合。我們希望從這些具有滿 足我們實驗目的可能性的文件中,藉由引用文分析找出他們彼此關聯性以及有幫助的引 用文。我們認為在未來,當研究者探討或使用這些子文件時,這些關聯性或引用文,能 提供研究者選讀上的依據、或關於子文件理解及實作上的支援,更進一步地提升文獻探 討的效率。

3.3.1 各文件參考文件列表

目前學術文件的參考文件列表標籤主要分為三種類型:

[編號] 引用文資訊

例:[3] Simone Teufel , Advaith Siddharthan and Dan Tidhar. 2006. “Automatic Classification of citation function”. In Proc. of EMNLP 2006, pages 103–110.

編號. 引用文資訊

例:1. Simone Teufel , Advaith Siddharthan and Dan Tidhar. 2006. “Automatic Classification of citation function”. In Proc. of EMNLP 2006, pages 103–110.

引用文資訊 (沒有任何標籤)

例:Simone Teufel , Advaith Siddharthan and Dan Tidhar. 2006. “Automatic Classification of citation function”. In Proc. of EMNLP 2006, pages 103–110.

在文件讀取至參考文件列表起始位置後,我們逐一地將各個引用文組合並依序儲存 起來。前兩種參考文件格式皆能依靠標籤來辨識引用文開頭與結束的地方,第三類型則 需依靠該行是否出現作者姓名的方式來判斷。

例:Andrews, D., P. Bickel, F. Hampel, P. Huber, W. Rogers and J. Tukey (1972)…

例:Zhang D, Pal SK (2002)…

我們在觀察後數十份文件後,統整出如下作者姓名格式,作為檢查字串中是否包含 作者資訊的依據:

[upper_letter] [,|.] [not letters]

即是說,只要有連續字元滿足“大寫字母後接著逗號或點,然後再下一個字元不為英文 字母”的格式,便可認定該字串包含作者姓名。將這第三類型的文件參考列表分析結果 與原文本對照,我們的方法準確度為平均每份文件漏失一篇以下的引用文。

此外,部分文件在參考文件列表後尚有其他資料,如附錄或圖表,因此有時會被誤 判而視作該份文件的參考文件之一。

3.3.2 尋找引用文標題

為了之後方便比對子文件間是否具備引用關聯性或有共同的引用文,必頇先將參考 文件列表陣列的引用文資料簡化,僅僅留下標題部分作為識別,而之後在比對不同文件 間引用文時,也將根據標題是否相同來作判斷。由於參考文件列表中引用文的撰寫格式 相當多樣,間隔方式或使用的標點符號也不盡相同,而 造成參考文件語法分析器 (reference parser)研究者的困擾。但因為本篇實驗中只需切出標題這部分,因此以簡單的 方式去分析取得即可。

輸入:參考文件列表陣列每項欄位中的字串 初始化:Title_Flag = 0

步驟一、如果字串包含(“ , ”)、(`` , ’’)任一對符號,截取夾在符號中間 的字串即為標題,Title_Flag = 1。若含兩對以上則截取第一對 步驟二、

1. 找尋字串中首組未有標點符號間隔的連續三個(或以上)單字 例:H. Frigui and R. Krishnapuram, Clustering by Competitive Agglomeration,…

例:H. Frigui and R. Krishnapuram, Clustering by Competitive Agglomeration,…

2. 檢查該組連續字串是否:

i. 開頭不為小寫字母,否則該組字串無效,返回 1.繼續尋找(標題 部分首位字母必為大寫)

例:Z Zhang, R Deriche, O Faugeras, and QT Luong,…

ii. 末端單字不符合作者姓氏格式,否則該組字串無效,返回 1.繼續 尋找

例:Z. Zhang, R. Deriche, O. Faugeras and Q. T. Luong,…

iii. 標點符號除外的末端字元不為數字,否則該組字串無效,返回 1.繼續尋找

iv. 滿足上三項條件且不包含逗號(,),或包含逗號但連續單字數大於 二、且逗號前字母為小寫,則 Title_Flag = 1,表示找到標題字組 了

└有標點符號間隔

└連續三字且無標點符號間隔

步驟三、

1. 如果 Title_Flag = 1,整理標題字串:

i. “-”的處理,連接兩關聯單字或文件中行尾單字過長而被斷至次 行的情形

例:Semi-unsupervised,則保留“-”

例:Clustering by Competitive Agglo-meration,需去除“-”

ii. 去除頭尾的標點符號

iii. 去除開頭為年份。處理下述格式的參考文件列表:

例 : H. Frigui and R. Krishnapuram, (1997) Clustering by Competitive Agglomeration, …

iv. 去除開頭為作者名。處理下述格式的參考文件列表:

例:H. Frigui and R. Krishnapuram: Clustering by Competitive Agglomeration, …

2. 如果 Title_Flag = 0,表示在步驟二未能找到標題。主要原因有兩個:

該欄位非屬於參考文件列表內容(附錄或頁面註解),或標題僅由兩個 單字組成。但在此皆視作後者進行處理:

i. 以點和逗點兩種符號對字串進行切割

ii. 檢查切段是否開頭為大寫字母且末端單字不符合作者姓氏格式 iii. 切段長度是否大於 9。在使用的三組測資中,我們所發現最短的

引用文標題為 10 字(“Fuzzy sets”;1965),作為最低長度閾值。

iv. 若切段滿足 ii 和 iii 兩項條件,則視為找到標題字組,否則不予 理會

步驟四、找到標題字組的話,回存參考文件陣列同欄位

3.3.3 建立引用關係表

符合實驗目的的子文件中,彼此也可能有承先啟後的關聯性;我們以暴力法直接 將子文件的標題和所有參考文件列表中的引用文標題(除了所屬自己以外)作比對,並整 理成如表 3-1 範例格式。D 為篩選後的子文件集合,上方橫向欄位是被集合中其他文件 引用的子文件,左方縱向則為引用方。舉例說,範例中的 D1引用了 D3和 D10兩份文件。

藉由觀察這些文件間的引用關係,有助於我們衡量文件的重要性。

表 3-1:子文件間引用關係表格範例 D1 D3 D5 D10

D1 0 1 0 1

D5 0 1 0 1

D9 1 0 1 1

3.3.4 建立共引用關係表

符合實驗目的的子文件間可能存在共同的引用文,而這些引用文之中,或許存在一 些有用的訊息,在研究者將來實際應用根文獻時能作為觀念和技術上的輔助、或提供相 關資訊,因此我們嘗詴以共引用分析的方法來找出這類引用文。在這部分我們同樣以暴 力法直接檢查,從參考文件陣列的最上方第一個欄位開始,每行的欄位都會與其下方所 有欄位作比較;若發現相同標題,則將該欄位標上記號,之後比對時跳過該項。共引用 關係表為一布林陣列,行數為被共引用的引用文總數;列數為符合實驗目的的子文件總 數。

相關文件