第三章 實驗方法
3.2 頭字語搜尋與處理
3.2.1 搜尋頭字語
頭字語在文件中第一次提及時,通常以 Full-name (acronyms)的型式被介紹[26],例 如:“We present a new clustering algorithm called Robust Competitive Agglomeration (RCA).”。我們希望僅取出文件中的主體技術名稱,除此外的不必要資訊越少越好;基於 這個緣故,我們只對括號內的字串進行是否為頭字語的判斷:
於句子中找到左括號後,在遇到右括號前:
以空格為區隔,找到包含連續三個以上大寫字母的連續字元
搜尋範圍不超過左括號的六個字元,但遇到空格重新計算
當滿足上述兩項條件時,直接中斷搜尋並將該連續字元視為頭字語。
為了避免搜尋到過多不需要的頭字語,導致實驗結果產生偏差,我們將搜尋範圍限 制在標題和摘要部份。除了這項根本因素外,根據人工分類時的觀察,我們制定這項限 制的理由尚有:
i. 文件本身主體技術和發展基礎技術多會在摘要部份便提及。
ii. Introduction 章節雖然也會提及,但同時更包含大量無助於實驗結果的資訊。對 頭字語占有重要地位的本實驗來說,是最需要迴避的區塊。
iii. 只有極其少數的文件會於方法等章節才首次介紹文件主體技術的頭字語(約十 幾分之一的機率)。由於這類章節多有一定份量的內容,與根本因素相衡量下,
我們也迴避這個區塊。
iv. 實驗結果與分析比較這類章節的內容,明顯地和我們的實驗目的較無關聯。
v. 文件中最後對整篇研究作總結的章節,除了章節標題類型繁多、導致不易判定 起始行數這項變因外,文件主體技術頭字語在這章節宣告卻未於摘要提起的情 況,也是極其少數。另外由於這章節有回顧論文所有工作的特性,文件中許多 不符合實驗需求的頭字語會在此重新提起,而這也違反了前述根本因素考量。
在後面的 4-1 章節中,我們也會驗證這些想法,並証明將搜尋範圍限制在摘要是最適合 本實驗的作法。
3.2.2 頭字語篩選
舉凡各式研究中的新技術,在吸收基礎技術優點同時,也會繼承其演算法特性。尤 其是以改良或延伸某項固有技術為目的者,在名稱上更容易出現與前項技術相似之處,
比如一些暗示著前項技術特性的關鍵單字。舉例來說:建立在 Competitive Agglomeration (CA)之上的 Robust Competition algorithm(RCA)、Competitive Agglomeration for Relation DATA (CARD),皆能明顯看出同原技術演算法中“competition”的特性。在本篇實驗,將 利用這個現象來篩選於 3.2.1 所記錄下的頭字語集合,希望藉此留下較可能與根文獻技 術有關聯的頭字語。篩選主要有兩個階段,各階段規則如下:
篩選所需資訊:根文獻技術名稱 Droot與頭字語 Aroot,由使用者提供 例:“Competitive Agglomeration”和“CA”
第一階段:去除掉與 root_arc 沒有相同字母的頭字語
第二階段:對所有頭字語,檢察其全名是否包含與 Droot或 Aroot相同或類似的 單字,若有兩字以上相同便予以保留
例:(CA) competitive agglomeration
(RCA) robust competitive agglomeration 例:(PCM) possibilistic c-means
(RPCM) robust PCM
附註:兩個單字相似度計算方式 例:competition 與 competitive 作比對
相似度 = (相同部分長度/比對目標字串長度) = 9/11 ≒ 0.82 於本實驗中若相似度大於 65%,我們視為相同的字。
3.2.3 以頭字語和根文獻技術關鍵字作文件篩選
若文件不包含任一通過篩選的頭字語,將被從子文件集合中剔除。
例:於子文件 Fully automatic clustering system 中僅找到頭字語集合{FACS},但 FACS 不包含於通過篩選的頭字語集合中,因此該篇文件將被過濾掉。
例:子文件 Coherence criterion for region labelling and description 中包含頭字語集合 {ARC},且 ARC 屬於通過篩選的頭字語,因此該文件將會存留下來。
並非所有作者皆習慣使用頭字語,或特意在著作中自行創造新的頭字語使用。但如 同 3.2.1 開頭所述,不只技術名稱,標題中有時也會隱藏著線索。因此在利用頭字語過 濾文件的同時,我們以 3.2.2 第二階段的規則檢查文件的標題,希望藉此留下更多有用
的文件。
例:在 Improved possibilistic c-means clustering algorithms 中僅以“Improved PCM”來稱 呼內容所述技術,而非其他文件所提的 IPCM。但我們可於標題中的 possibilistic c-means 發覺文件與根文獻技術 PCM 的關聯性。