第二章 文獻探討
2.4 本章總結
國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
字彙的可能的搭配詞組合供學習者使用,這對字彙學習與英語學術寫作上能提供及時且實用 的幫助。
在搭配詞的使用上,Verb - Noun 組合的搭配詞是 EFL 學習者最容易犯錯的一種類型,
即使對以英語為母語的 Native Speaker 學習者來說也是如此[28]。此外,在搭配詞內容的組 成之中,由於搭配詞本身對於時態的限制相當嚴格,因此動詞成了學習者最容易犯錯的字 彙 ,故 Verb - Noun 搭配詞也是學習者在學習搭配詞時覺得最為困難的一環。
2.4 本章總結
在英語教學及英語學術寫作的研究上至目前為止已有許多成效,但本文認為仍然有許 多值得探究的空間。以學術字彙列表AWL 為例,AWL 是以改良 UWL 而來,字彙量也從原 本的800 多字精減而至 570 字。然而學術字彙列表本身開發的目的,是希望在英語的教學上 能起到顯著的功效而提供給英語學習者的優先學習字彙,因此必須同時考慮到使用頻率以及 涵蓋率。但在一般的英語學術寫作中,AWL 則有部份字彙在使用上的機率則相當低,相對 的其搭配詞組合也相對減少,如此來說這些字彙在學術寫作上能提供的幫助有限。本研究的 目的,便是希望能夠補足在學術寫作應用時學術字彙列表的不足,並提供真實狀況下常用的 搭配詞組合,讓 EFL 作者在進行學術寫作時,有更豐富的論述表達方式與正確的寫作風 格。
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
第三章
研究方法
本文前兩章觀察到在學術寫作上現行學術字彙列表的不足,以及期待能提供 EFL 作者 在寫作時於學術字彙與搭配詞的使用上有較適當的參考目標。接下來本章將探討以關鍵詞擷 取技術輔佐關鍵詞分析模型的使用,抽取出一般性學術共通寫作詞彙的方法。下圖為本章研 究方法的流程圖,本章以下各節依照此流程圖之順序進行研究步驟。
圖 3-1 研究方法之流程架構圖
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
3.1 語料庫設計
本文的研究目的,除了抽取出跨領域通用的學術寫作字彙外,並且能夠明顯各領域之 間字彙使用上的差異。為了達到上述目的,在語料庫設計部份,則分別說明如下:
I. 首先是內容選擇的部份。學術寫作字彙可常見於一般學術課本教材、學術性雜 誌、會議期刊論文以及畢業論文等。在內容的編排,教材與雜誌因其讀者眾多 而採用較淺顯易懂的描述,字彙與搭配詞分佈也較為鬆散,而會議期刊與學位 論文,強調用字精確,論述簡扼,學術寫作字彙分佈集中,故以期刊與學位論 文為主。 而資料來源的收集,國內是從各大學所建構之機構典藏與國家圖書 館提供的資源下載,國外部份則是以各校圖書館所購置的學術論文資料庫而 得,全語料庫由420 篇文章組成。
II. 其次是跨領域部份的設計。為了強調跨領域的部份,則需至少由三個領域以 上,彼此間能夠相互交集印證,得出的結果也較為客觀。領域以本文研究相關 的Computer Science(CS)、English Learning & Teaching(ELT)之外,再加入用詞 高度專門術語化的 Medical 領域(MED),每個領域分別保有 140 篇學術論文,
以此比較得出的結果是否為通用性的字彙。
III. 內容組成的部份,以學術論文為中心,其中包括期刊論文、碩士論文和博士論 文三種。分別取臺灣、日本及美國三個地區的學術論文。美國學術論文為 NS 作者的代表,並收集其博士論文,藉由大量統計與寫作深度較高的內容構成分 析出的結果,能夠作為 EFL 作者的參考。臺灣與日本學術論文的內容,是碩 士論文與期刊論文各半,日本部份則是同為 EFL 作者的臺灣之對照。數量上 臺灣日本則分別為 120 篇(期刊論文與碩士論文各 60 篇),美國部份為 180 篇 (全為博士論文)。
IV. 資料內容的選取。學術論文經過收集之後,必須將原本的 PDF 檔案格式轉換 成 TXT 文字檔,並且將文章中的各種大小標題、圖表及參考文獻等內容移 除,只保留摘要以及內文部份。移除文章中的標題目的在於,如 method、
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
conclusion 等詞彙經常被用在標題之中。若標題不移除此類詞彙的頻率便會偏 高,會影響其他詞彙的頻率統計結果,況且此類字彙多已列在 AWL 之中,移 除對本研究並無太大的影響。
綜合以上各點可知,語料庫在預先的設計上由三個領域及三個國家共九個集合,目的是藉由 兩種維度不同的交叉分析,得到不同性質的分析結果。如圖 3.2 所示,縱向箭頭表示可從單 一國家來看各國學術寫作特性,也可結合臺日兩國家(English as Foreign Language, EFL)與美 國(Native Speaker, NS)做比較。橫向箭頭則是依照領域來看各領域學術寫作特性,可就單一 國家領域探討其特性,也可結合三國家的 CS 領域發掘 CS 領域特有的常用學術字彙。而總 和九個象限一起綜合探討,就成為本文研究主題,學術寫作中通用的字彙特性,九個象限中 的數字則代表該國該領域下的學術論文數量。
圖3-2 語料庫結構特性分析
3.2 關鍵詞擷取 - PoS Tag Patterns
從第二章關鍵詞擷取相關文獻研究可知,關鍵詞擷取的最終目的,是從大量資訊之中 抽取出可代表此資訊集合的詞彙,故此詞彙是包含主題中心的或是領域共通的資訊。本研究 目的則是追求在學術寫作中頻繁使用的字彙,故需先了解此學術寫作字彙的特性,針對其特 性而推演出適合的擷取方式,而此學術字彙是在補學術字彙列表(AWL, Academic Word List) 之不足,兩者性質類似,因此我們可以從 AWL 的特性進行分析。在 Coxhead 的研究中,強
‧
與分析使用,並支援多種作業系統平台。本文以 NLTK 為中心設計了一套擷取相關 Patterns 的演算法,將語料庫依照領域分隔,依照文章的句點分隔句子當作擷取的基本單位,每句分 pattern,必需考慮到這些附屬的詞性出現在兩者之間。然而第三種和第四種 pattern 中間也不 能夾雜名詞或動詞出現,如果出現如 NNV 組合的狀況,演算法會將此組合視為第二種 pattern 而只擷取接連出現的 NV pattern。下圖3.3 為演算法詳細內容。整個演算法可分為三個部份,首先是語料庫的預先處理。
語料庫名稱定義成 AcademicThesisCorpus,對於語料庫內的所有文件,我們以句點分隔的 sentences 作為擷取的最小單位,在迴圈 sentences 中的每個 sent,以一個單字作為一個 token,token 則是自然語言處理程序中的最小可識別單元,所有程序執行都以 token 為基
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
礎,故接下來的步驟包含詞性標註(PoS Tagging)與詞形還原(Lemmatization)都以單一字彙執 行。在此採用詞形還原而不使用詞根還原(Stemming)的原因是,為了正確統計使用字彙的頻 率而採取了還原的步驟,但詞根還原會破壞掉字彙本身的原始形式統一還原為字根(root),
在統計上會導致多形式的字彙統計錯誤,與研究目的找出精確的字彙使用上分岐,故採用詞 形還原。
圖 3-3 Custom PoS Tag Patterns Algorithm
第二部份則是關鍵詞擷取的文法定義。文法本身是依照正規表示式(Regular Expression) 中定義的方式將詞性標籤進行組合,在此文法名稱為 CPTP。CPTP 下擷取兩種 pattern(#2 與
#3)。#2 所定義的詞性組合,以動詞為首以名詞結尾,無論是何種形態的動詞或名詞皆可。
動詞和名詞之中,以一般較常見的形式,副詞(RB)在動詞後修飾動詞、形容詞(JJ)在名詞前
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
修飾名詞、代名詞(PP)在名詞前修飾主詞或名詞、名詞前出現機率相當高的限定詞(DT)以及 介系詞(IN 與 TO)表達關係等,都是可允許出現的詞性,問號(?)表示上述詞性可出現或不出 現,因此#2 可分別代表前述第二種與第四種 patterns,#3 代表了第一種與第三種 patterns 的 組合。最後的部份則依照定義的文法遞迴式的將整個語料庫中符合文法的 patterns 作為關鍵 詞擷取出來。此外,由於擷取是以整個句子作為擷取的基本單位,故有可能某種 pattern 符 合#2 的 NV 組合,而其後面的 V 又與之後相連的 N 行程符合#2 的 pattern 狀況,雖說 V 的 部份是重複計算其頻率,但後續的分析,會回歸到單個字彙在語料庫象限中的頻率計算,故 此方法不會造成誤差。
根據上述演算法擷取出來的 patterns 過濾掉非擷取目的其他詞性,將結果所得之 patterns 列表拆分為單字的集合,同時將名詞與動詞分開處理,並依領域計算其詞頻,此列 表為初步研究方法得出之領域別學術寫作字彙的候選詞。我們依據此候選詞列表作為形態分 析模型的輸入,同時根據每個分析模型指標的特性,交叉分析得到最終的學術寫作字彙。下 表3. 1 為不同領域的候選詞數量資訊。
候選詞數 \ 領域別 CS ELT MED
名詞數量 1104 1622 1689
動詞數量 719 753 709
表 3-1 由 CPTP algorithm 擷取出之各領域學術寫作字彙候選詞
3.3 形態分析模型套用
在本文第 2. 2. 4 節 Dutta[18]的研究中,集結了各種關鍵詞的定義後提出了關鍵詞本身 是能代表某個領域或是論述範圍的詞彙,並且設計八種指標,依照每個指標所代表趨勢的不 同,關鍵詞的特徵也有所不同。而指標中代表的所有關鍵詞特徵如下所示:
I. 主題中心的 II. 主題共通的
‧ 國
立 政 治 大 學
‧
Na tiona
l Ch engchi University
III. 輔助性質的
Dutta 同時強調,關鍵詞本身的屬性在整個主題空間下所代表的意義。就整個研究主題空間 來看,Fr 為字彙出現頻率,代表的是關鍵詞在空間上的表現狀態;Ar 則是文件發生頻率,代 表著關鍵詞在時間上的表現狀態;而 Nr 為空間內總關鍵詞數量總和,可作為整個研究主題空 間中能量分佈的表現。也因此,經由這些代表著不同關鍵詞屬性的變數的計算,引出關鍵詞 在研究主題空間的特徵表現。
本研究則以Dutta 提出的指標分析模型為基礎,針對不同領域下的語料庫候選詞進行指 標分析計算。但在基礎假設下本研究與 Dutta 的研究有所不同,必需分析其不同之處,才能
本研究則以Dutta 提出的指標分析模型為基礎,針對不同領域下的語料庫候選詞進行指 標分析計算。但在基礎假設下本研究與 Dutta 的研究有所不同,必需分析其不同之處,才能