本章總結 - 文獻探討 - 以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究

第二章文獻探討

2.4 本章總結

國

立政治大學

‧

Na tiona

l Ch engchi University

字彙的可能的搭配詞組合供學習者使用，這對字彙學習與英語學術寫作上能提供及時且實用的幫助。

在搭配詞的使用上，Verb - Noun 組合的搭配詞是 EFL 學習者最容易犯錯的一種類型，

即使對以英語為母語的 Native Speaker 學習者來說也是如此[28]。此外，在搭配詞內容的組成之中，由於搭配詞本身對於時態的限制相當嚴格，因此動詞成了學習者最容易犯錯的字彙，故 Verb - Noun 搭配詞也是學習者在學習搭配詞時覺得最為困難的一環。

2.4 本章總結

在英語教學及英語學術寫作的研究上至目前為止已有許多成效，但本文認為仍然有許多值得探究的空間。以學術字彙列表AWL 為例，AWL 是以改良 UWL 而來，字彙量也從原本的800 多字精減而至 570 字。然而學術字彙列表本身開發的目的，是希望在英語的教學上能起到顯著的功效而提供給英語學習者的優先學習字彙，因此必須同時考慮到使用頻率以及涵蓋率。但在一般的英語學術寫作中，AWL 則有部份字彙在使用上的機率則相當低，相對的其搭配詞組合也相對減少，如此來說這些字彙在學術寫作上能提供的幫助有限。本研究的目的，便是希望能夠補足在學術寫作應用時學術字彙列表的不足，並提供真實狀況下常用的搭配詞組合，讓 EFL 作者在進行學術寫作時，有更豐富的論述表達方式與正確的寫作風格。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

第三章

研究方法

本文前兩章觀察到在學術寫作上現行學術字彙列表的不足，以及期待能提供 EFL 作者在寫作時於學術字彙與搭配詞的使用上有較適當的參考目標。接下來本章將探討以關鍵詞擷取技術輔佐關鍵詞分析模型的使用，抽取出一般性學術共通寫作詞彙的方法。下圖為本章研究方法的流程圖，本章以下各節依照此流程圖之順序進行研究步驟。

圖 3-1 研究方法之流程架構圖

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

3.1 語料庫設計

本文的研究目的，除了抽取出跨領域通用的學術寫作字彙外，並且能夠明顯各領域之間字彙使用上的差異。為了達到上述目的，在語料庫設計部份，則分別說明如下：

I. 首先是內容選擇的部份。學術寫作字彙可常見於一般學術課本教材、學術性雜誌、會議期刊論文以及畢業論文等。在內容的編排，教材與雜誌因其讀者眾多而採用較淺顯易懂的描述，字彙與搭配詞分佈也較為鬆散，而會議期刊與學位論文，強調用字精確，論述簡扼，學術寫作字彙分佈集中，故以期刊與學位論文為主。而資料來源的收集，國內是從各大學所建構之機構典藏與國家圖書館提供的資源下載，國外部份則是以各校圖書館所購置的學術論文資料庫而得，全語料庫由420 篇文章組成。

II. 其次是跨領域部份的設計。為了強調跨領域的部份，則需至少由三個領域以上，彼此間能夠相互交集印證，得出的結果也較為客觀。領域以本文研究相關的Computer Science(CS)、English Learning & Teaching(ELT)之外，再加入用詞高度專門術語化的 Medical 領域(MED)，每個領域分別保有 140 篇學術論文，

以此比較得出的結果是否為通用性的字彙。

III. 內容組成的部份，以學術論文為中心，其中包括期刊論文、碩士論文和博士論文三種。分別取臺灣、日本及美國三個地區的學術論文。美國學術論文為 NS 作者的代表，並收集其博士論文，藉由大量統計與寫作深度較高的內容構成分析出的結果，能夠作為 EFL 作者的參考。臺灣與日本學術論文的內容，是碩士論文與期刊論文各半，日本部份則是同為 EFL 作者的臺灣之對照。數量上臺灣日本則分別為 120 篇(期刊論文與碩士論文各 60 篇)，美國部份為 180 篇 (全為博士論文)。

IV. 資料內容的選取。學術論文經過收集之後，必須將原本的 PDF 檔案格式轉換成 TXT 文字檔，並且將文章中的各種大小標題、圖表及參考文獻等內容移除，只保留摘要以及內文部份。移除文章中的標題目的在於，如 method、

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

conclusion 等詞彙經常被用在標題之中。若標題不移除此類詞彙的頻率便會偏高，會影響其他詞彙的頻率統計結果，況且此類字彙多已列在 AWL 之中，移除對本研究並無太大的影響。

綜合以上各點可知，語料庫在預先的設計上由三個領域及三個國家共九個集合，目的是藉由兩種維度不同的交叉分析，得到不同性質的分析結果。如圖 3.2 所示，縱向箭頭表示可從單一國家來看各國學術寫作特性，也可結合臺日兩國家(English as Foreign Language, EFL)與美國(Native Speaker, NS)做比較。橫向箭頭則是依照領域來看各領域學術寫作特性，可就單一國家領域探討其特性，也可結合三國家的 CS 領域發掘 CS 領域特有的常用學術字彙。而總和九個象限一起綜合探討，就成為本文研究主題，學術寫作中通用的字彙特性，九個象限中的數字則代表該國該領域下的學術論文數量。

圖3-2 語料庫結構特性分析

3.2 關鍵詞擷取 - PoS Tag Patterns

從第二章關鍵詞擷取相關文獻研究可知，關鍵詞擷取的最終目的，是從大量資訊之中抽取出可代表此資訊集合的詞彙，故此詞彙是包含主題中心的或是領域共通的資訊。本研究目的則是追求在學術寫作中頻繁使用的字彙，故需先了解此學術寫作字彙的特性，針對其特性而推演出適合的擷取方式，而此學術字彙是在補學術字彙列表(AWL, Academic Word List) 之不足，兩者性質類似，因此我們可以從 AWL 的特性進行分析。在 Coxhead 的研究中，強

‧

與分析使用，並支援多種作業系統平台。本文以 NLTK 為中心設計了一套擷取相關 Patterns 的演算法，將語料庫依照領域分隔，依照文章的句點分隔句子當作擷取的基本單位，每句分 pattern，必需考慮到這些附屬的詞性出現在兩者之間。然而第三種和第四種 pattern 中間也不能夾雜名詞或動詞出現，如果出現如 NNV 組合的狀況，演算法會將此組合視為第二種 pattern 而只擷取接連出現的 NV pattern。

下圖3.3 為演算法詳細內容。整個演算法可分為三個部份，首先是語料庫的預先處理。

語料庫名稱定義成 AcademicThesisCorpus，對於語料庫內的所有文件，我們以句點分隔的 sentences 作為擷取的最小單位，在迴圈 sentences 中的每個 sent，以一個單字作為一個 token，token 則是自然語言處理程序中的最小可識別單元，所有程序執行都以 token 為基

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

礎，故接下來的步驟包含詞性標註(PoS Tagging)與詞形還原(Lemmatization)都以單一字彙執行。在此採用詞形還原而不使用詞根還原(Stemming)的原因是，為了正確統計使用字彙的頻率而採取了還原的步驟，但詞根還原會破壞掉字彙本身的原始形式統一還原為字根(root)，

在統計上會導致多形式的字彙統計錯誤，與研究目的找出精確的字彙使用上分岐，故採用詞形還原。

圖 3-3 Custom PoS Tag Patterns Algorithm

第二部份則是關鍵詞擷取的文法定義。文法本身是依照正規表示式(Regular Expression) 中定義的方式將詞性標籤進行組合，在此文法名稱為 CPTP。CPTP 下擷取兩種 pattern(#2 與

#3)。#2 所定義的詞性組合，以動詞為首以名詞結尾，無論是何種形態的動詞或名詞皆可。

動詞和名詞之中，以一般較常見的形式，副詞(RB)在動詞後修飾動詞、形容詞(JJ)在名詞前

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

修飾名詞、代名詞(PP)在名詞前修飾主詞或名詞、名詞前出現機率相當高的限定詞(DT)以及介系詞(IN 與 TO)表達關係等，都是可允許出現的詞性，問號(?)表示上述詞性可出現或不出現，因此#2 可分別代表前述第二種與第四種 patterns，#3 代表了第一種與第三種 patterns 的組合。最後的部份則依照定義的文法遞迴式的將整個語料庫中符合文法的 patterns 作為關鍵詞擷取出來。此外，由於擷取是以整個句子作為擷取的基本單位，故有可能某種 pattern 符合#2 的 NV 組合，而其後面的 V 又與之後相連的 N 行程符合#2 的 pattern 狀況，雖說 V 的部份是重複計算其頻率，但後續的分析，會回歸到單個字彙在語料庫象限中的頻率計算，故此方法不會造成誤差。

根據上述演算法擷取出來的 patterns 過濾掉非擷取目的其他詞性，將結果所得之 patterns 列表拆分為單字的集合，同時將名詞與動詞分開處理，並依領域計算其詞頻，此列表為初步研究方法得出之領域別學術寫作字彙的候選詞。我們依據此候選詞列表作為形態分析模型的輸入，同時根據每個分析模型指標的特性，交叉分析得到最終的學術寫作字彙。下表3. 1 為不同領域的候選詞數量資訊。

候選詞數 \ 領域別 CS ELT MED

名詞數量 1104 1622 1689

動詞數量 719 753 709

表 3-1 由 CPTP algorithm 擷取出之各領域學術寫作字彙候選詞

3.3 形態分析模型套用

在本文第 2. 2. 4 節 Dutta[18]的研究中，集結了各種關鍵詞的定義後提出了關鍵詞本身是能代表某個領域或是論述範圍的詞彙，並且設計八種指標，依照每個指標所代表趨勢的不同，關鍵詞的特徵也有所不同。而指標中代表的所有關鍵詞特徵如下所示：

I. 主題中心的 II. 主題共通的

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

III. 輔助性質的

Dutta 同時強調，關鍵詞本身的屬性在整個主題空間下所代表的意義。就整個研究主題空間來看，Fr 為字彙出現頻率，代表的是關鍵詞在空間上的表現狀態;Ar 則是文件發生頻率，代表著關鍵詞在時間上的表現狀態;而 Nr 為空間內總關鍵詞數量總和，可作為整個研究主題空間中能量分佈的表現。也因此，經由這些代表著不同關鍵詞屬性的變數的計算，引出關鍵詞在研究主題空間的特徵表現。

本研究則以Dutta 提出的指標分析模型為基礎，針對不同領域下的語料庫候選詞進行指標分析計算。但在基礎假設下本研究與 Dutta 的研究有所不同，必需分析其不同之處，才能

在文檔中以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究 - 政大學術集成 (頁 24-0)

本章總結

第二章 文獻探討

2.4 本章總結

國

立 政 治 大 學

‧

2.4 本章總結

‧ 國

立 政 治 大 學

‧

第三章

研究方法

‧ 國

立 政 治 大 學

‧

3.1 語料庫設計

‧ 國

立 政 治 大 學

‧

3.2 關鍵詞擷取 - PoS Tag Patterns

‧

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

3.3 形態分析模型套用

‧ 國

立 政 治 大 學

‧

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學