• 沒有找到結果。

第一章 簡介

1.4 論文架構與貢獻

立 政 治 大 學

Na tiona

l Ch engchi University

Phrase)所組成,因此以名詞片語為中心的關鍵詞擷取研究佔了多數。綜合以上的資訊,我們 使用了自行定義包含名詞和動詞為主的 PoS Tag Patterns 作為我們關鍵詞擷取的主要擷取型 態,並擷取出所有符合Patterns 的候選詞,作為關鍵詞彙擷取的第一個步驟。

由於語料庫本身的資料龐大,各種領域內的研究主題也相對不小,而 PoS Tag Pattens 在設計上是以搭配詞最小單位為基礎,擷取出的大量 Patterns 必須經由適當頻率的篩選,隨 後再將 Patterns 拆為單個字彙的集合,排除非動詞和名詞的其他字彙,而依此兩種詞性分別 套用在分析模型上,可求得數種代表不同關鍵詞屬性的指標值。其後以實驗得到的結果,對 照於常用於學術教學應用上的學術字彙列表(AWL)[22],並探討學術寫作應用中的真實狀況 下,本文研究結果與學術字彙列表於真實語料庫的分佈狀況,同時歸納出基於研究結果組合 而成的學術寫作搭配詞。

1.4 論文架構與貢獻

本篇論文分為五章,第一章說明研究背景、動機、目的及方法。第二章為文獻探討,

介紹本篇論文所使用到的相關研究技術的定義與特徵,從語料庫語言學為始,到核心的關鍵 詞擷取技術及最後所應用的形態模型等。第三章則是實際語料庫設計以及研究方法的闡述,

將分析模型套用在從語料庫以關鍵詞擷取技術得到的成果。第四章為實驗評估與結果討論,

將分析模型的各指標實驗結果與作為參考的學術字彙列表在真實語料庫的分佈情形統計性的 比較。第五章為結論及未來研究方向,並探討實驗結果可衍生的應用層面。本論文主要貢獻 有以下幾點:

I. 藉由真實收集語料庫交叉比對分析而得的學術寫作字彙,不但能補足一般專家著 作較缺乏的一般性學術上頻繁使用的字彙,對某些偏重於單一領域或是使用頻率 過低的字彙,這些現實中已被應用的字彙能修正其偏差。

II. 由實驗結果所得到的雖然只是常用的學術寫作字彙,但將此資訊重新帶入原本的 語料庫,可以得到高頻度且實際使用的搭配詞組合,這些組合結合英語寫作專家 所提出的搭配詞相互驗證,除了可信度高之外,也延伸了作者從單一字彙的使用 到字彙相互搭配組合的實際應用參照。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

III. 語料庫的設計不僅僅只是產出一般性的學術寫作字彙,同時藉由分析各領域間的 複合領域字彙使用情形,也能看出即使在同一學術寫作範圍下,各領域之間的學 術論文寫作時用字遣詞的差異,這些差異也能提供 EFL 作者未來在寫作上能選擇 適合領域的字彙,產出更貼切的論述內容的學習參考。

IV. 除了提供各領域綜合的學術字彙與搭配詞之外,我們也以另一個角度進行分析,

分別提出了以 EFL 作者(台灣、日本)以及以英語為母語的 Native Speaker(以下簡 稱 NS),也就是美國作者的常用的搭配詞。提供搭配詞的目的在於,搭配詞的使 用較字彙上更為實用也較為繁複,而就搭配詞上的使用狀況可以得知 NS 作者較 常用的寫作風格,同時參照自身的搭配詞使用方式,不但可以學習較正確的寫作 風格,也可能發現並修正自身潛在的寫作錯誤。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

第二章

文獻探討

本篇論文是對真實學術論文語料庫以關鍵詞擷取技術配合指標形態模型分析的方法發 掘出一般學術論文寫作常用字彙,而本章節將許多研究技術相關研究文獻提出逐一探討。主 要探討內容包含語料庫語言學的特徵與相關應用、關鍵詞擷取技術適用範圍與細節說明,同 時介紹以型態分析為主的關鍵詞篩選方法,接著探討字彙與搭配詞的使用在學術寫作上的重 要性,並透過英語學習領域專家提出的學術字彙列表跟以資訊技術實驗分析而得的結果相互 參照。最後提出本章節的總結。

2.1 語料庫語言學

隨著電腦科技的日漸發達,基於大量計算與統計分析語料庫語言學的相關研究也如雨 後春筍般日益崛起,尤其是語料庫語言學對於語言教育與學習的部份有著明顯的增加。本節 將對於語料庫語言學的定義、語料庫為主分析研究的特徵,以及在相關領域的應用在此說 明。

2.1.1 語料庫以及語料庫語言學的定義與特徵

語料庫語言學是一項透過語料庫以真實發生的範例研究人類所用的自然語言的使用狀 況[4]。而語料庫則是一連串由純文字所組成,用來表達其狀態與其多樣性(如口說語言及語

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

言寫作等)並且可以儲存於電腦內的文字集合[5]。而以語料庫為主的研究隨著各式不同的領 域的變化,語料庫為了要能夠符合研究的主題,語料庫的預先設計就顯得格外重要,也因此 語料庫設計在檔案尺寸上和表現方式上有著各種的變化[6]。

舉例來說,如探討生態學學術教材為主的語料庫[7]在研究主題是要找出生態學上的學 術教材相較於其他學術文章的差異等,在設計上內容選取約 200 篇生態學學術教材文章中不 包含每篇文章的第一段以外的所有內文,是為了避免每篇教材的第一段有著概括性的廣泛描 述,而脫離以生態學為核心的專門論述。另外一項針對英語學術文章引述(CITATION)的研 究[8],延續了兩個不同原有語料庫的研究,其中一個是由 10 篇跨領域期刊文章所組成,另 一個則是由 16 篇博士論文所組成。由上述兩個例子可見,語料庫在內容組成上並無特別的 侷限,並不需要完整的保留原有文章的所有內容,而是依照研究目的需要自行定義,相同地 在數量選擇上也是如此,只要最後的實驗方法上量足夠於採信即可。

語料庫依據用途建立後,需要經由許多分析的步驟才能達到研究目的。而 Biber, Conrad 與 Reppen[9]提出了以語料庫分析的四項主要特徵,說明如下:

I. 研究者可藉由分析觀察到實際語言文字形態的使用,故此分析是有實證為 依歸的。

II. 語料庫分析多半借助 Concordancer 等電腦輔助軟體並可達到 KWIC (Key Word In Context) 顯示的功能,同時也可借助於其他電腦程式進行文法或 詞性上的標註和變化指示。

III. 語料庫的內含的語言特徵可同時進行計量性分析與直譯式分析,如使用 Concodancer 可同時顯示”vocabulary“此字彙出現頻率後,進而點選分析此 字彙在不同文章中展示的不同意義。

IV. 藉由分析語料庫來模擬探討語言學上的研究問題使得分析本身就是有意義 的。

總結來說,語料庫語言學本身由於相關電腦輔助工具的發明,使得語料庫分析不再只是提供 規範性的觀點,而能夠提供一種新的描寫性的觀點。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

2.1.2 語料庫文字的預先處理與其後續相關應用

本節是以電腦科技的角度出發,探討在資訊科技研究使用語料庫進行研究時經常遇到 的預先處理步驟說明,並介紹依照不同的預先處理程度之後可進行的後續研究使用狀況。

上一節曾提到,語料庫設計可依據研究目的需求。相對地,這也代表著語料庫內容的 來源可能千變萬化或以各種格式存在。主要的內容來源有兩種,第一種是來自於現有的典籍 文獻以及報章雜誌等,這一類的資訊來源共通的問題就是必須將紙本轉換成數位化的檔案,

所使用的方式就是經由文件掃描後再經過 OCR(Optical Character Recognition)辨識後文字始 能編輯,而依據原始檔案保存或印刷狀況都會影響到文字正確辨識度的多寡,因此辨識完成 的文字檔案依狀況仍須人工比對或用電腦字典對照以確保整個語料庫的正確度。

相較於文本各式的內容來源,有許多內容資源都已經數位化成為檔案格式或分佈於網 際網路之中,但這些資訊仍然是格式內容不一,必須做過濾格式的預先處理。舉例來說,欲 建構以網頁形式為原始內容的語料庫,必須將原始資料中網頁的標籤逐一移除,並且將文字 以句子或段落為單位進行分隔,甚至有時也需要解決編碼格式上亂碼的問題。而做完預先處 理的文字資料,則是研究方法而存成既定的格式,其中以純文字檔案格式(半結構性)和 XML 資料格式(結構性)為主要格式。

語料庫在建構完成後,除了對語料庫本身進行分析統計外,再經過不同的加工形式 (Tokenization、Morphological Processing、Syntactic Analysis、Domain Analysis 等)後,可應 用在資訊擷取(包含關鍵詞擷取)、資料探勘、文本探勘、自動翻譯、社會網絡等多種不同的 應用分岐。根據王俊弘[14]的研究,建立一個可標記化的語料庫需要八個步驟。然而,根據 研究目的的不同預先處理所需的步驟也不同,通用的步驟則包含下列步驟:

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 2-1 語料庫與資訊擷取預先處理工作一覽

1. 正規化(Formalization):由於語料庫內容原始資料來源不盡相同,當中可能包含了 標題、副標、圖片與文字格式(如粗體、斜體、底線等)。正規化的目的即為除去 這些文件內文以外的其他不需要部份。

2. 斷句(Sentence Segmentation):資料經過正規化之後的內文,可能還保有原本的形 式,文字之間依照段落分隔。一般來說,在自然語言處理中,通常以句子當作一 個執行的基本單位,故斷句便是將所有的文字內容依照句點當作區隔其他句子的 單位劃分文章內容。而在其他的研究也有依需求將文章內容依片語、段落或是章 節區分的狀況[30]。

3. 斷詞(Tokenization):英語中字與字之間大多與空白分隔,或是依照各種標點符號

3. 斷詞(Tokenization):英語中字與字之間大多與空白分隔,或是依照各種標點符號

相關文件