語料庫語言學 - 文獻探討 - 以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究

第二章文獻探討

2.1 語料庫語言學

國

立政治大學

‧

Na tiona

l Ch engchi University

第二章

文獻探討

本篇論文是對真實學術論文語料庫以關鍵詞擷取技術配合指標形態模型分析的方法發掘出一般學術論文寫作常用字彙，而本章節將許多研究技術相關研究文獻提出逐一探討。主要探討內容包含語料庫語言學的特徵與相關應用、關鍵詞擷取技術適用範圍與細節說明，同時介紹以型態分析為主的關鍵詞篩選方法，接著探討字彙與搭配詞的使用在學術寫作上的重要性，並透過英語學習領域專家提出的學術字彙列表跟以資訊技術實驗分析而得的結果相互參照。最後提出本章節的總結。

2.1 語料庫語言學

隨著電腦科技的日漸發達，基於大量計算與統計分析語料庫語言學的相關研究也如雨後春筍般日益崛起，尤其是語料庫語言學對於語言教育與學習的部份有著明顯的增加。本節將對於語料庫語言學的定義、語料庫為主分析研究的特徵，以及在相關領域的應用在此說明。

2.1.1 語料庫以及語料庫語言學的定義與特徵

語料庫語言學是一項透過語料庫以真實發生的範例研究人類所用的自然語言的使用狀況[4]。而語料庫則是一連串由純文字所組成，用來表達其狀態與其多樣性(如口說語言及語

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

言寫作等)並且可以儲存於電腦內的文字集合[5]。而以語料庫為主的研究隨著各式不同的領域的變化，語料庫為了要能夠符合研究的主題，語料庫的預先設計就顯得格外重要，也因此語料庫設計在檔案尺寸上和表現方式上有著各種的變化[6]。

舉例來說，如探討生態學學術教材為主的語料庫[7]在研究主題是要找出生態學上的學術教材相較於其他學術文章的差異等，在設計上內容選取約 200 篇生態學學術教材文章中不包含每篇文章的第一段以外的所有內文，是為了避免每篇教材的第一段有著概括性的廣泛描述，而脫離以生態學為核心的專門論述。另外一項針對英語學術文章引述(CITATION)的研究[8]，延續了兩個不同原有語料庫的研究，其中一個是由 10 篇跨領域期刊文章所組成，另一個則是由 16 篇博士論文所組成。由上述兩個例子可見，語料庫在內容組成上並無特別的侷限，並不需要完整的保留原有文章的所有內容，而是依照研究目的需要自行定義，相同地在數量選擇上也是如此，只要最後的實驗方法上量足夠於採信即可。

語料庫依據用途建立後，需要經由許多分析的步驟才能達到研究目的。而 Biber, Conrad 與 Reppen[9]提出了以語料庫分析的四項主要特徵，說明如下：

I. 研究者可藉由分析觀察到實際語言文字形態的使用，故此分析是有實證為依歸的。

II. 語料庫分析多半借助 Concordancer 等電腦輔助軟體並可達到 KWIC (Key Word In Context) 顯示的功能，同時也可借助於其他電腦程式進行文法或詞性上的標註和變化指示。

III. 語料庫的內含的語言特徵可同時進行計量性分析與直譯式分析，如使用 Concodancer 可同時顯示”vocabulary“此字彙出現頻率後，進而點選分析此字彙在不同文章中展示的不同意義。

IV. 藉由分析語料庫來模擬探討語言學上的研究問題使得分析本身就是有意義的。

總結來說，語料庫語言學本身由於相關電腦輔助工具的發明，使得語料庫分析不再只是提供規範性的觀點，而能夠提供一種新的描寫性的觀點。

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

2.1.2 語料庫文字的預先處理與其後續相關應用

本節是以電腦科技的角度出發，探討在資訊科技研究使用語料庫進行研究時經常遇到的預先處理步驟說明，並介紹依照不同的預先處理程度之後可進行的後續研究使用狀況。

上一節曾提到，語料庫設計可依據研究目的需求。相對地，這也代表著語料庫內容的來源可能千變萬化或以各種格式存在。主要的內容來源有兩種，第一種是來自於現有的典籍文獻以及報章雜誌等，這一類的資訊來源共通的問題就是必須將紙本轉換成數位化的檔案，

所使用的方式就是經由文件掃描後再經過 OCR(Optical Character Recognition)辨識後文字始能編輯，而依據原始檔案保存或印刷狀況都會影響到文字正確辨識度的多寡，因此辨識完成的文字檔案依狀況仍須人工比對或用電腦字典對照以確保整個語料庫的正確度。

相較於文本各式的內容來源，有許多內容資源都已經數位化成為檔案格式或分佈於網際網路之中，但這些資訊仍然是格式內容不一，必須做過濾格式的預先處理。舉例來說，欲建構以網頁形式為原始內容的語料庫，必須將原始資料中網頁的標籤逐一移除，並且將文字以句子或段落為單位進行分隔，甚至有時也需要解決編碼格式上亂碼的問題。而做完預先處理的文字資料，則是研究方法而存成既定的格式，其中以純文字檔案格式(半結構性)和 XML 資料格式(結構性)為主要格式。

語料庫在建構完成後，除了對語料庫本身進行分析統計外，再經過不同的加工形式 (Tokenization、Morphological Processing、Syntactic Analysis、Domain Analysis 等)後，可應用在資訊擷取(包含關鍵詞擷取)、資料探勘、文本探勘、自動翻譯、社會網絡等多種不同的應用分岐。根據王俊弘[14]的研究，建立一個可標記化的語料庫需要八個步驟。然而，根據研究目的的不同預先處理所需的步驟也不同，通用的步驟則包含下列步驟：

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

圖 2-1 語料庫與資訊擷取預先處理工作一覽

1. 正規化(Formalization)：由於語料庫內容原始資料來源不盡相同，當中可能包含了標題、副標、圖片與文字格式(如粗體、斜體、底線等)。正規化的目的即為除去這些文件內文以外的其他不需要部份。

2. 斷句(Sentence Segmentation)：資料經過正規化之後的內文，可能還保有原本的形式，文字之間依照段落分隔。一般來說，在自然語言處理中，通常以句子當作一個執行的基本單位，故斷句便是將所有的文字內容依照句點當作區隔其他句子的單位劃分文章內容。而在其他的研究也有依需求將文章內容依片語、段落或是章節區分的狀況[30]。

3. 斷詞(Tokenization)：英語中字與字之間大多與空白分隔，或是依照各種標點符號分隔。斷詞目的在於區分語料庫中最小可供辨識的基本單位”Token”，一般為上述空白或標點區隔的英文單字，也可依據需求將所需的標點符號或特殊符號定義成token，未被定義成 token 的部份在自然語言處理時會自動被忽略。

4. 詞性標註(Part-of-Speech Tagging)：詞性標註是自然語言處理中最重要的一個步驟，所以後續都分析都以標註後的結果為基礎進行。詞性標註是將句子中每個單

‧ 國

立政治大學

‧

Na tiona

l Ch engchi University

字進行詞性標籤的加註，但有時文章較為複雜也有詞性判斷錯誤的狀況。一般來說，前述步驟在不發生錯誤的狀況下，詞性標註的準確率可達到95%以上。

總結來說，預先處理的步驟可參照上圖。圖 2.1 為綜合大部份資訊處理相關領域的預先處理步驟，而圖中左半部份也就是上述四個步驟是進行建構語料庫最常見的預先處理步驟，其餘步驟則依研究目的而分別有所不同。

在文檔中以型態組合為主的關鍵詞擷取技術在學術寫作字彙上的研究 - 政大學術集成 (頁 13-17)

語料庫語言學

第二章 文獻探討

2.1 語料庫語言學

國

立 政 治 大 學

‧

第二章

文獻探討

2.1 語料庫語言學

2.1.1 語料庫以及語料庫語言學的定義與特徵

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

2.1.2 語料庫文字的預先處理與其後續相關應用

‧ 國

立 政 治 大 學

‧

‧ 國

立 政 治 大 學

‧

第二章文獻探討

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學