語料庫語言學的相關研究

第二章文獻回顧

第一節語料庫語言學的相關研究

一、語料庫語言學

電腦科技精確又快速的發展，在教育上，無論是教材的編寫或是教學重點的提供等，資訊的確豐富了課堂教學的內容，變成現代教學不可或缺的一環。

一個語言在計算語言學發展時，極需辭典及語料庫當做重要的基礎建設(楊允言、劉杰岳，2007)。語料庫是一座儲存在計算機裡的信息寶庫，其方法即是一種資訊的獲取，語料庫更是一個自然語言的大集合體，包含口語語料庫，書面語語料庫，教育語料庫，兒童語料庫，學生語料庫，專用語料庫，平行語料庫等等。透過電腦的資料大量輸入、經由儲存、統計、分析語言資料形成語言資料庫，取代了人工的試算，得到快速、精確的答案。

語料庫的語料是以電子文本形式儲存，並且通過計算機自動處理的，透過語料庫的對大數量的文本語料進行系統地處理呈現一些語言事實。

楊惠中(2001)按已建成使用的語料庫根據用途和性質分為以下類型：

表二- 1 楊惠中（2001）的語料庫分類

BROWN 語料庫：當代美國英語語料庫。

通用語料庫

LOB 語料庫：在構成上完全和 BROWN 對應，取材自當代英國英語語料。

表二- 1 楊惠中（2001）的語料庫分類

Helsinki Corpus of Historical English：用於研究古英語。

專用語料庫

JDEST：學術英語語料庫，用於研究學術英語。

監控語料庫

稱為 Monitor corpus

COBUILD 語料庫：用於觀察現代英語的變遷。

如 The London-Lund Corpus、the Corpus of Spoken American English。

口語語料庫

研究口語特徵的重要工具，如語音語調的規律，其研究成果在語音合成中有重要應用。其建設涉及口語真實語料的採集及語音轉錄，工作量極大。

如 Chinese Learner English Corpus 學生英語語料庫

將各種程度的學生在學習英語過程中的言語輸出輸入計算機，建立學生英語語料庫。對於研究中間語的性質及找出學生易犯的錯誤，從而提高學習效率。

平行語料庫

稱為 parallel corpura

把兩種語言中完全對應的文本(如法律文件)輸入計算機，通過分析對比找出兩者關係，可用於機器翻譯研究。

Susan Hunston 和 Gill Francis 從建立的語料庫中，利用大量的語料庫數據，

尋找詞彙項目、常用詞及文法型態，對語法結構進行分析，試圖藉由數據的呈個名詞片語，表達語義觀念的 “amount”，後面跟著 before or since）。並討論句型和意義的相關性，說明語義上相似的字群如何出現在相同的句型，例如說

明形容詞 difficult 和名詞 difficulty 的型態，也解釋了在字詞之間的差異。其中包含了動詞接名詞組以及名詞和形容詞，找出類似於基本短語的規則，以及句型與結構描述之間的關係及使用文法功能標籤如 Subject（主詞）和 Object（受詞），提供了實用的字典說明和教學者實際上的應用，從語料庫語言學的角度為語言學開創了另一視野。本研究將以此概念為前提，擬將有限的語料透過實作分析，找出某種可能的規則，期能有助於教學者在實務上利用。

二、國內語料庫

國內有些語料庫的建立為研究者自行建構並未公開，但在研究上仍頗有建樹。如洪于惠(2007)利用曾金金(2005, 2006)與鄧守信(2005)建制的語料庫為基礎，加上自行搜集的語料進行語料庫分析。張宇虹(2008)以鄧守信教授專案研究蒐集之中介語料庫為研究基礎，收集有關「的」字結構之偏誤，歸納最常見的偏誤類型。

而目前由台灣各單位研發，在線上能查詢相關資料的台灣線上語料庫如錯 誤! 找不到參照來源。：

(一) 台大台灣南島語多媒體語料庫³，由國立台灣大學語言學研究所研發，

在 2001 年原為黃宣範、蘇以文、宋麗梅共同主持，從 2006 年 3 月起，改由宋麗梅主持。主要語料為台灣南島語(噶瑪蘭語、賽夏語、鄒語、阿美語、撒奇萊雅語、賽德克語、布農語)，目前語料庫中已建構好有：賽夏語 22 筆聲音檔之口述語料、噶瑪蘭語 4 筆有聲音及影像檔之口述語料、鄒語 2 筆只有聲音檔之語料及阿美語 2 筆有聲音及影像檔口述語料。主要內容是將田野調查的口語語料，以語調為單位，詳細紀錄口語中的各種現象。將聲音的語料轉寫成文字紀錄，並做標記及中英翻譯等等。

3網址為：http://corpus.linguistics.ntu.edu.tw/intro.php

(二) 國立政治大學漢語口語語料⁴，由國立政治大學教授研發，在 2006 年由徐嘉慧、賴惠玲及詹惠珍共同主持。以中文、客語、閩南語三種變化中或逐漸消失的語言為語料，主要內容包含中文、客語、閩南語或逐漸消失的語言的口語語料。含文字紀錄和音訊檔。主要分析華語及方言，並提供羅馬拼音與英文翻譯。

(三) 台灣兒童語料庫(I)(II)(III)⁵，由中正大學語言學研究所研發，在 2000 由蔡素娟主持，以台灣閩南語(簡稱台灣話)為語料，主要內容是自然言談性質的語料，將「台灣話聲調習得的發展之研究」收集的語料建置語料庫，提供音韻、構詞、句法、語意等不同層面的語言習得的研究。

(四) 台灣多國語言學習者語料庫⁶，由國立成功大學外國語文學系研發，以中、德、日、西之語言為語料，主要內容是中、德、日、西語言的整合模式，

且提供公開檢索服務之第二外語學習者語料庫。現階段的語料收集重點為第二外語的學習者為來源所建立的書面語語料。

(五) 中央研究現代漢語平衡語料庫(簡稱「研究院語料庫」)⁷，由中央研究院資訊所、語言所詞庫小組研發，從 1990 年起由陳克健(資訊所)、黃居仁(語言所)兩位研究員主持。以漢語為語料，主要內容是一個有完整詞類標記的漢語平衡語料庫，蒐集不同主題和語式的語料構建語料庫，是專門針對語言分析而設計的加詞類標記的漢語語料庫，每個文句都依詞斷開，並標示詞類。

三、台語語料庫

4網址為：http://140.119.174.187/

5網址為：http://linguist.ccu.edu.tw/front/bin/ptdetail.phtml?Part=ptsay891c&Rcg=7

6網址為：http://corpora.flld.ncku.edu.tw/index.pl#

7網址為：http://dbo.sinica.edu.tw/SinicaCorpus/

“語料庫會 sái 講是除了辭典以外，一種語言 tī 計算語言學 ê 發展所需要 ê 重要基礎”(楊允言、劉杰岳，2006)。和英語語料庫及漢語語料庫相較之下，

台語語料庫的建立發展和被重視，遠遠不及前者。楊允言(2003)即指出「台語文在資料處理的發展，也關係著台語文的現代化。當我們在檢視這方面的發展時，必須了解一個事實，在台灣，台語文所能運用的資源，大概不及華語的千分之一。」

早期，台語語料的收集建立，缺乏政府單位的大力支援，大多是靠個人力量在少許經費補助下進行的。1990 年鄭良偉將 TW301 架在 DOS 作業系統及倚天中文系統之上，此輸入法對 1990 年代的台語文運動貢獻極大；蘇芝萌於 1994 年發展出 HOTSYS，是架在以圖形介面的 Windows 作業系統及 Word 文書處理軟體之上的一套應用程式；001 年劉杰岳開發出 Taiwanese Package(簡稱 TP)，擴展台語文在網際網路的發展。楊允言於 2003 年經刊物主編或研究計畫主持人取得原始語料(raw corpus) ，才真正開始了台語文語料庫的建立與蒐集工作。目前提供的功能包括：1.台語語詞檢索(concordancer)系統⁸：分成漢羅和全羅兩部分；

2003 年上線，並陸續增加語料。2.台語音節和語詞的頻率統計資料，共有四個統計表。3. 台語音節和語詞的互訊息及相關度統計，為語詞搭配(collocation)，

提供統計資料，共有八個統計表。

由公家單位國家台灣文學館委辦補助的公開計畫如下：

(一)「台灣白話字文學資料蒐集整理」計畫：2001 年 5 月至 2004 年 12 月由呂興昌執行，將蒐集到一千餘本的白話字書刊中部分有文學性的作品打字建檔。

(二)「台語文數位典藏資料庫(第一階段)──台語文全羅文字語音輸出系

8 網址在 http://iug.csie.dahan.edu.tw/TG/concordance/ form.asp

統」：將高成炎於 2003 年 4 月至 2004 年 3 月接受文建會委託執行「台語文文化推廣網站建構計畫」，加以延伸的計畫，於 2004 年 9 月至 2005 年 12 月執行。

此計畫主要的核心技術是變調註記，即先將資料加以整理，從台文華文線上辭典查出台語的華語對應詞，透過中研院詞庫小組的辭典查出這個語詞的詞類標記，透過變調標記演算法將這個台語文句標記變調註記，從事先錄好的台語音節串接成整句的 mp3 格式聲音檔，透過 web 傳送聲音，讓使用者可以邊讀白話字資料邊聽聲音。本系統的主要目的是將全羅馬字的台語文資料轉成聲音，透過網路播放出來。

(三)「台語文數位典藏資料庫(第二階段)──台語文學線上博物館」：本計畫承接前述兩計畫的成果，由楊允言執行，將呂興昌所完成的計畫中，已經打字建檔的漢羅/全羅台語文各 224 萬音節資料再進一步校對，並持續完成 34 萬音節的文學資料打字建檔、校對，網站上共呈現了各 258 萬音節的台語文學資料。並且系統也規劃了其他功能。例如：提供查詢介面，提供使用者利用作者、

文類、文章名稱、時代、年代等資訊做查詢。也開發漢羅/全羅對照台語文的線上校對系統、全羅台語文的文本統計系統(計算文本的段落、句、語詞、音節的數量)、數字調號轉圖形顯示系統及羅馬字拼字檢查系統。目前的架構可以繼續容納相關的文學作品，整理出來的成果就是一份台語文學語料庫。

四、台語語料庫的相關論文研究

謝昌運(2007)以語料庫語言學的方法分析台語加強詞的使用做研究。研究範圍包括戲劇、小說、散文、社論、學術論文等五種台語文本，分析常見的加強詞，有低調詞、退讓詞、擴充詞、強調詞四種。結果發現最常使用的是強調詞，最不常使用的是低調詞；最常使用的文類是散文，最不常使用的是學術論文。台語會利用不同程度的加強詞來增加修辭；台語具有某些跨語言的共通性

且保有部份自己加強詞的特色。

賴淑玲(2008) 採用文獻分析法和語料庫語言學分析法，將教育部所公佈的第一批推薦的字詞 300 字詞和不同版本台語辭典的用字進行比較，發現這 300 字詞的選用，符合普遍性的「常用字詞」達到 97%，符合適用性的「優先字詞」

在文檔中國民小學台語課本詞性序列分析－以金安版為例 (頁 25-0)

第二章 文獻回顧

第一節 語料庫語言學的相關研究

第二章文獻回顧

第一節語料庫語言學的相關研究