語料庫的定義、背景及應用

第二章文獻探討

第二節語料庫的定義、背景及應用

本節分為三個面向，分別為語料庫的定義、語料庫的發展背景，以及語料庫的研究應用，以下詳述之。

一、語料庫的定義

在探討幽默語料庫前，一定要先瞭解語料庫的定義。語料庫即語言資料庫，

是聚集一個主題的資料庫，主要以書面與口語的方式蒐集資料。可為自然發生的語言文本集合，表示一種語言的狀態或種類 (Sinclair, 1991)。它是語言知識的寶庫，也是最重要的語言資源。

語料庫的源頭可追溯至 1970 年後期，在英國開始陸續出現一批語料庫語言學家，利用日漸普及的電腦和電子文字，通過大量語言的處理而找出其中的規則

（解志強，2010）。語料庫一詞在語言學上意指大量的文本，通常需經過整理，

具有既定格式與標記（謝家浩，2018）。使用者可藉由使用語料庫，迅速瞭解某個字詞在所有情境下的運用。Crystal 與 David (1992)也提及語料庫是一系列的語言數據，可為書面文本編纂，也可對錄音等檔案進行轉錄。主要目的即是為了證明關於語言的假說，如確認特定的發音、詞彙或文法結構的變化。Björkenstam (2013)同樣指出語料庫是以特定目的構建的自然語言，可能是文本或語音、字元轉錄的集合。在理想情況下，它是一組經仔細挑選所製作的語言樣本，而不是隨機收集的一組數據。如何取決語料庫的平衡和抽樣是鑑於不同研究問題，而這也影響語料庫未來的代表性。語料庫可以說是任何文本的主體，因“corpus”在拉丁語裡有“body（身體）”之意 (McEnery & Wilson, 2001)。原則上，只要是多個文本的集合其實都能稱作「語料庫」，再根據既定的標準選擇語料，盡可能地表達任何語言或語言的種類，方便作為語言學研究的數據來源 (Sinclair, 2005)。

另外 McEnery 與 Wilson (2001)不同於其他學者，他們從現代語料庫的角度來探究語料庫，認為語料庫這個術語已經包含比以往更豐富、更具體的內涵。現代語料庫有四個主要特點：

1. 抽樣和代表性（Sampling and representativeness）

2. 有限的大小（Finite size）

3. 機器可讀形式（Machine-readable form）

4. 參考標準（A standard reference）

雖然語料庫常見於語言學等人文體系，但用在機器學習、自然語言研究也有些時日，不過兩者研究的方向不太相同：前者傾向語料庫的建構，詳細介紹語料

庫的語料；後者則偏向利用語料庫做系統開發，因此不會花大章篇幅去說明語料庫的內容。語料庫其實也類似於圖書資訊學領域「數位典藏」、「機構典藏」的概念，可以「以語言資料庫形式所呈現的數位典藏」來解釋圖資學的語料庫（王勻芊，2016），而本研究則將語料庫定義為「文件資料庫」。即使大多可用語料庫都為文本，但迄今已出現愈來愈多的多語文、多種類的特色語料庫，例如手語語料庫等等。有關語料庫種類將會在下個部分多加敘述與著墨。

二、語料庫的發展背景

最初的語料庫是發掘在 1960 年初，英國 Brown 大學所建的 Brown Corpus，

收錄了將近一百萬篇的美國文章，並由專家歸成十五類，包含實地報導、一般小說、評論、宗教、技能與嗜好、大眾知識、政府刊物等等，其中一類即是幽默感

（林武聰，2003）。而回顧文本語料庫自 1980 年至今的演變過程，發現有三個重要的里程碑：第一個是在 1980 年到 1986 年，含納二千萬字的「伯明罕語料庫

（Birmingham Corpus）」；第二個是 1990 年到 2004 年的「動態語料庫（Dynamic corpus）」；第三個則是 1998 年到 2004 年的以網路作為語料庫（Web as corpus）

(Renouf, 2015)。

1. 伯明罕語料庫：後常聽到的稱呼是「英國銀行（Bank of English，簡稱 BoE）」。它是全世界最大的英語語料庫，共收了約 5 億個字詞；它也是一個監控語料庫，定期增加新文本，提供一個大數據集，類型囊括了新聞、雜誌、小說等。

2. 動態語料庫：也稱歷時語料庫，為一種動態的、開放式的，按時間排序的資料流動知識庫，以支持對語言隨時間推移變化的研究作目的。按時間順序安排的文本可展現出創新、趨勢、生產力與創造力等模式 (Renouf, 2015)。

3. 網路語料庫：重新構思傳統語料庫的定義，連結多語言、動態內容，與網路搜索等內容，利用網路的特點來作為語言的資源。透過網路可獲得大量免費且多種類的文本，去建立更具無限性、靈活性和去中心化的網路文本語料庫 (Gatto & Bari, 2011)。

以現有語料庫而言，國內最知名的語料庫為中央研究院（簡稱中研院）所開發的漢語平衡語料庫，而在國家教育院（簡稱國教院）也有定期的電子報討論語料庫相關議題。因此本研究統整中研院和國教院兩院資料，整理出〈國內語料庫列表〉（附錄 1）及〈國外語料庫列表〉（附錄 2）。

語料庫發展至今，傅愛平（1998-2003）提到曾有人把語料庫分成四種類型：

(1)異質的（Heterogeneous）：沒有特定的語料收集原則，廣泛收集並原樣存儲各種語料；(2)同質的（Homogeneous）：只收集同一類內容的語料；(3)系統的

（Systematic）：根據預先確定的原則和比例收集語料，使語料具有平衡性和系統性，能夠代表某一範圍內的語言事實；(4)專用的（Specialized）：只收集用於某一特定用途的語料。但經學者分類，現有語料庫種類應有以下幾個：一般語料庫、專門語料庫（針對特殊領域）、對應語料庫（原文與譯文的比對）、平行語料庫（可比較兩種以上不同語言）、學習者語料庫（供學習者中介語料分析）、

教材語料庫、歷史或歷時語料庫（按時間排序）、監控語料庫（不斷更新內容）

(Hunston, 2002)，還有一種叫計算機語料庫（機器可讀文本）。除此之外，依照語料的語種，語料庫也可以分成單語的（Monolingual）、雙語的（Bilingual）和多語的（Multilingual）。

綜合以上過程背景，本研究把幽默語料庫的定位在：是一個專門語料庫也是監控語料庫，同時具有歷時（不同時間、同一類型的資料）與共時（同一時間、

不同類型的資料）的特性，收錄語料不限語種，但以正體中文為主。

三、語料庫的研究應用

語料庫的主要功能有語料處理、語法確認、語意理解等等，在應用上理所當然期使其語料庫的功能發揮到最大。為了解近期語料庫的研究趨勢，以關鍵字「語料庫」在臺灣博碩士論文知識加值系統中的「論文名稱」與「關鍵詞」兩個欄位去查詢相關論文，出來的檢索結果共有 421 筆資料，時間橫跨約三十年，恐無法呈現近期趨勢。於是將時間限制約近三年畢業（104 學年到 106 學年），發現共有 93 筆並落在 5 個學門、11 個學科。表 2-1 內由左至右、由上至下遞減排序，

括弧內為筆數：

表 2- 1 近三年語料庫相關論文的學門/學科落點

近三年語料庫相關論文的學門落點

人文學門(67) 教育學門(12) 工程學門(6) 電算機學門(5) 傳播學門(3)

近三年語料庫相關論文的學科落點

外國語文學(39) 翻譯學(12) 普通科目教育學(11) 語言學(8) 中國語文學(7) 電資工程學(6) 電算機一般學(5) 新聞學(2) 綜合教育學(1) 台灣語文學(1) 圖書資訊檔案學(1)

從上述表格看來，語料庫研究以人文學門為大宗，佔了所有學門中超過五成的比率。而從學科來看又以語言文學、教育學、電算工程領域等為主要，再由這幾篇論文當中，節選幾篇與本研究較有關連的來討論：

(一) 中文反諷語料庫

反諷之意指字面意思與作者想表達的真實情感往往不同，而表達文本情感的主要方式有兩類：類別型及維度型，因此基於臺灣大學的 NTU 反諷語料庫，創建一個 Valence-Arousal-Irony（VAI）三維度的中文反諷語料庫，V 值代表句子的正負面程度；A 值代表句子激動程度；I 值代表反諷程度。採用四種不同機器學習方法（CNN、LSTM、CNN_LSTM 及 LSTM_CNN），加上 5-fold 交叉驗證方法對維度值進行預測，測驗結果發現卷積 - 長短期記憶人工神經網路

（CNN_LSTM）的模型對 VAI 維度值預測效果最良好。此研究最大的貢獻就是為以後的反諷研究提供了資料基礎和研究基準（劉靜，2017）。

(二) 批踢踢語料庫

雖然此篇論文超出預設限制的年度範圍，但因跟本研究相關度較高仍納入參考。也是因為近年來，語料庫為本與語料庫驅動研究逐漸受關注與重視。目前常見資料庫其實大多都停止更新，而光靠這些資料是無法完全即時反應出現今臺灣華語的使用狀況。於是此研究建立一個「批踢踢語料庫」，以批踢踢（PTT）作為資料來源。語料庫內容即採用 Brill Tagger 在 1992 年使用的演算法，且以中文句結構樹資料庫中大約一萬個中文句作為訓練的語料。期望提供實質的幫助，也提醒著語料庫學者們應注重語料庫的發展與注意語料的新穎性（劉純睿，2014）。

雖從上述內容可看出特定範圍趨勢的一些端倪，但單看建置語料庫為主幹的論文可能有所偏頗，所以下面列舉幾篇文獻看是如何應用語料庫在幽默相關或其他方面：

(一) 往實際操作方面

1. 以 GeWiss 資料庫分析幽默在學術演講的成效

GeWiss 資料庫（ Gesprochene Wissenschaftssprache kontrastiv ‘Spoken academic discourse in contrast’）為歐洲研究的一個合作項目，該資料庫由三十萬個學術中所用的口語語言資料組成，又以英語，德語和波蘭語的學術演講為主要語料，並探討幽默在學術演講中的使用分佈情形和作用為何。由於資料龐大，所以研究範圍限縮在其中兩個子語料庫：英語專家演講子語料庫與德語專家演講子語料庫，分析三種情形：英語為母語的專家在英國大學的英語演講、德語為母語的專家在英國大學的英語演講，以及德語為母語的專家在德國大學的德語演講。

研究結果發現笑聲會出現次數跟不同語言背景的學者有很大的關連，甚至也跟國情息息相關 (Reershemius, 2012)。

2. 語言數據聯盟的資料庫

1992 年成立的語言數據聯盟（Linguistic Data Consortium，簡稱 LDC）是由大學、公司與政府三方組成的開放聯盟，並以美國賓夕法尼亞大學（University of Pennsylvania）為主辦單位。其主要工作為創建和發布語料庫、詞典或其他資源，每年都有一定數量發布出去，而大多須付費(Strassel & Cole, 2006)。文中舉

在文檔中幽默語料庫之建置 (頁 22-30)

第二章 文獻探討

第二節 語料庫的定義、背景及應用

第二章文獻探討

第二節語料庫的定義、背景及應用