• 沒有找到結果。

語料庫的定義、背景及應用

在文檔中 幽默語料庫之建置 (頁 22-30)

第二章 文獻探討

第二節 語料庫的定義、背景及應用

本節分為三個面向,分別為語料庫的定義、語料庫的發展背景,以及語料庫 的研究應用,以下詳述之。

一、語料庫的定義

在探討幽默語料庫前,一定要先瞭解語料庫的定義。語料庫即語言資料庫,

是聚集一個主題的資料庫,主要以書面與口語的方式蒐集資料。可為自然發生的 語言文本集合,表示一種語言的狀態或種類 (Sinclair, 1991)。它是語言知識的寶 庫,也是最重要的語言資源。

12

語料庫的源頭可追溯至 1970 年後期,在英國開始陸續出現一批語料庫語言 學家,利用日漸普及的電腦和電子文字,通過大量語言的處理而找出其中的規則

(解志強,2010)。語料庫一詞在語言學上意指大量的文本,通常需經過整理,

具有既定格式與標記(謝家浩,2018)。使用者可藉由使用語料庫,迅速瞭解某 個字詞在所有情境下的運用。Crystal 與 David (1992)也提及語料庫是一系列的語 言數據,可為書面文本編纂,也可對錄音等檔案進行轉錄。主要目的即是為了證 明關於語言的假說,如確認特定的發音、詞彙或文法結構的變化。Björkenstam (2013)同樣指出語料庫是以特定目的構建的自然語言,可能是文本或語音、字元 轉錄的集合。在理想情況下,它是一組經仔細挑選所製作的語言樣本,而不是隨 機收集的一組數據。如何取決語料庫的平衡和抽樣是鑑於不同研究問題,而這也 影響語料庫未來的代表性。語料庫可以說是任何文本的主體,因“corpus”在拉 丁語裡有“body(身體)”之意 (McEnery & Wilson, 2001)。原則上,只要是多 個文本的集合其實都能稱作「語料庫」,再根據既定的標準選擇語料,盡可能地 表達任何語言或語言的種類,方便作為語言學研究的數據來源 (Sinclair, 2005)。

另外 McEnery 與 Wilson (2001)不同於其他學者,他們從現代語料庫的角度 來探究語料庫,認為語料庫這個術語已經包含比以往更豐富、更具體的內涵。現 代語料庫有四個主要特點:

1. 抽樣和代表性(Sampling and representativeness)

2. 有限的大小(Finite size)

3. 機器可讀形式(Machine-readable form)

4. 參考標準(A standard reference)

雖然語料庫常見於語言學等人文體系,但用在機器學習、自然語言研究也有 些時日,不過兩者研究的方向不太相同:前者傾向語料庫的建構,詳細介紹語料

13

庫的語料;後者則偏向利用語料庫做系統開發,因此不會花大章篇幅去說明語料 庫的內容。語料庫其實也類似於圖書資訊學領域「數位典藏」、「機構典藏」的 概念,可以「以語言資料庫形式所呈現的數位典藏」來解釋圖資學的語料庫(王 勻芊,2016),而本研究則將語料庫定義為「文件資料庫」。即使大多可用語料 庫都為文本,但迄今已出現愈來愈多的多語文、多種類的特色語料庫,例如手語 語料庫等等。有關語料庫種類將會在下個部分多加敘述與著墨。

二、語料庫的發展背景

最初的語料庫是發掘在 1960 年初,英國 Brown 大學所建的 Brown Corpus,

收錄了將近一百萬篇的美國文章,並由專家歸成十五類,包含實地報導、一般小 說、評論、宗教、技能與嗜好、大眾知識、政府刊物等等,其中一類即是幽默感

(林武聰,2003)。而回顧文本語料庫自 1980 年至今的演變過程,發現有三個 重要的里程碑:第一個是在 1980 年到 1986 年,含納二千萬字的「伯明罕語料庫

(Birmingham Corpus)」;第二個是 1990 年到 2004 年的「動態語料庫(Dynamic corpus)」;第三個則是 1998 年到 2004 年的以網路作為語料庫(Web as corpus)

(Renouf, 2015)。

1. 伯明罕語料庫:後常聽到的稱呼是「英國銀行(Bank of English,簡稱 BoE)」。 它是全世界最大的英語語料庫,共收了約 5 億個字詞;它也是一個監控語料 庫,定期增加新文本,提供一個大數據集,類型囊括了新聞、雜誌、小說等。

2. 動態語料庫:也稱歷時語料庫,為一種動態的、開放式的,按時間排序的資 料流動知識庫,以支持對語言隨時間推移變化的研究作目的。按時間順序安 排的文本可展現出創新、趨勢、生產力與創造力等模式 (Renouf, 2015)。

14

3. 網路語料庫:重新構思傳統語料庫的定義,連結多語言、動態內容,與網路 搜索等內容,利用網路的特點來作為語言的資源。透過網路可獲得大量免費 且多種類的文本,去建立更具無限性、靈活性和去中心化的網路文本語料庫 (Gatto & Bari, 2011)。

以現有語料庫而言,國內最知名的語料庫為中央研究院(簡稱中研院)所開 發的漢語平衡語料庫,而在國家教育院(簡稱國教院)也有定期的電子報討論語 料庫相關議題。因此本研究統整中研院和國教院兩院資料,整理出〈國內語料庫 列表〉(附錄 1)及〈國外語料庫列表〉(附錄 2)。

語料庫發展至今,傅愛平(1998-2003)提到曾有人把語料庫分成四種類型:

(1)異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各 種語料;(2)同質的(Homogeneous):只收集同一類內容的語料;(3)系統的

(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系 統性,能夠代表某一範圍內的語言事實;(4)專用的(Specialized):只收集用於 某一特定用途的語料。但經學者分類,現有語料庫種類應有以下幾個:一般語料 庫、專門語料庫(針對特殊領域)、對應語料庫(原文與譯文的比對)、平行語 料庫(可比較兩種以上不同語言)、學習者語料庫(供學習者中介語料分析)、

教材語料庫、歷史或歷時語料庫(按時間排序)、監控語料庫(不斷更新內容)

(Hunston, 2002),還有一種叫計算機語料庫(機器可讀文本)。除此之外,依照 語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和 多語的(Multilingual)。

綜合以上過程背景,本研究把幽默語料庫的定位在:是一個專門語料庫也是 監控語料庫,同時具有歷時(不同時間、同一類型的資料)與共時(同一時間、

不同類型的資料)的特性,收錄語料不限語種,但以正體中文為主。

15

三、語料庫的研究應用

語料庫的主要功能有語料處理、語法確認、語意理解等等,在應用上理所當 然期使其語料庫的功能發揮到最大。為了解近期語料庫的研究趨勢,以關鍵字「語 料庫」在臺灣博碩士論文知識加值系統中的「論文名稱」與「關鍵詞」兩個欄位 去查詢相關論文,出來的檢索結果共有 421 筆資料,時間橫跨約三十年,恐無法 呈現近期趨勢。於是將時間限制約近三年畢業(104 學年到 106 學年),發現共 有 93 筆並落在 5 個學門、11 個學科。表 2-1 內由左至右、由上至下遞減排序,

括弧內為筆數:

表 2- 1 近三年語料庫相關論文的學門/學科落點

近三年語料庫相關論文的學門落點

人文學門(67) 教育學門(12) 工程學門(6) 電算機學門(5) 傳播學門(3)

近三年語料庫相關論文的學科落點

外國語文學(39) 翻譯學(12) 普通科目教育學(11) 語言學(8) 中國語文學(7) 電資工程學(6) 電算機一般學(5) 新聞學(2) 綜合教育學(1) 台灣語文學(1) 圖書資訊檔案學(1)

從上述表格看來,語料庫研究以人文學門為大宗,佔了所有學門中超過五成 的比率。而從學科來看又以語言文學、教育學、電算工程領域等為主要,再由這 幾篇論文當中,節選幾篇與本研究較有關連的來討論:

16

(一) 中文反諷語料庫

反諷之意指字面意思與作者想表達的真實情感往往不同,而表達文本情感的 主要方式有兩類:類別型及維度型,因此基於臺灣大學的 NTU 反諷語料庫,創 建一個 Valence-Arousal-Irony(VAI)三維度的中文反諷語料庫,V 值代表句子的 正負面程度;A 值代表句子激動程度;I 值代表反諷程度。採用四種不同機器學 習方法(CNN、LSTM、CNN_LSTM 及 LSTM_CNN),加上 5-fold 交叉驗證方 法 對 維 度 值 進 行 預 測 , 測 驗 結 果 發 現 卷 積 - 長 短 期 記 憶 人 工 神 經 網 路

(CNN_LSTM)的模型對 VAI 維度值預測效果最良好。此研究最大的貢獻就是 為以後的反諷研究提供了資料基礎和研究基準(劉靜,2017)。

(二) 批踢踢語料庫

雖然此篇論文超出預設限制的年度範圍,但因跟本研究相關度較高仍納入參 考。也是因為近年來,語料庫為本與語料庫驅動研究逐漸受關注與重視。目前常 見資料庫其實大多都停止更新,而光靠這些資料是無法完全即時反應出現今臺灣 華語的使用狀況。於是此研究建立一個「批踢踢語料庫」,以批踢踢(PTT)作 為資料來源。語料庫內容即採用 Brill Tagger 在 1992 年使用的演算法,且以中文 句結構樹資料庫中大約一萬個中文句作為訓練的語料。期望提供實質的幫助,也 提醒著語料庫學者們應注重語料庫的發展與注意語料的新穎性(劉純睿,2014)。

雖從上述內容可看出特定範圍趨勢的一些端倪,但單看建置語料庫為主幹的 論文可能有所偏頗,所以下面列舉幾篇文獻看是如何應用語料庫在幽默相關或其 他方面:

(一) 往實際操作方面

1. 以 GeWiss 資料庫分析幽默在學術演講的成效

17

GeWiss 資 料 庫 ( Gesprochene Wissenschaftssprache kontrastiv ‘Spoken academic discourse in contrast’)為歐洲研究的一個合作項目,該資料庫由三十萬 個學術中所用的口語語言資料組成,又以英語,德語和波蘭語的學術演講為主要 語料,並探討幽默在學術演講中的使用分佈情形和作用為何。由於資料龐大,所 以研究範圍限縮在其中兩個子語料庫:英語專家演講子語料庫與德語專家演講子 語料庫,分析三種情形:英語為母語的專家在英國大學的英語演講、德語為母語 的專家在英國大學的英語演講,以及德語為母語的專家在德國大學的德語演講。

研究結果發現笑聲會出現次數跟不同語言背景的學者有很大的關連,甚至也跟國 情息息相關 (Reershemius, 2012)。

2. 語言數據聯盟的資料庫

1992 年成立的語言數據聯盟(Linguistic Data Consortium,簡稱 LDC)是由 大學、公司與政府三方組成的開放聯盟,並以美國賓夕法尼亞大學(University of Pennsylvania)為主辦單位。其主要工作為創建和發布語料庫、詞典或其他資 源,每年都有一定數量發布出去,而大多須付費(Strassel & Cole, 2006)。文中舉

1992 年成立的語言數據聯盟(Linguistic Data Consortium,簡稱 LDC)是由 大學、公司與政府三方組成的開放聯盟,並以美國賓夕法尼亞大學(University of Pennsylvania)為主辦單位。其主要工作為創建和發布語料庫、詞典或其他資 源,每年都有一定數量發布出去,而大多須付費(Strassel & Cole, 2006)。文中舉

在文檔中 幽默語料庫之建置 (頁 22-30)

相關文件