• 沒有找到結果。

第二章 文獻探討

第五節 語料庫研究

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

25

咯(囉/嘍) 這三個語氣詞可個別在閩粵言中找到相對應的語氣詞,可表示各種語 氣,大略包括肯定、提醒、猜測、建議、不耐煩等。

來的(嚟嘅) 來自粵語,表示對判斷的肯定。

啦 受閩南語、粵語及馬來語影響,使用範圍廣、頻率高,可表示確定或 主觀認可、完成、強調、命令、請求等語氣。

整理自陳淑婷(2012)《馬來西亞華語口語語氣詞變異試論》

陳淑婷將三部大馬華人電影對白中的語氣詞羅列,並一一列舉各個語氣詞在 各種方言中的語用功能,雖然鉅細靡遺但缺乏分類及針對性,不過卻足以成為本論 文的重要參考依據。截至目前為止,馬來西亞華語語氣詞尚無更完整而深入的研 究,這也是我們後輩研究者值得努力的方向。

第五節 語料庫研究

(一)語料庫

何 安 平 (2012) 解 釋 何 為 語 料 庫 語 言 學 時 提 到 : 「 語 料 庫 語 言 學 (Corpus Linguistics)是當代語言學與計算機科學交叉的一門新興學科。它用計算機手段對巨 量的語言文字資源庫(又稱語料庫,corpus 或 corpora)進行高速檢索、統計和展 示,以揭示真實語言使用的傾向性規律及其所傳遞的意義、功能乃至思想意識。」

從何安平的解釋中,可以得知語料庫是一種利用量化方式去分析語言的工 具。因為過往的語言學研究中,雖然討論了大量語法、結構、語意等學問,卻忽略 了這些理論在真實語言中出現的概率。因此語料庫的出現正好補足了這個缺點,讓 語言學可以從更貼近真實的角度去描繪語言現象與法則。

英語語料庫語言學的理論和應用發展是所有語言中成果最為豐碩者,包括英 國牛津大學的國家語料庫(British National Corpus)、布朗語料庫(Brown Corpus)、科 布語料庫(Cobuild Corpus)、近代的朗文語料庫(Longman Corpus)、當代美國英語語 料庫(The Corpus of Contemporary American English)、美國國家語料庫(American National Corpus)等。在漢語方面,則有中央研究院之現代漢語平衡語料庫(Sinica

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

26

Corpus)和香港理工大學的華語共時語料庫(LIVAC Synchronous Corpus)。在西班牙 語語料庫的研究發展中,則以西班牙皇家學院的現代西班牙語語料庫 (CREA:

Corpus de Referencia del Español Actual)最為知名。10 (二)以語料庫為本之分析與研究

在台灣以語料庫為本的研究有漢語、英語及台語(台灣閩南語)。早期以中研 院平衝語料庫產出語言學研究論著的學者有陳克健(1994) 的素材語言學與文本處 理、1997 年的國語構詞及詞組結構研究、黃居仁(1997) 現代漢語功能詞之用法與 分 佈 研究 。 較近 期 的研 究則 有 黃居 仁 (2007) 以 語料 庫為 本 的詞 彙系 統 研究 , Chung(2009)以語料庫為本的隠喻研究等。

除了以語言學語料庫為本的研究外,也有學習者語料庫為本的研究。在國外 的研究有 Granger(1998)研究語料庫在第二外語學習上的應用、Neff(2004)的英語學 習者語料庫對比研究。其它語種的研究還有 Gonzalez(2002)分析以西語為母語之葡 語學習者和以葡語為母語者之西語學習者的語言偏誤。

國內的研究則有盧慧娟(2009)利用自行建構和開發的學習者語料庫和輔助工 具對比分析台灣西語學習者在第三語連接詞的多用、誤用和少用之使用傾向,及其 可能的影響因素,其分析結果有別於過去的研究發現。Lu (2010)根據 Andersen (1991)所提出的詞彙動貌假說理論,以「台灣西語學習者語料庫」的語料研究不同 語言程度之學習者在西班牙語兩種過去式(簡單過去式和未完成過去式)的語言使 用。研究結果顯示針對狀態動詞而言,其結果與以英文為母語的學習者的發展模式 類似。在日語語料庫運用方面,黄淑妙(2009)則一方面用統計的方法,從橫斷與縱 斷的角度分析「台灣日語學習者語料庫」(CTLJ)的語料,一方面從語誤分析的角 度,來剖析語料的內容。

10 引自國立成功大學機構典藏,文學院外國語文學系之國科會研究報告,計畫名稱:補助人文及社 會科學研究圖書計畫規劃主題─語料庫語言學,計畫編號:NSC97-2420-H006-040-2E2,研究期 間:2008-12~2009-11

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

27

從以上的各類研究來看,語料庫的建置揭開了語言學研究的新扉頁,學者們 利用大量的真實語料做詞彙、句法、搭配詞、學習偏誤及對比分析等研究。目前國 內當無人以語料庫為本做語氣詞的相關研究,因此筆者將於本文內抽樣研究國內語 料詞的使用概況。

(三)中央平衡語料庫簡介

本文中採用的語料庫為目前國內最大最全面的語料庫─中央平衡語料庫。

「中央研究院平衡語料庫」簡稱「中研院平衡語料庫」(Academia Sinica Balanced Corpus of Modern Chinese ,簡稱 Sinica Corpus),是世界上第一個有完整詞類標 記的漢語平衡語料庫。內含自一九九○年起交換取得、直接向版權所有單位取得、

從公共區域取得的資料近兩千萬字,平均涵蓋各種文類 (如報導、評論、信函、劇 本、會話、演講)、文體 (如記敘、論說、說明、描寫)、語式 (如書面、口語、口說 的書面、書寫的口語)、主題 (如哲學、科學、社會、藝術、生活、文學) 與媒體 (如報紙、雜誌、教科書、工具書、學術論著、視聽媒體)等,此語料庫盡量做到平 衡分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。

此語料庫於 1994 年公開提供給國內外學術研究使用;以期在使用過程中得 到回饋,在完成目標規模前可以做必要的修正。1997 年開放的研究院語料庫 3.0 版 已達到五百萬目詞的預計規模。 本文中使用的是 4.0 版11,為一包含一千多萬目詞 的帶標記平衡語料庫。4.0 版所蒐集的文章為 1981 年到 2007 年之間的文章。語料 庫共有 19,247 篇文章;1,396,133 句數;11,245,932 個詞數 (word token) ;239,598 個詞形 (word type),各主題其篇數如下:

主題 篇數

文學 2525

生活 5461

社會 7466

11 中央研究院現代漢語標記語料庫4.0版:http://asbc.iis.sinica.edu.tw/

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

28

科學 1482

哲學 1378

藝術 935

加總結果 19247

從上表可得知此語料庫較大篇幅的語料來源來自生活和社會類,更為貼近真 實生活語言,也更符合本文針對分析自然語境中語氣詞的研究目標。

‧ 國

立 政 治 大 學

N a

tio na

l C h engchi U ni ve rs it y

29