第二章 文獻探討
第一節 語料庫語言學
第二章 第二章
第二章 文獻探討 文獻探討 文獻探討 文獻探討
語料庫語言學是以電腦做為工具研究自然語言現象的一門科學,目前已經是 語言學界重要的發展,語料庫是其中重要的基礎建設。從1950 年代開始各國已 相繼投入資源成立各種語料庫,進行語言研究與開發應用。台語語料庫的建置起 步比較晚,得到的資源有限,但是在台語有心人士共同努力下,目前已建立幾個 公開或尚未公開的語料庫,例如: 「台語文數位典藏資料庫」、「台語文語料庫」、
「台灣兒童語料庫」和「閩南語口語語料庫」等。
台語詞彙的成份相當複雜,可以從許多面向探討分析。本研究僅就台語詞彙 層、台華共通詞、詞彙豐富度、台語羅馬字詞彙以及台語平均詞長進行討論。
第一節 第一節 第一節
第一節 語料庫語言學 語料庫語言學 語料庫語言學 語料庫語言學
本節分成四點說明語料庫的定義、語料庫語言學的定義、中、英文語料庫簡 介、語料庫的應用與研究。
一 一 一
一、、、、語料庫的定義語料庫的定義語料庫的定義語料庫的定義
語料庫顧名思義是指存放大量自然語言材料的倉庫,可以是書面語或是口 語,以前以人工方式處理,現在以電子形式保存於電腦中,可作為語言研究的基 礎,廣泛用於語言研究和語言工程,現在所說的語料庫通常是指電腦語料庫而言
(黃昌寧、李涓子 2002)。
的語言訊息標註加工(Anthony McEnery, Richard Xiao, Yukio Tono 2006:
345)。
語料庫裡的語料必須能夠永續使用,永續使用包含兩個層面:一是語料重複 使用而不會耗損;其次是語料實質內容的永續性,亦即語料量夠大且足以代表語 言本體,少量特殊的語料沒有永續使用的價值。紙本書籍、錄音磁帶容易毀損,
人力能夠處理的資料量有限,因此,電腦可重複性、儲存記憶量大、運算快的特 點在語料的永續使用性上扮演關鍵性的角色,所以,現在所說的「語料庫」和「機 讀語料庫」基本是同義詞(黃居仁 1997)。「使用電腦儲存並處理語料,已成了
『語料庫』基本定義的一部分」(Atkins et al. 1992;轉引自黃居仁 1997:258)。
二 二 二
二、、、、語料庫語言學的定義語料庫語言學的定義語料庫語言學的定義語料庫語言學的定義
關於語料庫語言學,學者有以下看法:
(一)語料庫語言學是以文體研究做為語言描述、立論的基礎,以具體量化 的方式描述語言現象(Kennedy, Graeme D 1998:7)。
(二)Biber, Conrad, and Reppen 認為以語料庫為基礎的研究方式有以下 特徵:1.基於大規模、有系統收集的自然語料的實證分析;2.廣泛的 應用電腦工具進行分析,使用自動和互動的技術;3.同時運用質性和 量化的分析技術(轉引自張學謙 2005:2)。
(三)Biber et al.指出使用以語料庫為本的分析可以對自然言談的龐大語料 進行使用模式的實證分析(轉引自盧慧娟 2006:161)。
(四)Kennedy 也指出以語料庫為基礎的研究有助於語言學的描述與分析
(轉引自盧慧娟 2006:161)。
語料庫語言學是語言學界的重要發展,以建立語料庫為研究起點,運用電腦 做為研究工具,對大規模的自然語言進行分析,以定量的方式描述語言實際使用 情形的一門科學。
三 三 三
三、、、、中中中中、、、、英英英文英文文語料庫簡介文語料庫簡介語料庫簡介 語料庫簡介
語料庫是語料庫語言學的基礎工程,而且應用廣泛,例如:語言研究、辭 典編纂、語言教學、教材開發等。但是語料庫的建置涉及結構、規模、語料選擇、
語料加工以及語料庫管理等工作,是一項高資源、高成本的建設。各國大型的語 料庫多由政府或學術機構建立,例如:「英國國家語料庫」(BNC)由政府出資一 半,參與的單位有英國國家圖書館、牛津大學、蘭開斯特大學、朗文集團、錢伯 斯出版社等;「日語言語數據庫」是由日本教育科學文化省組織三百多位學者共 同完成的(黃昌寧、李涓子著 2002)。
自從 1959 年倫敦大學 Randolph Quirk 建立第一個大型電腦語料庫 SEU
(The Survey of Engilsh Usage)以來,語料庫發展快速,各國政府、組織陸續 建立各種語料庫,以下是幾個較具代表性的中、英文語料庫簡介:
表2 中文語料庫簡介表
語料庫名稱 年代 主持或組織 語料 規模 特色
中央研究院平 1997 中研究中文知 中文,書面 500萬 第一個有完
表2 中文語料庫簡介表
Kucera美國布 朗大學
Lancaster大學 和 Oslo 大學
1981 Svartvik Lund大學 COBUILD語
料庫
80年代 John Sinclair Collins出版 社,Berminhan (Longman)
1988~
4 資料來源:中文詞知識庫小組:http://ckip.iis.sinica.edu.tw/CKIP/20corpus.htm。2008/9/7。
5 資料來源:中國國家語委現代漢語語料庫:http://www.clr.org.cn/retrieval/index.html。
2008/9/7。
表3 英文語料庫簡介表 Greenbaum
英語,書面語,
例如:語言頻率統計、詞典編纂、詞彙搭配(collocation)研究、語言教學等。
本研究僅就幾項重要的應用領域,說明國內語料庫的應用概況。
1.詞典編纂
常用詞頻統計常用來編輯詞典與編寫教材,John Sinclair 編輯的 COBUILD
詞典,開啟以語料庫編纂詞典的先河。在台灣,1997 年黃居仁、陳克健和賴慶 雄主編的「國語日報量詞典」,是台灣首次採用語料庫方法的範例(黃昌寧、李 涓子 2002:170)。教育部國語推行委員會根據常用詞頻編纂「台灣閩南語常用 詞辭典」,收錄國中、小學生日常生活用語,目前共有1 萬 3 千餘詞,已推出網
路試用版6。 2.教材編輯
教育部自 1994 年開始規劃年度語詞調查統計工作,逐年進行統計提出報 告,做為教材以及語文工具書編輯參考(八十六年常用語詞調查報告書 1999)。
3.語言教學
學習者可利用語詞檢索(concordance)到語料庫中查詢詞的實際用法、搭 配等資料。「台語文 concordance」即是提供線上台語語詞檢索學習的網站,目 前有漢羅文本大約 5,816,250 音節;白話字文本大約 3,490,476 音節7。
4.第二外語教學
對比語料庫常應用於第二外語教學,盧慧娟(2006)比對「成功大學西班
牙語學習者語料庫」(CATE-NCKU-3)與西班牙語語料庫(CLE)(篩選自西班 牙皇家學院的現代西語語料庫),分析成功大學西班牙語系三年學生的常用詞彙 和詞語搭配組合的模式類型與分佈傾向,作為教學與設計教案的參考。
5.語言翻譯
關於應用語料庫進行翻譯的情形,以下學者有詳細的介紹:鄧敏君 (2005)
介紹語料庫中日、日中翻譯的應用;陳瑞清(2003)將這幾年應用語料庫翻譯 中英文的進展做詳細介紹;高照明(2002)則是簡介翻譯檢索系統在中英雙語
6 資料來源:教育部閩南語常用詞辭典試用版:http://twblg.dict.edu.tw/tw/index.htm。
2008/11/3。
7 資料來源:台語文 concordance 網站:
http://iug.csie.dahan.edu.tw/TG/concordance/form.asp。2008/11/3。
近譯句的應用。
(二)語料庫語言學的研究
語料庫語言學的研究大致可以分成兩個部分討論:一是對自然語料進行加 工、標注;二是用已經標注好的語料進行語言研究和應用開發(黃昌寧、李涓子 2002)。本小節著重於以語料庫為本的語言研究。
Biber 曾做過多項不同文類的詞彙研究,例如:以 Longman-Lancaster 語料 庫570 萬詞次語料,比較 big、large、great 在學術類、小說類的使用差異,發 現 large 在學術類文本使用的頻率最高,great 在小說類文本使用的頻率最高
(Biber、Conrad、Reppen 1998:43-44)。又以 Longman-Lancaster 語料庫為 基礎,探討小說類與學術類 begin 和 start 的語法關聯;以 Longman-Lancaster 語料庫學術語料,和英國國家語料庫(BNC)對話語料,研究 little 和 small 在
兩種不同語域中謂語形容詞用法的差異(黃昌寧、李涓子著 2002)。
在台灣,華語方面利用「中央研究院平衡語料庫」進行的研究有很多:廖小 婷(2003)採用中研院平衡語料庫的語料分析中文的施力動詞---「拉、拖、扯」
這組近義詞的詞彙語意特徵。研究方法主要是透過詞語搭配(collocation)辨別每 個動詞詞彙語意的基本特徵,主要目的是要從句法中的互補分佈,定義出近義詞 組「拉、拖、扯」的語意特質。黃郁純、陳薌宇(2005)以中研院平衡語料庫 為基礎,探討「擺」和「放」的詞語搭配及近義關係。研究顯示「擺」是比較靜 態的對物體描述,「放」比較屬於動態的對物體處置;「擺」比「放」更具有深層 意義。陳珮嘉(2000)探討漢語動詞單位詞與動詞搭配關係;余明憲(2005)
探討現代漢語中的三個「框架觸發動詞」--「玩」、「弄」和「搞」在「動賓」格
式中之格式語意;謝佳玲(2006)研究漢語情態詞的語意界定。
其他以語料庫語言學方法的研究還有:王萸芳(1995)研究漢語口語與書 面語中副詞子句的訊息順序,發現出現在主要子句前的副詞子句為引述下文之功 用,在主要子句後的副詞子句是為補充解釋前面的句子,通常出現在主要子句前 的副詞子句所修飾的範圍較大。劉賢軒(2005)比較台籍應用語言學研究者與 相同領域的英美籍學者所寫的論文,探討三種應用語言學論文中的態度成分:評 斷符號、強調符號和謹慎符號。發現台灣應用語言學研究者已經具備基本的學術 論文寫作能力,但是英文能力和學術寫作的成熟度仍比不上英美籍作者。盧慧 娟、林柳村、白芳怡(2007)以語料庫為本應用語詞搭配的語言教學研究。洪
嘉馡、黃居仁(2008)以語料庫為本的兩岸對應詞彙發掘。
以語料庫語言學方法研究台語的起步比較晚,不過到目前為止也已累積不少 研究資料,相關的研究計畫也在陸續進行中,台語語料庫語言學的發展已愈來愈 受到重視。
早期台語語料庫的研究有顏國仁(1995)台語口語的詞頻調查,口語語料 的來源主要是電台錄製的台語談話節目以及日常生活對話,以漢羅文字的形式轉 錄成12 萬字的書面語,經過斷詞、詞頻統計後,得到字頻表、詞頻表、以及雙 字組頻表三個常用詞頻統計表,整個研究只是建立台語口語語料庫的初步報告。
研究過程中遇到的台語文字標準化、詞彙定義、斷詞等問題,這些也是目前台語 語料庫研究主要的困難。
研究過程中遇到的台語文字標準化、詞彙定義、斷詞等問題,這些也是目前台語 語料庫研究主要的困難。