第二章 文獻回顧
第一節 國內語料庫語言學研究的發展
語料庫為本(corpus-based)的研究是近年來語言學及計算語言研究的一個重 要發展(Svartvik 1992;Church & Mercer 1993;陳克健 1994;黃居仁 1995)。
國內語料庫語言學的相關文獻主要有中文、英文和台文。本節回顧相關的語料庫 語言學研究,希望能整理出國內語料庫語言學研究發展大概的輪廓。
「中央研究院平衡語料庫」是國內語料庫語言學發展的一個重要里程碑。它 是世界上第一個有完整詞類標記的漢語平衡語料庫(中央研究院資訊所、語言所 詞庫小組 1998)。第一版收錄約兩百萬詞,1996 年開放網路版供各界使用,並於 1997 年完成 3.0 版,收錄約五百萬詞。利用這個語料庫進行的研究,如:Huang, Chen
& Shen(2002)研究華語詞類的歧義性;Chung, Ahrens & Huang(2003)利用概 念繪製模組研究中英語料的比較;Huang & Hong(2005)研究同義的感知動詞;
謝佳玲(2006)研究漢語情態詞的語意界定。這個語料庫提供搭配詞(concordance)
的功能,讓研究者可以在詞彙大量的出現環境中,尋得出現的規律。比較可惜的 是這個語料庫只收錄華語語料,並沒有收錄華語以外的語料。
台語語料庫語言學的起步較晚,不過也已經建立起數量客觀的台語語料庫,
相關的語料庫研究也逐漸增加。台語語料庫的建立在早期多為研究者自行建構,
並未公開。張學謙的博士論文(Jang 1998)是最早以語料庫語言學的方法,全面 性的比較台語口語和書面語的研究。該研究進行台語口語與書面語的多面向分 析,建立了包含94篇口語與91篇書面語、總計144,942個詞的台語語料庫,並區分 了55個不同的語言特徵,將之歸為17類。該研究主要在找出影響台語語體變異的
深層言談面向,同時刻畫語體的篇章關係,經過分析之後得出五個深層言談的面 向。研究結果顯示語體的變異需要透過多面向的分析來掌握,因為任何單一面向 都不能絕對的區分口語及書面語的差異。該研究也發現某些言談上跨語言的通 則,而那些通則支配語體變異的模式。張學謙的研究,重點在口語與書面語的差 異,強調共現模式作為分析的基礎,而非個別的語言特徵,該研究雖然提到擴充 詞、強調詞與低調詞,不過,統計的結果只有強調詞和其他語言特徵有共現的關 係,其他的加強詞就沒有進行分析。
李勤岸的博士論文(Li 2000)研究 1916 年到 1998 年台灣話文學語段的詞彙 變化。該研究搜集兩位台灣日治時代的牧師所寫的四本小說,利用電腦輔助斷詞,
做成一個112,964 個詞符、12,941 個詞樣的詞庫,並將 1990 年代另外兩位作家的 五篇短篇小說作成另一個詞庫,有92,539 個詞符、12,969 個詞樣。該研究比較這 兩個詞庫,發現教會用詞嚴重流失、日語借詞並沒有如一般預期地減少,華語借 詞卻增加很多。結論是台灣話與任何語言一樣,在一段時間過程中,有增加的詞 彙也有減少的詞彙。國內的語料庫語言學大多屬於共時的研究,但是這篇論文屬 於歷時的研究,可說是台語語料庫語言學歷時研究的先驅,其後也不多見有其他 類似的研究。
2000 年以後,開始有公開的台語文語料庫出現。由楊允言建立、台灣羅馬字 協會管理的「台語文語料庫」就是一個公開提供給研究者免費使用的台語文語料 庫。該語料庫建立至少三百萬音節的台語文語料,文類涵蓋學術論文、報導性文 章(新聞報導、訪談)、各類創作(小說、劇本、散文、新詩、笑話、寓言故事、
童謠)、民間文學、書信……等各類型(楊允言、張學謙 2005)。利用這個語料庫 進行的研究如陳鄭弘堯(2002)應用在台語功能詞詞頻的分析;楊允言、張學謙
(2005)研究台語書面語音節詞頻統計;Iûn Ún-giân & Henry H. Tân-Tēn(2006)
調查台語書面語的媒體與資料處理的發展;楊允言、劉杰岳(2006)介紹台語文
計算語言學基礎建設。從這個時候開始台語語料庫語言學的研究大幅增加。
建立公開的台語語料庫還有「台語文數位典藏資料庫(第一階段)——台語 文全羅文字語音輸出系統」計畫,這個計畫的主要目的是將全羅馬字的台語文資 料轉成聲音,透過網路放送出來。技術方面,利用台文華文線上辭典查出台語的 華語對應詞,再透過中研院詞庫小組的辭典查出語詞的詞類標記,經過變調標記 演算法將這個台語文句標記變調註記,從事先錄好的台語音節串接成整句的 mp3 格式聲音檔,透過網站傳送聲音,讓使用者可以邊讀白話字資料邊聽聲音。
「台語文數位典藏資料庫(第二階段)——台語文學線上博物館」計畫承接 上述計畫的成果,將已經打字建檔且取得授權的資料傳上網,同時繼續把原來計 畫中尚未打字建檔的文學資料找出來打字建檔,用全羅及漢羅對照的方式呈現,
並且透過網路助讀器發出聲音。除此之外,系統也提供查詢介面,給使用者利用 作者、文類、文章名稱、時代、年代等資訊做查詢。
公開的台語語料庫為研究者提供了方便的語料。其他的台語文語料庫的研究 如:曾金金(1997)討論台語斷詞原則;黃將豪等(1997)研究利用詞典與搭配 詞的技術進行台文自動斷詞;楊允言(2003)從語域及借詞觀點探討台語文寫作 風格;Lyu, Liang & Chiang.(2004)研究建構包含台語的多語語料庫;楊允言、李 盛安、劉杰岳、高成炎(2005)研究台語變調的系統實作。另外,呂仁園、江永 進等人也進行了一系列有關台語語音辨證的語料庫研究(例如Liang, Lyu & Chiang 2007;Lin, Lyu & Chiang 2000;Lyu, Liang, Chiang, Hsu, & Lyu 2003;Lyu, Chen &
Chiang 2000;Lyu, Chiang, Fang & Hsieh 1998;Lyu, Liang, Lyu & Chiang 2006)。
國內還有其他語料庫語言學的研究,如 Wei, Thompson, Liu, Huang & Sun
(1997)討論建構一個歷史語料庫;Huang, Ahrens & Chen(1998)研究心理詞彙;
Huang(2000)討論計算語言學與語料庫語言學的發展;Huang(2001)討論語料
庫與量化的語言學;柯淑津、陳振南、黃居仁(2004)研究中文語料庫的詞義標 記;Hong & Huang(2006a)討論中文詞彙特性速描系統(CWS)與其背後的語料 系統(CGC)在語言學上的應用;Hong & Huang(2006b)比較語言的變異;洪嘉 馡、黃居仁、馬偉雲(2006)研究兩岸對應詞彙;黃居仁(2007)研究語料庫為 本的詞彙知識系統。
劉賢軒(2005)討論應用語言學論文中的態度成分。該研究收集六十篇已經 刊登在應用語言學期刊或是研討會論文集中的論文作為研究語料,其中三十篇為 台籍應用語言學研究者所寫的論文,另外三十篇為相同領域的英美籍學者論文。
劉賢軒利用檢索軟體查詢並統計三類態度成分:評斷符號、強調符號和謹慎符號。
研究發現台灣學者與外籍學者的語料有相當程度的共同特徵,顯示台灣應用語言 學研究者已經具備基本的學術論文寫作能力。並透過語料差異性的比較,發現台 籍語料和外籍語料中次類態度成分的出現頻率有差異,這是因為台籍應用語言學 研究者的英語能力無法媲美英美籍作者,而且學術論文的寫作經驗也略遜一籌,
顯示台籍作者的英文能力和學術寫作的成熟度仍比不上英美籍作者。
謝佳玲(2006)以語料庫為本,研究漢語情態詞的語意界定。該文參考漢語 與西方語言的共性與特殊性設立不同以往的分類框架,顯示普遍語法與個別語法 對語言學理的建構同等重要。該文的研究方法兼具理論與實際:理論的部份將情 態按觀點或態度的類型,分為認知、義務、動力與評價四種意義;實際的部份利 用中央研究院中文詞知識庫小組建立的「中央研究院現代漢語平衡語料庫」,從實 際的語言材料蒐集情態動詞與情態副詞以證實分類模式的意義,突破傳統列舉零 星內省性語料的方式,改以充分的實證性語料檢驗分析的適切性,證實語料與語 法理論之間密不可分的關係。
國內比較常見的語料庫語言學研究,有部分是應用在語文教學方面,特別是 英語的語文教學,這可能與研究者的出身系所有密切關係,目前這類的研究大多
是英語文研究所的教授或學生所做的研究。其他有關語法的語料庫語言學研究有 以下幾篇:
王萸芳(1995)研究漢語口語與書面語中副詞子句的訊息順序,該文主要著 重於口語會話中表時間、條件、原因等副詞子句的分佈及用法,後一部份再將口 語語料的研究結果與書面語中副詞子句的分布做比較。該研究顯示出現在主要子 句前的副詞子句為引述下文之用,而出現在主要子句後的副詞子句則用來補充解 釋前面的句子,通常出現在主要子句前的副詞子句所修飾的範圍較大。
陳雲釵(2001)研究漢語重疊詞語料之分析,該文旨在分析語料中漢語重疊 詞AAB,ABB ,AABB,與 ABAB 型之頻率分佈之差異。主要分析有三:第一、
在新舊語料中,漢語重疊詞AAB,ABB,AABB,與 ABAB 型之字形頻率分布。
第二、在新舊語料中,漢語重疊詞AAB,ABB,AABB,與 ABAB 型之詞類頻率 分布。第三、在新舊語料中,漢語重疊詞 AAB,ABB ,AABB,與 ABAB 型之 歷時分析。該研究成果可以提供理論語言學作漢語重疊詞句法、構詞與音韻結構 分析做參考,也可以提供漢語語言教學作參考。
廖小婷(2003)研究以語料庫為本的近義詞,對象是中文施力動詞「拉、拖、
扯」這組近義詞的詞彙語意特徵,採用中研院平衡語料庫的語料來做語料分析,
透過近義詞句法行為的比較,如搭配詞(collocation),去找出辨別每個動詞詞彙 語意的基本語意特徵。該文對於詞彙語意的假設是認為動詞的句法表現是由語意
透過近義詞句法行為的比較,如搭配詞(collocation),去找出辨別每個動詞詞彙 語意的基本語意特徵。該文對於詞彙語意的假設是認為動詞的句法表現是由語意