第二章 文獻探討佮分析
第四節 語料庫語言學
語料庫語言學是語言研究的新興學派,語料庫是共大量的自然語言材料,用 電子檔案方式保存佇電腦資料庫內底,提供做語言研究所用(黃昌寧、李涓子 2002)。
語料庫的應用非常闊,用國內的例來說明語料庫實際應用佇台語研究的方向 佮情形:嚴國仁(1995)台語口語的詞頻調查、張學謙(2000)用語料庫來比較
台語借詞的情形、楊允言(2003)對語域佮借詞的觀點探討台語文寫作風格、楊 允言(2004)用兩版本聖經作語料進行語詞變化研究、謝昌運(2007)台語加強 詞的研究、曾國榕(2008)台語學術類佮非學術類的詞彙使用比較、賴淑玲(2008)
教育部台灣閩南語推薦用字的比較分析、李欣珉(2008)國民小學閩南語民間版 教科書漢字選用之研究、蔡秀俐(2009)羅馬字 tī 台語文漢羅文本中 ê 使用分析—
以台語文語料庫為基礎…等。
下面舉出幾个研究實例,做本研究的參考:
一、楊允言佮張學謙的研究
楊允言佮張學謙(2007)提出:辭典佮語料庫是一个語言佇計算語言學發展 的時所需要的重要基礎建設。
語料庫會使講是一種語言除了辭典以外,佇計算語言學的發展所需要的重要 基礎。佇 2003 年,楊允言開始建立台語文語料庫,目前相關功能包括:台語語 詞檢索、台語音節佮語詞的頻率統計、台語音節佮語詞的互訊息以及相關度統計。
本研究的研究方式採用上述的功能,欲利用台語文語料庫當中聖經的部分
(共三个版本的聖經),透過詞頻統計的方式,來探討台語語詞的歷時變化。
二、楊允言的研究
楊允言(2003)利用台語語詞中移借語層詞彙的使用情形來探討台語文的寫
作風格,將移借語層的詞彙看做是日語借詞、華語借詞佮教會用語三个主要無仝 的語域(register)。共無仝年代的文本提來比較,看出其中的差異。
楊允言用李勤岸的研究做基礎16,另外佇語料的部分,閣加上卓緞女士的白 話字歌詩,仝款用計算各語域詞彙的方式,來量化寫作風格。
這个實驗利用台語詞彙的統計、比較,對語域佮借詞的觀點來探討台語文寫 作的風格,提供語料庫語言學應用佇文學分析的一个實例。
三、江永進的研究
江永進(1999)的國科會計畫:用語料庫來進行台語語言模型的建立佮應用,
探討台語音轉文、文轉音的問題。
2001 年伊閣用語料庫進行語音辨識的實驗,蒐集台語語音資料、擴充台語語
料庫,並且紹介用資訊科技處理音節的方式。伊認為建立台語佮華語語詞對應的 資料庫,是台語這種弱勢語言所需要的:
16 李勤岸(2000)的研究語料是 1916 年佮 1935 年出版的台語聖經,以及 1920 年代佮 1990 年 代的台語文小說,伊共語料內底出現的詞彙,分類佇所屬的各語域來做比較,發現台語詞彙 在這段時間的變化是:教會用語減少真濟,日語借詞增加無濟,華語借詞大量增加;規个來
台華語是無仝款e語言,具備無仝款e語法,無仝款e語詞順序(word order),但是具備相當濟e共同詞,以及可以簡單對應e對應詞。跨語言
語言模型調適,主要e想法是利用華語大量e語料,來調適台語語料不 足e困境。(江永進 2004:3)
2009 年江永進閣進一步提出利用語料庫進行台華語互譯的研究,伊使用讓格 書寫17方式製作一套台華語平行語料庫,用來探討詞典製作佮台華語互譯的問題。
佇江永進遮的研究當中,攏會當凸顯用語料庫進行統計的方式是處理自然語 言的關鍵方式,毋過相對華語語料庫的發展來講,台語文的語料庫需要閣較濟的 拍拚佮政府的重視,才會當挽救台語的流失佮弱勢化。
四、曾國榕的研究
曾國榕(2008)用語料庫語言學的方式來比較學術佮非學術的台語書面語的
風格差異,針對台華共通詞、詞彙豐富度、羅馬字詞彙、平均詞長這四个方面來 探討。伊的研究發現台語借用華語詞彙是一種趨勢,愈正式的文體借用的比例愈 懸。
這種利用語料進行斷詞、統計,再來分析、比較語料中間的差異的方式,是 本研究進行的模式。
17 讓格(làng-keh)書寫是佇語句當中適當的所在加入一个空白字元,有促進閱讀閣語言統計…等的
五、其他研究
蘇新春(2010:7)佇《詞彙計量及實現》這本冊內底講著:
計量研究,又叫定量研究,通過對語料進行數的反映,以達到認識語 言規律和特點的目的。計量研究認為,事物的質與量有著密切的關 係,質存在於量之中,量反映質。重要的語言現象都會以較多的量的 形式表現出來。
陸致極(1991)佇《計算語言學》嘛表示字頻佮詞頻的統計,是欲了解語言 成分佇實際使用當中的規律性,這種大量的資料處理,利用計算機是一種上好、
上正確的方式。
語料庫的研究方式佇近來是一个台語文研究的進步;2003 年,台灣羅馬字協 會所建立的「台語文語料庫18」,是目前國內收錄上濟音節數的台語書面語語料庫。
除了這个語料庫以外,台語語料庫猶有其他,親像:國立政治大學漢語口語 語料庫19、台灣閩南語兒童語料庫20…等。雖然其中規模佮發展攏猶未成熟,毋過 已經提供予真濟台語研究真好的材料佮幫贊。比較政府佇華語語料庫佮台語語料 庫投入的經費、人力、資源等等,致使台語語料庫的發展無法度綴會著華語語料 庫,這部分閣愛靠閣較濟的有志人士來共同拍拚。
18 台灣羅馬字協會管理,楊允言程式設計佮資料蒐集。
19「國立政治大學漢語口語語料庫(NCCU Corpus of Spoken Chinese)」佇 2006 年開始籌備、建立,
包含三个語言的口語語料:華語、客語、台語,目前猶未開放。