• 沒有找到結果。

語料庫語言學

第二章 文獻分析

第一節 語料庫語言學

一、語料庫的定義、應用與研究

語料庫是大量自然語言素材的有限集合,蘇新春(2010)強調語料庫應是「大 量」及「有序」的,而且語料庫的形式必須是電腦可以處理,而且要有處理這些 語言素材的軟體,是成為語料庫的基本要件。

衛乃興(2001)解釋語料庫語言學是以真實的語言為研究對象,對大數量的語 言進行分析,從中找出語言使用的規律;語言分析以實際使用語言現象的出現概 率為依據進行分析。何安平(2004)轉述 Graeme Kennedy 的看法指出語料庫研究 的四個層面:1.探討某個詞的出現頻率,出現語境以及鄰近的搭配的「詞彙層 面」。2.運用有語法標注的語料庫,研究各種詞性標記的組合模式以及對各類句 型做量化分析的「句法層面」。3.研究口語和書面語篇章的連貫和銜接的語言基 礎的「篇章結構」。4.研究各種篇章的語言特徵,進而構立語篇分類的語言標準 的「篇章類型」。

黃居仁(2006)「中文詞彙特性速描系統」Chinese Word Sketch (CWS)在 Sketch Engine 的平台上結合鉅量語料庫與詞彙語法等資源,產生語法與與語意關係的資 源,提供了詞彙特性描述(word sketches)、語法關係(grammatical relations)以及同 義詞分佈(distributional thesaurus) )的查詢,可以自動抽取相關共現詞彙、論元結 構、獨特搭配詞彙等等訊息。鄭錦全(2008)利用現代漢語語料庫,計算出 22 萬 個句子每句詞語及漢字的數目,得出最高頻次的長度是15 個詞語或 17 個漢字,

最高頻的50%的句長在 4 到 20 個詞語或 6 到 32 個漢字之間。

因語料庫語言學的發展使得語料庫得以應用在語言教學、語言研究以及語言 工程等。衛乃興(2001)說明語料庫的運用大致有以下五種:1.語言頻率統計︰以

7

定量分析為主,以定性分析為輔,在外語教學中,利用詞彙頻率統計訂定常用詞 彙表,成為語言教學的重點。2.辭典編纂:建立語料庫編纂辭典,每一個詞條都 有詞頻的統計結果,而且每個例句都是實際使用的真實例句,不是憑空杜撰的。

3.詞彙搭配研究:詞彙搭配受到詞義、用法、文化、習慣的影響,不再依賴語言 學家主觀語感,語料庫中大量的真實語料提供了一個客觀分析的依據。4.語言教 學:學習者在語料庫可查詢詞彙的用法、詞彙的搭配、詞義的細微差別等。5.自 然語言處理:將語料庫語言學的方法應用在語音辨識系統中,在機器翻譯的自然 語言處理系統中,可以大幅提高可靠性及效率。

二、 台語語料庫

早期有台語文語料庫語言學的研究,但語料庫多為研究者自行建構,並未公 開。國家台灣文學館從2001 年 5 月開始為期四年,執行「台灣白話字文學資料 蒐集整理」計畫,蒐集到一千多本的白話字書刊,並將部分有文學性的作品打字 建檔。高成炎、楊允言、江永進(2003-2004)執行「台語文文化推廣網站建構計畫」, 將全羅馬字的台語文資料建立聲音檔,可利用網路查詢與線上學習。 高成炎 (2004-2005)執行「台語文數位典藏資料庫(第一階段)──台語文全羅文字語音輸出 系統」。楊允言、張學謙執行「台語文數位典藏資料庫(第二階段)──台語文學線 上博物館」,網站上呈現258 萬音節的台語文學資料,亦開發台語文語料整理重 要且基礎的工具程式:計有漢羅/全羅對照台語文的線上校對系統,以及全羅台 語文的文本統計系統,可統計文本的段落、句、語詞、音節的數量,另有數字調 號轉圖形顯示系統及羅馬字拼字檢查系統。

楊允言、張學謙(2005)建立超過 900 萬音節以上的台語文文本,透過台語文 音節及語詞頻率統計,對台語文用字問題提出建議。

張學謙(2000)嘗試辨認影響台語語體變異的深層言談面向,刻畫語體的篇章 關係,辨認出五個深層言談面向:一、人際關係 vs.表達資訊;二、個人情感的 表達;三、說服面向:邏輯 vs.空間的連接;四、敘述面向;五、具親和力的說

明vs.詳細報導。

楊允言(2009)執行「教育部台語詞頻調查」計畫,提供教育部九年一貫課程 綱要中台語學習、教材編輯或辭典編輯的參考,建構至少有100萬台語語詞的基 礎語料庫,並統計台語的字詞頻,提供一個語詞檢索系統提供一般民眾使用。

9

相關文件