語料庫為本相關研究之文獻回顧 - 語料庫介紹 - 客語語料庫之系統化建構與量化分析

2. 語料庫介紹

2.1 語料庫為本相關研究之文獻回顧

以漢語語料庫為本的研究，目前以利用中研院平衡語料庫做現代漢語研究分析最多。如蔡美智等（Tsai et al. 1998）、張麗麗等（Chang et al. 2000）、劉美君等（Liu et al. 2000）、黃居仁＆洪嘉馡（Huang and Hong 2005）等研究由語料庫為本比較近義詞之表現。藉由詞彙語意研究分析，瞭解近義詞的相似和差異、

詞彙的多義性、語意的呈現機制和延伸方式，進而整理漢語詞彙、編纂字典，

以進行理論及計算機之應用研究，倡導漢語語料庫語言學研究；例如：黃居仁等（1996，1997）以語料庫為本編纂國語日報量詞詞典；黃居仁等（Huang et al.

2000）及安可思等（Ahrens et al. 2003）根據語料庫發展出動詞語意表達模式 (Module-Attribute Representation of Verbal Semantics; MARVS) 理論架構；劉美君

（2002）建構中文動詞詞網 (Chinese VerbNet)，以框架語義 (frame semantics) 為理論，以語料庫為本的方法研究分析漢語動詞；洪嘉馡＆黃居仁（Hong and Huang 2008）利用兩岸不同單位所建構的語料庫，探索兩岸詞彙使用的差異現象，並藉此分析建立從語料庫中抽取兩岸對應詞彙的研究方法；鍾曉芳（Chung 2007）、洪嘉馡（2010）分別利用語料庫界定隱喻源域、詞義預測。同時，語言

學分析應用於計算機資訊處理，使電腦可分析語言、學習新的語言知識、自動辨識分析未知詞；例如：黃居仁等（Huang et al. 1998）利用統計方式、電子辭

典資源去分析名詞語意成分，以計質與計量方法支持語言學分析；陳克健＆陳超然（Chen and Chen 1998）從帶有分詞及詞類標記的語料庫抽取出未知詞，以

語法語意及統計機率關係表達開放型未知詞組合成分的構詞律模型，用以測度和辨識未知詞的複合詞合理程度；曾慧馨等（2002）則以合併兩種方式去計算

構詞規律，以預測未知動詞的詞類。綜觀以上漢語研究，均是建構在語料庫為本所開發出的研究面向。

國外語料庫起步較早，規模完備，語體富多樣性，因此結合人工智慧、統計演算法、語言學等學門的計算語言學或語料庫語言學之應用研究已頗具成果。例如：Verspoor & Lowie (2003) 設計不同的教學法，並利用統計學的分析法以瞭解多義詞學習在何者教學情境可獲得最佳效益。Stefanowitch & Gries (2003) 採用費雪精確度檢定(Fisher exact test)證明在語言理論中語法結構的確可被視為標誌，並為心理語言學方面之語言習得提供一解釋分析方式。再如Gries (2010) 以語料庫為本，採用統計方法證明英文的時態分佈（過去式、現在式）和英國或美國語料庫、語言使用時間（早期、晚期）有相關性；此外，Gries 運用統計學各種運算去檢驗、測試語言學分析應用（如：語意學的多義詞分析、歷史語言學的語言變遷、語言習得的先後與頻率關係），證明統計學確實可廣泛運用於語言學學門，但前提是需要有語料庫的奧援。

相較於國外的量化分析研究的成熟性，漢語語言學的量化統計囿於語料庫建構和取得的不易，大多相關文獻在處理台灣華語，如王玨珵＆黃美金（Wang and Huang 2006）探討台灣華語三個連接詞「因為」、「所以」和「然後」在口語語料庫的言談功能與分佈百分比關係，印證 Traugott (1995b) 提出的「副詞語法

化趨向」。鍾曉芳等（Chung et al. 2005）採用建議上層共用知識本體 SUMO (Suggested-Upper-Merged-Ontology) 的定義隱喻詞彙，以協助使用概念領域分類詞彙、建立詞彙之間關係。鍾曉芳＆安可思（Chung and Ahrens 2008）以量化比較和分析近義詞在語料庫的詞義，並以互見訊息(Mutual Information) 的運算，

比較不同近義詞的搭配詞，增加 MARVS 在語義分析的可檢驗性、運用在自動擷取詞彙語意上的基礎。

再觀以客語語料庫為本的研究，因為客語語料庫的欠缺、建構系統不完整及尚未對外公開等因素，而無法如台灣華語般蓬勃發展。台灣目前的客語語料庫相關建構資訊，於國立交通大學申請客委會92 年度補助大學校院發展客家學術機構的計畫「國立交通大學客家文化學院籌設暨客家文史工作推動計畫案」

（申請內容，見客委會網頁

http://www.hakka.gov.tw/ct.asp?xItem=8048&ctNode=1669&mp=298），計畫內容

顯示台灣客語自然口語語料庫為當初計畫預期目標，然而目前並未見到相關研究成果發佈於網路上。由中研院鄭錦全負責執行的「閩南語典藏-歷史語言與分布變遷資料庫」（http://southernmin.sinica.edu.tw/index.htm，執行期間

2003/01~2006/12），計畫目標之一為建立客家語語料庫，然目前並未見到客家語語料庫的上線。謝杰雄（2006）碩士論文，即在透過客語語料分析，以語料庫加工處理為目標導向，期建立客語分詞標準、詞類分類標準，建置一單機型客語語料庫為主，做為嘗試規劃和發展WEB 語料庫的基礎。近期，客語研究學者紛紛體認客語語料庫的建構是刻不容緩的，語料庫的建構除了最基本的資料典藏數位化之外，可應用在其他學科的應用研究，因此近年來各學術單位或研究學者紛紛提出建構語料庫的計畫與構想；包括前面所提到的，本人於2007 年執行完成96 年度客委會計畫「客語語法研究議題的開發：以語料庫為本」、本人於2007 年負責執行的「國立政治大學客語口語語料庫」，後續相關研究的迴響與出版包括：受邀於政大舉辦之第七屆文山國際學術研討會介紹政大客語口語語料庫（Chui et al. 2008）、於中央大學發表客委會 96 年度補助大學暨獎助學術研究計畫成果（Lai 2008）、於第八屆國際客方言學術研討會發表「客語語料庫的建構及應用」（Lai and Li 2008）、受國科會邀請演講「面對瀕臨死亡的語言我們能做些什麼？以客語為例」（賴惠玲2008）、與政大國語口語語料庫主持人徐嘉慧一同撰寫介紹政治大學漢語口語語料庫之期刊（Chui and Lai 2008）、受國立成功大學邀請於語言多元化發展與應用國際研討會（MDALL）演講客語語料庫議題（Lai 2009）、經邀稿和審核後刊登於第八屆國際客方言學術研討會論文集之「客語語料庫的建構及應用」一文（賴惠玲＆李詩敏2010），以上均顯示客語語料庫的重要性為學界各領域接受與肯定。此外，謝杰雄（2008）延續碩士

論文研究，實際演示一線上客語語料庫「山哈客家語語料庫」

（http://210.240.1.36/hakka/index.php），語料有斷詞、詞類加工，然語料庫註冊會員有使用權限的限制，需提供語料才能長久使用，並非全然免費對外開放；

目前語料大多為書面語，缺乏可顯示真實使用情境的口語語料。中研院語言典藏計畫預計自2007/01 至 2012/12 執行「閩客語典藏」計畫

（http://minhakka.ling.sinica.edu.tw/bkg/index.php），該計畫，內容包括建立客語的語言典藏（包括長篇語料文本、辭彙與口語語音），目標在於建立以研究為主要目標的閩客語語音、詞彙、文本及地理資訊的資料庫，並提供完善的檢索。

江俊龍執行之國科會97 年研究計畫「台灣客家語語料庫之建置及應用」，該計畫以客語「口語和文本」為收集對象，進行用字規範、標音規範、錄製音檔、

音檔轉寫文字、建立分詞體系與規範、建立詞類體系與規範、進行分詞與統計等項目，最終目的在建置200 萬字的漢字客語語料庫，研發電腦斷詞程式，設計與建置語料庫WEB 網站，架設伺服器。

從以上文獻回顧可發現，客語語料庫建構已引起各界的重視，除了保存客語語言、文化等最基本素材之外，應用在語言學上可做詞彙、句法、語意等分析研究，為語言學研究提供更為完整、縝密的分析基礎；更可再運用已建構的語料庫發展出各種與其他學門相關的研究，諸如語言教學、比較語言學、計算語言學、自然語言處理等。本研究計畫架構在本人過去客語語料庫所蒐集的語料素材、處理語料的經驗、客語研究的能量上，針對過去客語語料庫單機版的

缺點，期能以系統化方式整合過去的文本語料與現行政大客語口語語料庫之口語語料，書面語與口語語料並重，期能規劃建構出一可供連線作業的客語語料庫，除供檢索查詢之外，尚包括以各種條件，如作者、文體、出處、類型，篩選搜尋結果，以及進階設定共現詞彙功能、頻率統計功能、批次修改功能，希望藉由此功能周詳之客語語料庫，提供語言學研究者在考量詞彙語意之外，更可觀察詞彙語意與句法構式的互動，在更大的語境下勾勒出語言使用的實際情形，並輔以統計學門之專業知識，將語料庫應用在量化分析上，以「數字會說話」來讓客語研究更科學化、多元化及精密化。

在文檔中客語語料庫之系統化建構與量化分析 (頁 18-23)