第三章 研究方法與步驟
第一節 研究方法
一、線上語料庫系統
透過已建立的大規模語料庫進行研究,是語料庫語言學的主要研究方法。
相較於全人工作業的方式,利用電子計算機的輔助,可以大量、快速、準確的 進行研究是其最大的特色之一,本研究使用之語料庫,以台語文詞性標示系統 為主,中文斷詞系統為輔,而語料之建立,以全羅漢羅轉換系統來檢視,將課 本中沒有的連結符號做進一步確認,以增加語料輸入時的信度。
(一)台語文全羅漢羅轉換系統
此線上系統,使用者可自由選擇輸入漢字或台羅來進行轉換,系統會將句 子做適當的斷句,並把意思完整的詞彙以連結符號「-」加以標示。本研究使用 此系統,對語料的台羅標音進一步地加以檢視,以利於進行挑選華語詞時,提 供電腦更正確的判斷資訊。
(二)台語文詞性標示系統11
詞性標示系統為楊允言和張學謙共同主持之國科會計畫,此系統乃參考中 文斷詞系統詞類標記集,簡化台語之詞類後,分為 43 個標記和 3 個特殊標記,
共 46 個標記。本研究利用此系統,分為三個步驟進行:
1.輸入台語文找華語候選詞:進入系統,點選全羅漢羅台語文找華語候選 詞,再將資料輸入「對照文本輸入找華語候選詞」。系統會將漢羅文本 的部分,參照台華辭典 6 萬多詞條以及逆向最大匹配(BMM)演算法斷 詞,若是漢羅及全羅文本,則使用對齊程式逐詞對齊,下方即出現選出 之華語候選詞資料。
2.挑華語詞和標詞性:將華語候選詞資料輸入「挑華語詞和標詞性」中,
系統會根據華語候選詞的出現機率及前後文對照,加以比對後,標出可 能的詞性及其出現率。
3.整理:再將華語詞和詞性輸入整理欄,系統會選擇出兩組較為適當的詞 性組,即可挑出較符合文本原意的詞組作為研究語料。
(三)中文斷詞系統
此系統依據中央標準局「資料處理用中文分詞規範」處理中文斷詞問題,
詞類標記集(見 表三 1)則是由詞庫小組(1993)八萬目辭典中的 178 個詞類經簡 化後所得的 43 個標記,另外加上 3 個特殊標記,共 46 個標記。本研究為台語 語料,故以台語文詞性標示系統為主要查詢系統,若有疑慮則加以參照中文斷 詞系統的標記。
11網址:http://203.64.42.21/TGB/tagging/tagging.asp。2010/08/04。
(四) 本研究詞性標記 而分為 N、Nc、Nd、Ne、Nf、Ng 六類,即 Na、Nb、Nh 標記為 N;Nc、Ncd 標記為 Nc;Neu、Nes、Nep、Neqa、Neqb 標記為 Ne;而 Nd、Nf、Ng 則予以 保留。例如:一本書,「一」為 Neu、「本」為 Nf、「書」為 Na,若全精簡為 N,
表三 1本研究詞性標記集
二、描述統計
將十二冊所整理之詞性序列,進行相關的統計分析,包括各冊詞性序列數、
平均句長、較高覆蓋率之詞性序列,以及簡化詞性序列後,低、中、高年級之 詞性序列組合差異,進行描述統計的說明。將語料中,臺華對譯時,在詞性序 列組合上有所不同或需注意的句子,加以挑揀並進行差異句之分析比較。
三、比較法
將語料中,臺華對譯時,在詞性序列組合上有所不同或需注意的句子,加 以挑揀並進行差異句之分析比較。