• 沒有找到結果。

第三章 研究方法與步驟

第一節 研究方法

一、線上語料庫系統

透過已建立的大規模語料庫進行研究,是語料庫語言學的主要研究方法。

相較於全人工作業的方式,利用電子計算機的輔助,可以大量、快速、準確的 進行研究是其最大的特色之一,本研究使用之語料庫,以台語文詞性標示系統 為主,中文斷詞系統為輔,而語料之建立,以全羅漢羅轉換系統來檢視,將課 本中沒有的連結符號做進一步確認,以增加語料輸入時的信度。

(一)台語文全羅漢羅轉換系統

此線上系統,使用者可自由選擇輸入漢字或台羅來進行轉換,系統會將句 子做適當的斷句,並把意思完整的詞彙以連結符號「-」加以標示。本研究使用 此系統,對語料的台羅標音進一步地加以檢視,以利於進行挑選華語詞時,提 供電腦更正確的判斷資訊。

(二)台語文詞性標示系統11

詞性標示系統為楊允言和張學謙共同主持之國科會計畫,此系統乃參考中 文斷詞系統詞類標記集,簡化台語之詞類後,分為 43 個標記和 3 個特殊標記,

共 46 個標記。本研究利用此系統,分為三個步驟進行:

1.輸入台語文找華語候選詞:進入系統,點選全羅漢羅台語文找華語候選 詞,再將資料輸入「對照文本輸入找華語候選詞」。系統會將漢羅文本 的部分,參照台華辭典 6 萬多詞條以及逆向最大匹配(BMM)演算法斷 詞,若是漢羅及全羅文本,則使用對齊程式逐詞對齊,下方即出現選出 之華語候選詞資料。

2.挑華語詞和標詞性:將華語候選詞資料輸入「挑華語詞和標詞性」中,

系統會根據華語候選詞的出現機率及前後文對照,加以比對後,標出可 能的詞性及其出現率。

3.整理:再將華語詞和詞性輸入整理欄,系統會選擇出兩組較為適當的詞 性組,即可挑出較符合文本原意的詞組作為研究語料。

(三)中文斷詞系統

此系統依據中央標準局「資料處理用中文分詞規範」處理中文斷詞問題,

詞類標記集(見 表三 1)則是由詞庫小組(1993)八萬目辭典中的 178 個詞類經簡 化後所得的 43 個標記,另外加上 3 個特殊標記,共 46 個標記。本研究為台語 語料,故以台語文詞性標示系統為主要查詢系統,若有疑慮則加以參照中文斷 詞系統的標記。

11網址:http://203.64.42.21/TGB/tagging/tagging.asp。2010/08/04。

(四) 本研究詞性標記 而分為 N、Nc、Nd、Ne、Nf、Ng 六類,即 Na、Nb、Nh 標記為 N;Nc、Ncd 標記為 Nc;Neu、Nes、Nep、Neqa、Neqb 標記為 Ne;而 Nd、Nf、Ng 則予以 保留。例如:一本書,「一」為 Neu、「本」為 Nf、「書」為 Na,若全精簡為 N,

表三 1本研究詞性標記集

二、描述統計

將十二冊所整理之詞性序列,進行相關的統計分析,包括各冊詞性序列數、

平均句長、較高覆蓋率之詞性序列,以及簡化詞性序列後,低、中、高年級之 詞性序列組合差異,進行描述統計的說明。將語料中,臺華對譯時,在詞性序 列組合上有所不同或需注意的句子,加以挑揀並進行差異句之分析比較。

三、比較法

將語料中,臺華對譯時,在詞性序列組合上有所不同或需注意的句子,加 以挑揀並進行差異句之分析比較。

相關文件