語料搜集方法與分析方法

第三章研究方法

第二節語料搜集方法與分析方法

一、語料搜集方法

本研究中分析的語料來自 TOCFL 學習者語料庫偏誤檢索系統的網頁⁸。該語料是使用本論文前一部分中所提到的工具及搜索選項從語料庫中收集的。在此研究中，筆者對由母語為德語的中文學習者所產出的整個語料經過分析，不過有關語料的準確數量將在分析結果部分才討論。

進行搜索過程時，筆者將以下選項固定全選。例如，體裁：全部；考生分數：3、4、5；左右字數：45。雖然「左右字數」的選項不會影響查詢的筆數，

但將每一筆的字數設定為最大值可提供最多的上下文。此有助於糾正偏誤，亦有助於了解各種偏誤可能發生的原因。然後，為了有效地歸納與分類，筆者決定將 L2 熟練程度/考試等級（共四種類型：A2、B1、B2、C1）與偏誤主類（共四種類型：M、R、S、W）作為兩個主要的變項，據此區分會分析的語料。該方法導致 16 個不同類別之間的區分 —— A2M、A2R、A2S、A2W；B1M、B1R、

B1S、B1W；B2M、B2R、B2S、B2W；C1M、C1R、C1S、C1W。請參考表三-3。

表三-3：德語語料語言水準及偏誤主類之分佈與比例 語言水準

偏誤主類

A2 B1 B2 C1 總計比例（%）

M（遺漏錯誤） 60 124 22 0 206 34.16

R（冗贅錯誤） 28 63 21 0 112 18.57

S（選用錯誤） 48 151 37 0 236 39.14

W（語序錯誤） 21 23 5 0 49 8.13

總計 157 361 85 0 603

比例（%） 26.04 59.87 14.09 0 100%

不過，在收集所有將分析的語料時，筆者發現目前沒有德語母語者 C1 熟練程度的語料。由於本研究的目的不是使用不同的語料庫來分析母語為德語的中文學習者的偏誤情況，而是專注於一個主要來源，因此語料分析局限於 TOCFL 學習者語料庫所提供的資訊。由於此，研究將包括 12 個類別：A2M、A2R、

A2S、A2W；B1M、B1R、B1S、B1W；B2M、B2R、B2S、B2W。

雖然由德國籍的中文學生所產出的語料不算豐富（尤其是與其他語料庫或是文獻的資料比較），但是對於本篇論文所要討論的議題而言，這樣數量的語料已足夠。

二、分析方法

在收集所有必要的信息後，作者根據前一部分確定的十二個類別檢查語料。

不過，首先在此需要指出一個關於語料庫數量及其與句子中偏誤數量之關聯性的事實：許多該語料庫中累積的例句包含一個以上的偏誤，因此同一句話可能多次出現在相同類別或是不同類別。請參考以下的兩個例句：

2. * 尤其是因為你近幾年都沒回來臺北過，而 [Sconj] 沒辦法想像臺北市的變化 [Myou] 多麼的大。（B1S）

3. * 第二個星期我還去聼 [Masp] 一個 [Scl] 音樂會，看了一部電影，也去看 [Masp]

臺北籃球隊的比賽！（B1M）

例句 2 是使用 B1 的程度與 S 的偏誤主類作為搜索標準找出的；例句 3 則將 B1 與 M 之偏誤類型當作搜索標準。粗體的偏誤類型為查詢過程的結果之一，非粗體的偏誤標記則是在句中額外出現的錯誤。由此可見，某一句話可包含多個不同類型的偏誤，也可包含幾個屬於同一類的偏誤，於是同一個例句將反覆出現。例句 2 將在 [B1Sconj] 與 [B1Myou] 之兩種不同類型出現。例句 3 總共出現三次 —— 兩次在 [B1Masp] 的類別中，一次在 [B1Scl] 的類別中。這也使得句子的總量無法精確統計，只能確定每種 L1、程度、偏誤類型等的偏誤量。

為了避免讓本研究的分析過程複雜化，作者決定只關注每個句子中在線上介面標示出來的紅色偏誤標記，如此，可逐一研究每一個出現的偏誤類型。這個方式唯一例外是搭配錯誤，在此情況下必須分析在紅色偏誤標記之前或之後使用的相應單詞。可參考例句 4。

4. * 我很喜歡本書的氣氛，看起來又漂亮 [Svs] 又可怕。看完了以後，你知道每個 傳統也有很有趣的部分，也有很多不太好的事情。（B1S）

上面例句 4 之焦點偏誤為「漂亮」的錯用。雖然上面例句合乎中文的語法，

但「漂亮」無法與前半句提到的「氣氛」搭配，因此需要觀察偏誤前後所使用的詞彙。

在進行語料分析的過程中，筆者決定直接在網上檢查數據，如圖三-2 所示。

採用此方式的的主要原因為使用語料庫的線上介面時，焦點偏誤（標記為紅色）

將被顯示於中間，讓重點更加明確凸顯、列出方式亦較有系統。下面提供 [Madv]（缺少副詞）偏誤類別前十個例句下載前與下載後的列出格式的直接比較。

圖三-2：[Madv] 偏誤類別前十個例句下載前後呈現方式的直接對比來源：TOCFL 學習者語料庫之網頁

http://tocfl.itc.ntnu.edu.tw:8080/WebAdmin?tab=1&query=[M]

由此可見，下載前線上語料的列出方式較明確為直接使用 TOCFL 學習者語料庫之網頁的優點之一。在此基礎上，筆者之後進行逐句的人工分析，筆者親自審閱母語為德語的中文學習者提供的全部語料。在研究提供的語料時，每個句子皆被閱讀、理解並儘可能地糾正。筆者遇到難以理解句子意義的問題時，

也請中文母語者們幫助澄清學習者最可能想表達的意思。在盡量理解語料含義的過程中，筆者同時做關於偏誤類型與來源的筆記，記錄重大錯誤及潛在的成因。由於一些偏誤開始反覆出現，筆者亦開始根據此現象分類。閱讀與理解每一個句子並根據偏誤類型做下完整的紀錄之後，作者整合與拼凑起所有的主要相似處。

在文檔中分析TOCFL學習者語料庫中母語為德語的中文學習者之寫作偏誤 (頁 46-50)

第三章 研究方法

第二節 語料搜集方法與分析方法

一、語料搜集方法

二、分析方法

http://tocfl.itc.ntnu.edu.tw:8080/WebAdmin?tab=1&query=[M]

第三章研究方法

第二節語料搜集方法與分析方法