TOCFL 學習者語料庫的說明與使用

第三章研究方法

第一節 TOCFL 學習者語料庫的說明與使用

一、TOCFL 學習者語料庫的特色

TOCFL 學習者語料庫為本研究的主要資料來源。為了理解已分析語料的性質，本部分之目的為解釋該語料庫的構建與可能用途。張莉萍（2012）於

《TOCFL 作文語料庫的建置與應用》的文檔，仔細說明語料庫的建置與使用。

張莉萍（2012）在上述的文檔中指出她從 2006 年至 2012 年蒐集參加 TOCFL 電腦考試的考生作文。在第一章內，張莉萍描述其範圍，指出語料庫包含 39 種不同的母語、4,567 篇作文、71 種不同的主題及字數大約為 150 萬字。

不過，張莉萍幾年後（2014a）提出的範圍增加了一些。根據此來源，語料庫的範圍增加到 42 種母語背景、5,092 篇作文、130 個不同主題及大約 174 萬字（張莉萍，2014a）。

至於設置 TOCFL 語料庫的主要動機，張莉萍提出許多語料庫僅關注一個語言程度，或將所有不同語言水準混在一起，對程度不作區分。張莉萍則希望對 L2 的不同程度提供明確被區分的語料，如此能夠對比同樣母語背景與不同 L2 水準的學習者，亦可對比不同母語背景與同樣 L2 水準的學生。

張莉萍接著提出語料庫中的不同語言程度主要基於歐洲共同架構 (The Common European Framework of Reference for Languages, 簡稱 CEFR) 所提供的區分準則。根據 CEFR 的標準，張莉萍收集與 A2、B1、B2 和 C1 熟練程度相關的語料。語料來源主要是與華語文能力測驗有關的各種練習與作文及從測驗中收集的實際材料。屬於 A2 程度的語料主要是實用性的便條及「看圖說故事」的練習、B1 的語料類型主要是書信及一般記敘文、屬於熟練程度 B2 的資料為應用文與論說文，最後 C1 程度的語料主要是報告類的圖表說明及論說文。

對字數分佈而言，B1 的水準占全部語料庫的近一半，再來是 B2、A2 及 C1

（可以詳見表三-1）。對母語背景的分佈而言，數量最多的語言為日語（大約占據語料庫的四分之一），其次是英文以及韓文（請參照表三-2）。雖然所提供的信息早於 2014 年，但張莉萍在描述中提供的表格比例至今仍然有效。從表三-2 可看得出來，2014 年前來自母語為德語的中文學習者產出的語料相當少，

低於 3%。雖然語料量不多，但仍有研究與分析的空間。

表三-1：TOCFL 語料庫 L2 程度之分佈狀況

來源：張莉萍（2012，頁 143）

表三-2：TOCFL 語料庫學習者母語之分佈狀況

來源：張莉萍（2012，頁 143）

二、TOCFL 學習者語料庫的使用

TOCFL 語料庫的結構組成分為三種主要搜索類型 —— 偏誤檢索、字串檢索以及關鍵詞檢索。三種類型的搜索介面，關於如何進一步分散和區分語料的選項是一部分相同的。共同的搜索選項包含考試等級（A2、B1、B2、C1）；考生母語（目前有 46 個選項，包含「其他」）；體裁（8 類）；考生分數（3 至 5 分，

請參考下面提供的說明）以及每個例句中中心詞左右出現的字符數量（15、25、

35、45）。「左右字數」該選項主要是為了提供足夠的資訊，以了解學習者想要表達的內容。關於作文不同分數的選項，TOCFL 考試中的各種作文進行評審時，評分為 1 至 5 分，3 分為通過考試的門檻 —— 因此，語料庫裡無法選擇 1 與 2 分。之外，最後三種類型共同用的選項是選擇每個句子中心詞之左側或右側出現的單詞或字符，如此可研究中心詞與額外搜索的詞語的出現關係。

另外的搜索選項取決於三個類型的不同重點。關鍵詞檢索啓用用戶直接輸入想查詢的關鍵詞，之外可選某個關鍵詞屬於的詞性（總共 9 類）；字串檢索可直接輸入所尋找的字串；偏誤檢索則稍微複雜一點。在偏誤檢索的介面，張莉萍提供《偏誤標記更新版》之說明手冊（張莉萍，2014b）。在此文件中，張莉萍介紹四大主類及三十六次類。提到的四主類大約於在文獻綜述的部分中經

常談到的偏誤類型相同 —— 遺漏錯誤 (missing, M)、冗贅錯誤 (redundant, R)、

選用錯誤 (selection, S) 以及語序錯誤 (word order, W)。偏誤檢索中可選的次類主要分為四個層次 ——「詞」的層次、「語」的層次、「句型」層級以及「混合類」。在附錄部分中，將列出所有主類（附錄 1）和次類（附錄 2）的詳細翻譯與描述。附錄 1 與 2 所提供的信息均取自張莉萍（2014b）提供的說明手冊。

在主類與次類之間，從兩個類別中至少需要選一個來進行有效的語料搜索。

例如，用戶可搜索 M 類型的各種偏誤，但不需要指定次類。與此相反，用戶亦可以選擇一個特定的次類，而不指定要搜索哪一種主類。如此一來，由於共享的搜索選項（例如，L1 背景、L2 熟練程度、考生分數等選項）與本偏誤檢索所提供的選項，選擇與搜索各種語料來研究不同學生的偏誤情況相當多樣。

為了提供檢索過程下一步的描述，以下將提出一個實例。在偏誤檢索的介面上選出的設置如下 —— 考生等級：A2、B1、B2、C1；考生母語：德語；體裁：全部；考生分數：3、4、5；左右字數：45；偏誤主類：M（遺漏錯誤）；

偏誤次類：全部。按下「查詢」按鈕後，所有對應每一個選項的語料將在選出的設置下面呈現，總共找到 206 筆。請參考圖三-1。

圖三-1：TOCFL 語料庫德語部分 M 類搜索結果之網頁

來源：TOCFL 學習者語料庫之網頁 http://tocfl.itc.ntnu.edu.tw:8080/WebAdmin?tab=1&query=[M]

圖三-1 顯示被檢索的語料在 TOCFL 學習者語料庫的呈現風格。從此可看出，

語料庫首先列出搜索到的偏誤左前的所有字符（「依左邊首字排序」）、在偏誤侯列出「依右邊首字排序」、中間列出所搜索到的偏誤類型。此例子類型為 M（遺漏錯誤）。在列出所有與 M 類有關的偏誤時，所有次類將按字母順序列出，首先為 [adv]（副詞），然後是 [asp]（時態助詞）、[aux]（能願動詞）等類型。在上面提供的圖三-1 可看得出來第一個出現的類型為 [Madv]（缺少副詞）。

例如，圖三-1 中的第 8 筆缺少「就」這副詞，造成如下的病句：

1. * 從那一天起老師和王明星 [Madv] 是好朋友！

雖然透過該語料庫提供的工具可研究的方面相當多，不過，仍有一些特徵會影響該語料庫的效率。在斷詞處理之後，張莉萍意識到由於學習者使用的電腦輸入法為漢語拼音方法而產生偏誤，並決定將所打錯的詞彙主動改成正確的版本。文檔中提到受到這種策略的例子為「舞會 – 誤會」或是「願望 – 元望」。

學習者將前者輸入為後者而打錯字。張莉萍認為輸入錯誤不影響整體語言表達，

不過，由於我們無法知道學習者是否打錯字或是因混淆而故意選字，因此無法研究語音相似及語音相同易混淆詞類型的偏誤狀況。該現象看起來被視為打字問題，而不是真正存在的一種易混淆詞類型。因為此類易混淆詞在 TOCFL 學習者語料庫中無法研究，所以可說是語料庫的限制之一。另外一種潛在的限制是偏誤標記出現時不提供正確的版本，如此無法得知每一句話想表達之意義。

在文檔中分析TOCFL學習者語料庫中母語為德語的中文學習者之寫作偏誤 (頁 42-46)

第三章 研究方法

第一節 TOCFL 學習者語料庫的說明與使用

一、TOCFL 學習者語料庫的特色

二、TOCFL 學習者語料庫的使用

第三章研究方法