• 沒有找到結果。

第三章 研究方法

第一節 建立語料庫

本論文重點為應用語料庫翻譯學的研究方式,描述兩岸小說譯文的差異,因 此需要建立兩個分別收錄大陸及台灣譯本的語料庫。不過,在收集好兩岸的同本 異譯之後,必須先經過一連串的處理過程,才能將紙本轉換成可供電腦或語料庫 軟體使用的機讀語料,以便於研究。以下,筆者將敘述本論文裡語料庫的建置程 序。

由於本論文所收集之繁簡體字譯作均為紙本,所以建立語料庫的第一個步 驟,即是先掃瞄文本,才可讓辨識軟體識別出文字。將掃好的語料存成圖檔,就 可用辨識軟體開啟。

文本掃瞄完畢之後,接著是以辨識軟體將圖檔轉換成文字(圖3.1)。筆者使 用的是清華TH-OCR 系統,為對岸開發,可辨識簡體與繁體中文。只要開啟圖 檔,選擇要辨識的中文類型,再用滑鼠游標框選欲辨識的範圍(如圖3.1 右側所 示),即可轉換範圍內的文字。此軟體能同時處理多個圖檔,每個圖檔一辨識好,

系統就會儲存一個對應的純文字檔,待圖檔全都辨別完成,再點選系統的導出功 能,便可將所有純文字檔匯整成一個檔案。

3.1 辨識軟體視窗

然而,辨識完的文字檔案,還不能夠直接使用,必須先和原文比照校對才行,

而校稿大概是建立語料庫過程中最耗時費力的步驟。依筆者經驗,使用軟體辨識 中文的準確率約為80%左右,在剩下的 20%中,除了校正錯別字之外,還得填 補無法辨別的字詞或段落(此部分通常會呈現亂碼),並且修改標點符號,校對 完成之後,才可以利用斷詞系統處理文字檔案。

以斷詞系統切割中文語料,目的是要在每個單詞之間插入空格,如果沒有空 格的話,語料庫軟體會無法判別,而將整個中文句子或段落視為一個單詞。在本 論文中,筆者使用由中研院開發的CKIP 中文自動斷詞系統來處理語料。將辨識 後校對好的語料儲存成純文字檔,或者直接複製貼入CKIP 處理視窗,接著點選 自動斷詞功能,系統就會在中文的單詞之間插入空格,如圖3.2 所示。

3.2 斷詞系統視窗(未標記)

除了直接斷詞之外,CKIP 還有另一項重要的功能,就是替處理好的語料加 上詞類標記,如下圖所示:

3.3 斷詞系統視窗(加上標記)

執行完斷詞或詞類標記之後,還需要再經過兩道程序,才能夠讓這些文字成 為可供語料庫軟體處理的語料。第一,由於CKIP 插入的空格為全形,而語料庫 軟體所能辨認的空格為半形,因此必須先將文字貼入Microsoft Word 軟體中,利 用尋找及取代功能,將全形的空格都取代為半形。第二,CKIP 斷詞的準確率尚

未達到百分之百,根據筆者經驗,大約比辨識軟體的辨識率略高,也就是說,這 些語料仍需要再校對。而且,未標記與已標記的語料無法共用,所以兩種語料得 各自從頭到尾校對一次。修改完成之後,儲存成純文字檔,就可以用語料庫軟體 開啟了。

相關文件