整理 - 研究方法 - 逐句口譯之錯誤分析研究

第三章研究方法

第六節整理

由於研究者在實驗進行的同時，便記錄下參與者回應辨識和理解任務時的答案，所以彙整結果並不困難。為避免錯誤，研究者在整理譯句的語料時，也再一次根據錄音檢查現場的紀錄。所有答案確認無誤後，即轉錄至 Microsoft Office 2003 的 Excel，以利日後計算工作。

二、語料整理

本研究的語料整理分兩階段，第一階段為完整的抄錄，第二階段才開始清理。研究者發現若抄錄時直接篩選該抄錄的文字，有任何問題就必須回到原始錄音尋找所屬譯句的相關片段，是非常耗時耗力的工作。若是抄錄後再清理，

研究者則可保有兩個版本，出現問題時可逕行比對。本研究使用的抄錄工具為 Microsoft Office 2003 的 Excel，其尋找功能有助於語料的快速比對。

至於語料為何須要清理，原因在於本研究著重的是語意轉移，所有語料均須分解成命題，而錯誤或無心的語言表層結構，屬於口語表達（expression）的面向（Tommola, 2003），不但無助於語意轉移的研究，更會直接影響命題的結構。對本研究而言，多餘的文字會影響字數，但可能不影響時間長度，使語速的計算受到影響；譬如，口語表達必然有許多缺陷，如「嗯」、「啊」或自我修正等無意義但可辨識的部分，若其全部視為參與者欲表達的語意而不予以刪除，譯句中無意義的字數就會因而增加。詳細的討論請參與本節第二項「標註音訊檔」部分。

本研究的抄錄原則很簡單：凡可辨識的部分全部抄錄。這也使本階段的語料有時非常冗長，以下為一實例（空格部分為停頓處）：

在馬來西亞跟新加坡呢就是他們都會講很多除了英文以外的語言然後在這種多語言環境之下我會覺得我會覺得我會覺得這種情況是正常的以上例句出現了語助詞「呢」，口頭禪「就是」與「然後」，以及三次的「我會覺得」（劃雙底線處）。研究者必須思考這些自然口語常出現的元素是否保留。上句的「就是」若不視為口頭禪，則僅可能是連接詞或副詞；若為前者，

從句法看不出該連接的兩個部分為何，但若為後者，又無法從其語氣聽出「強調後述事實」的意味，故較合理的判斷為口頭禪。此外，「我會覺得」若不視為表達缺陷的話，就會出現兩個同義但對語意轉移毫無價值的不完整命題。

因此，抄錄的譯句必須再次清理，刪除明顯不影響全句語意的多餘部分，

但最高指導原則仍是盡量保持譯句的原貌。為此本研究遵循以下原則：

1. 語助詞如句尾的「呢」等可刪除；

2. 台灣特有的口頭禪如「那」、「那個」、「然後」或「就是」等可刪除；

3. 台灣獨特的方言用法可刪除；

4. 參與者自我修正時，只保留最後的「決定版」，之前的部分可刪除。

然而，前三項原則只指明大方向，且例外不勝枚舉：

T3-6 語料清理原則的反例

原則例外

語助詞可刪 1. 語尾助詞「嗎」是中文疑問句的要素，不能任意刪除。

2. 「這是很正常的」中之「的」不能刪除。

口頭禪可刪 1. 「那」和「那個」可能是定詞。

2. 「就是」可能是連接詞。

3. 「然後」最難判斷，可能真的是連接詞，而非口頭禪。

方言用法可刪 1. 「我有到過他家」的「有」是副詞，屬台灣的方言語法（Lin, 1999），在此較像時態標記（魏文真，1994），刪除後並不影響語意，但「沒有」與「只有」分別具否定及限制功能，其「有」

就不能任意刪除。

2. 「有」也可能是及物動詞。

換言之，研究者必須仔細判斷，並大致瞭解中文的詞類，為此本研究參考以下免費線上工具：

1. 中央研究院中文詞彙網路一：http://cwn.ling.sinica.edu.tw/；以及 2. 中央研究院中文詞彙網路二：http://bow.sinica.edu.tw/wn/。

3. Stanford Parser 2.0.2（http://nlp.stanford.edu/software/lex-parser.shtml）。

以上工具對釐清中文詞的界線、詞類和意義有極大幫助，尤其釐清詞類後，就能判斷必可刪除的字或片段。Stanford Parser 2.0.2 還能快速畫出中文句構的剖析樹，使詞與詞之間的關係更為明確。

在上述語料清理原則中，最難以拿捏的應是自我修正，因其經常須仰賴研究者的主觀判斷，且有時須刪除的字詞頗多，現以下句為例：

要注意的是這些擁有語言專業的老師們不是不不只是要不應該只

是被視為一個典範而是要真正會真正懂得這個語言的老師我從來沒有

想過他們的英文在他們的英文有任何奇怪的地方

本研究認為雙底線部分屬自我修正，緊接在後的斜體字才是「決定版」。參與者有時會經過多次修正，才找到心中最理想的譯法；譬如，以上例句的譯者直到修正三次後才決定「不應該只是」最為恰當。以上例句中共79 個字，雙底線的片段共15 個字，佔全句的約 19%，但刪除後對譯句本身的語意並無影響。

三、標註音訊檔

研究者在此可利用 Adobe Audition 的標註功能劃分測試句及譯句的範圍，

再使用 CueListTool（http://www.tonbandstimmen.de/cuelisttool/index_e.htm）將各範圍的時間數據匯出。然而，研究者必須先決定如何界定譯句的頭尾；測試句的頭尾無庸置疑，故無此技術問題。現以下句為例：

嗯……那…嗯…英文真的很難學

此句有三個可能的起點：第一個「嗯」、「那」或「英」。本研究的原則，是譯句的頭必須為含有語意的片段，句頭之前的就只是零碎的語音。此時「嗯」

即可排除。「那」雖是可辨識的字，但基本上毫無語意，故也排除。「英」之後的部分顯然具有語意，故在本研究中，「英」雖非參與者發出的第一個音，

卻被視為句頭，而在標註譯句的音波範圍時，只有「英文真的很難學」被

「框」為譯句，「嗯……那…嗯…」則排除，意即從發話開始到結束的時間可能有 4 秒，但真正被本研究視為翻譯的部分僅 1.5 秒。總之，本研究希望計算的

「速度」，是含有語意部分的語速，無意義處則不在本研究計算範圍之內。

測試句及譯句的數據由 CueListTool 匯出後，即可轉載至 Microsoft Office 2003 的 Excel 中計算字速。由於本研究的譯句共 300 句，相關數據無法全部列

Kintsch 與 van Dijk（1978）及 Bovair 與 Kieras（1985）所提出的規範，為本研究將測試句解構成命題時的最主要依據。然為瞭解英文句構，研究者也經常使用 Proxem Antelope（http://www.proxem.com/Default.aspx?tabid=119）查看結構樹，譬如「I like their idea about carpooling」可分解成兩種命題構型：

構型一 構型二

P01（LIKE, I, IDEA） P01（LIKE, I, IDEA）

P02（POSSESS, THEY, IDEA） P02（POSSESS, THEY, IDEA）

P03（ABOUT, IDEA, CARPOOLING） P03（ABOUT, P01, CARPOOLING）

在文檔中逐句口譯之錯誤分析研究 (頁 85-89)

整理

第三章 研究方法

第六節 整理

第三章研究方法

第六節整理