• 沒有找到結果。

第三章 研究方法

第六節 整理

由於研究者在實驗進行的同時,便記錄下參與者回應辨識和理解任務時的 答案,所以彙整結果並不困難。為避免錯誤,研究者在整理譯句的語料時,也 再一次根據錄音檢查現場的紀錄。所有答案確認無誤後,即轉錄至 Microsoft Office 2003 的 Excel,以利日後計算工作。

64

二、 語料整理

本研究的語料整理分兩階段,第一階段為完整的抄錄,第二階段才開始清 理。研究者發現若抄錄時直接篩選該抄錄的文字,有任何問題就必須回到原始 錄音尋找所屬譯句的相關片段,是非常耗時耗力的工作。若是抄錄後再清理,

研究者則可保有兩個版本,出現問題時可逕行比對。本研究使用的抄錄工具為 Microsoft Office 2003 的 Excel,其尋找功能有助於語料的快速比對。

至於語料為何須要清理,原因在於本研究著重的是語意轉移,所有語料均 須分解成命題,而錯誤或無心的語言表層結構,屬於口語表達(expression)的 面向(Tommola, 2003),不但無助於語意轉移的研究,更會直接影響命題的結 構。對本研究而言,多餘的文字會影響字數,但可能不影響時間長度,使語速 的計算受到影響;譬如,口語表達必然有許多缺陷,如「嗯」、「啊」或自我 修正等無意義但可辨識的部分,若其全部視為參與者欲表達的語意而不予以刪 除,譯句中無意義的字數就會因而增加。詳細的討論請參與本節第二項「標註 音訊檔」部分。

本研究的抄錄原則很簡單:凡可辨識的部分全部抄錄。這也使本階段的語 料有時非常冗長,以下為一實例(空格部分為停頓處):

在 馬來西亞跟新加坡 呢 就是 他們都會講 很多除了英文以外的語言 然後 在這種 多語言環境之下 我會覺得 我會覺得 我會覺得這種情況是正常的 以上例句出現了語助詞「呢」,口頭禪「就是」與「然後」,以及三次的「我 會覺得」(劃雙底線處)。研究者必須思考這些自然口語常出現的元素是否保 留。上句的「就是」若不視為口頭禪,則僅可能是連接詞或副詞;若為前者,

從句法看不出該連接的兩個部分為何,但若為後者,又無法從其語氣聽出「強 調後述事實」的意味,故較合理的判斷為口頭禪。此外,「我會覺得」若不視 為表達缺陷的話,就會出現兩個同義但對語意轉移毫無價值的不完整命題。

65

因此,抄錄的譯句必須再次清理,刪除明顯不影響全句語意的多餘部分,

但最高指導原則仍是盡量保持譯句的原貌。為此本研究遵循以下原則:

1. 語助詞如句尾的「呢」等可刪除;

2. 台灣特有的口頭禪如「那」、「那個」、「然後」或「就是」等可刪除;

3. 台灣獨特的方言用法可刪除;

4. 參與者自我修正時,只保留最後的「決定版」,之前的部分可刪除。

然而,前三項原則只指明大方向,且例外不勝枚舉:

T3-6 語料清理原則的反例

原則 例外

語助詞可刪 1. 語尾助詞「嗎」是中文疑問句的要素,不能任意刪除。

2. 「這是很正常的」中之「的」不能刪除。

口頭禪可刪 1. 「那」和「那個」可能是定詞。

2. 「就是」可能是連接詞。

3. 「然後」最難判斷,可能真的是連接詞,而非口頭禪。

方言用法可刪 1. 「我有到過他家」的「有」是副詞,屬台灣的方言語法(Lin, 1999),在此較像時態標記(魏文真,1994),刪除後並不影響 語意,但「沒有」與「只有」分別具否定及限制功能,其「有」

就不能任意刪除。

2. 「有」也可能是及物動詞。

換言之,研究者必須仔細判斷,並大致瞭解中文的詞類,為此本研究參考 以下免費線上工具:

1. 中央研究院中文詞彙網路一:http://cwn.ling.sinica.edu.tw/;以及 2. 中央研究院中文詞彙網路二:http://bow.sinica.edu.tw/wn/。

3. Stanford Parser 2.0.2(http://nlp.stanford.edu/software/lex-parser.shtml)。

以上工具對釐清中文詞的界線、詞類和意義有極大幫助,尤其釐清詞類後,就 能判斷必可刪除的字或片段。Stanford Parser 2.0.2 還能快速畫出中文句構的剖 析樹,使詞與詞之間的關係更為明確。

66

在上述語料清理原則中,最難以拿捏的應是自我修正,因其經常須仰賴研 究者的主觀判斷,且有時須刪除的字詞頗多,現以下句為例:

要注意的是 這些 擁有語言專業的 老師們 不是 不 不只是要 不應該只

被視為 一個典範 而是要 真正會 真正懂得這個語言 的老師 我從來沒有

想過 他們的英文在 他們的英文有任何奇怪的地方

本研究認為雙底線部分屬自我修正,緊接在後的斜體字才是「決定版」。參與 者有時會經過多次修正,才找到心中最理想的譯法;譬如,以上例句的譯者直 到修正三次後才決定「不應該只是」最為恰當。以上例句中共79 個字,雙底線 的片段共15 個字,佔全句的約 19%,但刪除後對譯句本身的語意並無影響。

三、 標註音訊檔

研究者在此可利用 Adobe Audition 的標註功能劃分測試句及譯句的範圍,

再 使 用 CueListTool(http://www.tonbandstimmen.de/cuelisttool/index_e.htm)將 各範圍的時間數據匯出。然而,研究者必須先決定如何界定譯句的頭尾;測試 句的頭尾無庸置疑,故無此技術問題。現以下句為例:

嗯……那…嗯…英文真的很難學

此句有三個可能的起點:第一個「嗯」、「那」或「英」。本研究的原則,是 譯句的頭必須為含有語意的片段,句頭之前的就只是零碎的語音。此時「嗯」

即可排除。「那」雖是可辨識的字,但基本上毫無語意,故也排除。「英」之 後的部分顯然具有語意,故在本研究中,「英」雖非參與者發出的第一個音,

卻被視為句頭,而在標註譯句的音波範圍時,只有「英文真的很難學」被

「框」為譯句,「嗯……那…嗯…」則排除,意即從發話開始到結束的時間可能 有 4 秒,但真正被本研究視為翻譯的部分僅 1.5 秒。總之,本研究希望計算的

「速度」,是含有語意部分的語速,無意義處則不在本研究計算範圍之內。

67

測試句及譯句的數據由 CueListTool 匯出後,即可轉載至 Microsoft Office 2003 的 Excel 中計算字速。由於本研究的譯句共 300 句,相關數據無法全部列

Kintsch 與 van Dijk(1978)及 Bovair 與 Kieras(1985)所提出的規範,為 本研究將測試句解構成命題時的最主要依據。然為瞭解英文句構,研究者也經 常使用 Proxem Antelope(http://www.proxem.com/Default.aspx?tabid=119)查看 結構樹,譬如「I like their idea about carpooling」可分解成兩種命題構型:

構型一 構型二

P01(LIKE, I, IDEA) P01(LIKE, I, IDEA)

P02(POSSESS, THEY, IDEA) P02(POSSESS, THEY, IDEA)

P03(ABOUT, IDEA, CARPOOLING) P03(ABOUT, P01, CARPOOLING)

在文檔中 逐句口譯之錯誤分析研究 (頁 85-89)