第三章 研究的步數
第三節 研究資料的處理
一、研究資料處理程序
本研究需要處理的程序分做三階段,第一階段欲將三个語料的詞分做「共通 詞」佮「非共通詞」,「共通詞」就是「繼續使用的語詞」;第二階段欲將「非共 通詞」閣分做「停用的語詞」佮「新選用的語詞」;上尾一个階段就是共第二階 段的結果做一个分析佮解說。
(一)第一階段需要處理的步數:
(步數 1) 建立包含這三 phō 聖經的語料庫。
(步數 2)用台語字詞頻統計系統進行詞頻統計。
28 台華線頂辭典網址http://iug.csie.dahan.edu.tw/iug/Ungian/soannteng/chil/Taihoa.asp
(步數 3)人工校對,修改錯誤的部分30。
(步數 4)產生詞頻統計資料。
(步數 5)利用 Excel 軟體進行共通詞佮非共通詞的計算。
(步數 6)排除用詞差異的部分,產生「繼續使用的語詞」。
佇這个階段需要特別處理的步數是步數 6;因為這三个語料分別是:《巴克 禮譯本》使用廈門話(偏泉州腔)、《高陳譯本》台中腔(偏漳州腔)、《現代譯本》
用台北腔(偏泉州腔)做書寫,所以使用的語詞會有無仝款的選擇。楊允言等
(2004:242)的研究31:
PKLSK 以廈門話為主,APSK 以台中腔為主,廈門話是泉州腔 ê 成分
加足kôan,台中腔顛倒 péng,漳州腔佔優勢。所以,咱 tih 探討語詞 變化ê 時陣,腔口 ê 因素應該考慮入來。
另外,文白(文言音/讀冊音 kah 白話音)差異 kah 腔口差異 ê 問題 類似,雖然kâng 意思,soah 因為寫法無 kâng,致使算 tī P iah 是 A ê 部 分(非共通詞)。Chiâ ê 語詞,算做共通詞 chiah 合理。
本研究的處理方式是利用台華線頂辭典的詞條來進行計算,揣出遮的無仝寫 法的語詞。比對的方法是:
30 這部分需要校對、修改的是語料內面的錯誤,親像:聲調錯誤、用字差異以及拍字錯誤。
31 楊允言等(2004)的研究中,PKLSK 代表《巴克禮譯本》、APSK 代表紅皮聖經《高陳譯本》;
1.建立一个用 VLOOKUP 函數32進行運算的Excel 檔案。見圖 3-4。
圖3-4 文白差異佮腔口差異計算公式
2.用《高陳譯本》的 7056 个語詞,比對台華線頂辭典的 8,922 个詞條,揣看
是毋是有另外的寫法。
3.揣著了後,將另外遮的寫法囥入去《巴克禮譯本》的 5234 个語詞查詢;若
有揣著的,閣用人工檢查確認。
4.仝款方式重做(三),共查詢對象換做《現代譯本》。
(二)第二階段需要處理的步數:
(步數 7)用《現代譯本》做比較見本,揣出非共通詞當中干焦《現代 譯本》有的語詞,叫做「新選用的語詞」。
(步數 8)對毋是「新選用的語詞」的其他語詞當中,閣揣出其中一个 語料有毋過《現代譯本》無的語詞,共叫做「停用的語詞」。
(三)第三階段需要處理的步數:
(步數 9)分析佮解說。
二、第一階段研究程序流程圖
圖3-5 第一階段處理程序 建立語料庫
初步詞頻統計
人工校對修改
產生詞頻資料
毋是三个 語料攏有
準非共通詞 共通詞
(繼續使用的語詞)
Yes No
步數 1
步數 2
步數 3
步數 4
步數 5
是用詞差異 步數 6 的語詞
非共通詞 No Yes
三、第二階段研究程序流程圖
圖3-6 第二階段處理程序 開始
干焦《現代 譯本》有 比較非共通詞
新選用的 語詞
停用的 語詞
其中一部有
《現代譯本》無
其他語詞
結束 Yes
Yes No
No
步數 8 步數 7