第三章 研究途徑與步驟
第一節 建立研究語料
本研究的語料以台語漢字書面語或漢羅書面語為主,語料分成學術類與非學 術類語料。學術類語料的來源是「白話字台語文網站」所蒐集的台語文研討會論 文;非學術類的語料來源是「台語文數位典藏資料庫(第二階段)」所蒐集的文 本,這些文本目前亦收錄於「台語文語料庫」。本研究的語料是經「白話字台語
建立研究語料
詞彙豐富度 台華共通詞、台語
特別詞使用差異
語料處理
電腦斷詞 人工校正 詞頻統計
研究分析
羅馬字比例 平均詞長
文網站」與「台語文語料庫」管理者同意取得的,從語料中分別抽樣學術類與非 學術類(包括小說類、散文類、劇本類)各約 10 萬音節,合計建立約 20 萬音 節的研究語料。
本節分成語料簡介、語料限制、語料抽樣、抽樣結果四個部分說明研究語建 立的過程。
一一
一一、、、、語料簡介語料簡介語料簡介語料簡介
本研究語料分成學術類與非學術類兩種,選擇小說、散文、劇本三種文本做 為非學術語料,以便與學術類語料做詞彙使用上的比較。以下分成兩部分簡介學 術類語料以及非學術類語料:
(一)學術類語料
本研究的學術類語料來源是「白話字台語文網站」所蒐集的台語文學術研討 會論文電子文本,經網站管理者同意,下載做為學術研究之用,語料下載取得的 時間點為2008/7/12,該網站網址為:
http://iug.csie.dahan.edu.tw/giankiu/GTH/gth.asp。
學術類語料包括鄭良偉、張學謙、楊允言、李勤岸、方耀乾、呂興昌、蔣為 文、丁鳳珍等學者討論台灣羅馬字、語言人權、台語文學等議題所發表的論文,
有全羅、全漢以及漢羅三種書寫形式,時間從西元2002~2007 年,共計 6 個台 語文學術研討會。
本研究以全漢與漢羅書寫形式的文本為主,全羅書寫形式的文本不在本研究 範圍。刪除全羅書寫形式以及僅收錄題目或摘要的論文,取得的全文論文有 75 篇,音節數約有885,454 音節(音節數的計算是採用 Microsoft Word 工具選項
中的字數統計功能得到的數據)。
6 個台語文學術研討會,共計 75 篇全文論文的語料概述如下表:
表12 學術類語料表
年份 研討會名稱 篇數 音節數
2002 台灣羅馬字教學kap研究國際學術研討會 11 123,320 2004 台灣羅馬字國際研討會 14 144,100 2004 語言人權與語言復振學術研討會 9 69,350 2005 台語文學學術研討會 11 150,046 2006 台灣羅馬字國際學術研討會 16 190,528 2007 台語文學學術研討會 14 208,110 計75 885,454
(二)非學術類語料
非學術類的語料來源是「台語文數位典藏資料庫(第二階段)」所蒐集的文 本,這些文本亦收錄在「台語文語料庫」,本研究的語料是經由「台語文語料庫」
管理者同意取得的,取得的時間點為2008/7/12。
「台語文數位典藏資料庫(第二階段)」所蒐集的文本包括小說、散文、劇 本以及詩四種文本,以全羅與漢羅對照的方式書寫,年代從西元1885~2006 年。
作者從早期的巴克禮、賴仁聲、鄭溪泮、蔡培火,到近期的陳雷、陳明仁、李勤 岸等數百位作者,作品內容涵蓋宗教、時政、生活雜記、笑話等題材。
本研究以漢羅書寫形式的文本為主,全羅書寫形式的文本不在本研究範圍。
詩的表達方式最不接近口語,與小說、散文、劇本三類的差異較大,因此不列入 研究的語料,本研究僅選擇小說、散文、劇本三類文本做為非學術語料,用來和 學術類語料做詞彙使用差異的對照比較。
非學術語料扣掉詩以及全羅書寫形式的文本,得到小說、散文、劇本三類文 本共計1,560 篇,音節數有 2,452,075 音節。語料概述如下表:
表13 非學術類語料表
類別 年代 篇數 音節數 比例
小說類 西元1890~2006 年 386 1,051,375 42.88%
散文類 西元1885~2006 年 1,125 1,264,609 51.57%
劇本類 西元1924~2004 年 49 136,091 5.55%
計1,560 2,452,075 100.00%
說明說明
說明說明::::小說類小說類小說類、小說類、、散文類、散文類散文類散文類、、、劇本類比例計算至小數點以下第二位四捨五入、劇本類比例計算至小數點以下第二位四捨五入劇本類比例計算至小數點以下第二位四捨五入。劇本類比例計算至小數點以下第二位四捨五入。。 。
二 二 二
二、、、、語料限制語料限制語料限制語料限制
從表12、表 13 可知,本研究取得的學術類與非學術類語料分佈並不平均,
歸納有以下幾點限制:
(一)語料年代:學術類語料的年代集中在西元2000 年以後,非學術類語 料的年代從西元1885~2006 年,橫跨三個世紀。
節,非學術類音節的數量大約是學術類的三倍。
(三)文本種類:非學術類文本僅收錄小說、散文、劇本三類,未能涵蓋其 他文類。
(四)文本數量:學術類僅有75 篇,非學術類有 1,560 篇,非學術類的文
本數量大約是學術類的20 倍左右,相差懸殊。
因為上述語料的限制,本研究在語料抽樣上僅以語料音節總數、單一文本音 節數、文本年代、不同作者為抽樣主要考量,無法兼顧兩種文類的隨機抽樣;非 學術類文本亦僅有小說、散文、劇本等三類,未能涵蓋其他文類,無法呈現非學 術類台語詞彙使用的全貌。以上語料的限制與問題,期待日後建立大型公開的台 語書面語語料庫後能夠有進一步的解決途徑。
三三
三三、、、、語料抽樣語料抽樣語料抽樣語料抽樣
研究者根據所獲得的語料以及語料限制,擬定本研究的語料抽樣原則與抽樣 步驟,說明如下:
(一)抽樣原則
1.學術類與非學術類語料各抽樣約 10 萬音節數做為研究語料。
2.非學術類語料抽樣以西元 2000 年後的文本為原則,抽樣不足的部分依年 代往前抽樣。
3.同一文類同一作者抽樣以一篇文本為限。
4.同一文本超過兩位(含兩位)以上作者,以第一位作者為抽樣目標。
5.每篇文本抽樣最多以 5,000 音節左右為原則。
6.第 5,000 音節該段全部取樣,以保留語意之完整。
(二)抽樣步驟
學術類與非學術類實際的抽樣步驟說明如下:
1.學術類
(1)檢視文本內容:刪除外語(例如:日語)比例過重和以華語語法夾雜 少量台語詞彙(例如: ê、个)撰寫的文本。
(2)刪除篇名、作者、任職單位、圖表、參考書目、附表、附記、附錄、
註腳、謝詞等部分。
(3)刪除連續 50 音節(含 50 音節)以上非台語詞彙之語句。
(4)摘要、序論、結論等具代表性章節先行抽樣。
(5)若無摘要,直接從正文抽樣;若無註明序論、結論之文本,則以正文 第一段做為序論,最後一段做為結論。
(6)若摘要、序論、結論未滿 5,000 音節,由正文第二章節(或第二段)
依序往後抽樣,至第5,000 音節該段落為止。
(7)扣除步驟 2,不足 5,000 音節的文本整篇抽樣。
2.非學術類
(1)調整語料比例:從「台語文語料庫」獲得的語料中,小說佔 42.88%,
散文佔51.57%,劇本佔 5.55%。若依三類文本比例抽樣,劇本僅約 佔5%,代表性略嫌不足,因此調整比例為:小說約佔 45%,散文約 佔45%,劇本約佔 10%。
(2)刪除篇名、作者、出處、日期等部分。
(3)由正文第一段依序往後取樣至第 5,000 音節該段落為止。
(4)扣除步驟 2,不足 5,000 音節的文本整篇抽樣。
四四
四四、、、、抽樣結果抽樣結果抽樣結果抽樣結果
根據抽樣原則與抽樣步驟實施操作後,得到學術類文本21 篇,101,349 音 節;非學術類文本67 篇,102,335 音節;共計 88 篇文本,203,684 音節,語料 抽樣結果如表14、表 15:
表14 學術類語料抽樣表
年份 研討會名稱 選取篇數 音節數
2002 台灣羅馬字教學kap 研究國際學術研討會 5 25,374
2004 台灣羅馬字國際研討會 4 17,666
2004 語言人權與語言復振學術研討會 2 8,724
2005 台語文學學術研討會 7 34,969
2006 台灣羅馬字國際學術研討會 2 10,074
2007 台語文學學術研討會 1 4,542
計21 101,349
表15 非學術類語料抽樣表
類別 年代 選取篇數 音節數
小說類 西元1991~2006 年 16 48,008 散文類 西元2001~2006 年 49 46,286 劇本類 西元1966、2004 年 2 8,041
計67 102,335