第一章 踏話頭
第五節 名詞解說
一、台語
上濟台灣人的母語;就是一般所講的「閩南語」,嘛叫做「福佬話」。
1957 年出版的《台灣語典》,連橫嘛講著當時民間使用「台語」的情形:
今之學童,七歲受書,天真未漓,咿唔初誦,而鄉校已禁其台語矣。
今之青年,負笈東土,期求學問,十載勤勞而歸來,已忘其台語矣。
張復聚、張學謙、楊允言、劉杰岳(2003)提出的看法是:所有台灣的本土 語言攏是台灣的母語,簡稱做台語;若是一般所講的台語,干焦是指Hō-ló 話。
台灣是一个族群文化多元豐富的國家,每一个族群攏有伊的母語,其中「台 語」就有規十種的別稱,親像:河洛話、福佬話、福建話、閩南語…等,用「台 語」這个名稱可能會有爭議(楊允言2008 引用李勤岸的文章9)。
避開各方對「台語」名稱的爭議,本研究所講的「台語」,是指台灣七成以 上的人所咧使用的語言,同時抑是民間對「Hō-ló 話」上慣勢的指稱。
根據這个定義,台語聖經也就是用Hō-ló 話所寫的聖經。書面語表現形式有 三種:全羅馬字10、全漢字11、漢羅並用12文本。
9 原文〈沒有名字的語言?〉刊佇台灣文學館通訊 15 期。
10 本研究三个語料就攏是全羅馬字文本,簡稱做「全羅」。
11 台灣基督長老教會目前使用上濟的台語聖經《台語漢字本聖經》就是全漢字文本。本研究將這
種文字表現方式稱做「漢字」。
12 夏威夷台語教會佇1987 年發行的《路加福音漢羅試寫》是將《巴克禮譯本》改寫做漢羅並用文
二、語料庫語言學相關專有名詞
到底是愛siáⁿ-mih?(錄自〈走 chhoē〉楊允言創作 2003)經過斷詞佮詞頻統計,得著表1-2 「詞型」佮「詞次」統計範例的數字:
(一)詞型(word types)
佇文章當中會出現真濟無仝的語詞,遮的無仝的語詞,就叫做「詞型」。表 1-2 「詞型」佮「詞次」統計範例顯示這段文章有 48 个無仝款的語詞,也就是 48
(二)詞次(word tokens)
這48 个「詞型」出現佇文章當中攏總出現幾擺,就叫做「詞次」。親像「愛」
這个詞型攏總出現5 擺,「愛」的詞次就是 5;這段文章總詞次是 63,就是攏總有 63 个語詞。
(三)詞頻(word frequency)
文章當中字詞出現的頻率,就叫做「詞頻」。親像「愛」這个詞型的詞次就 是5,這段文章總詞次是 63,所以「愛」的詞頻就是 5/63*100%=7.94%。
(四)遮蓋率(coverage rate)
「遮蓋率」就是「累積詞頻」,共語詞照詞頻對懸排到低,按順序累積計算 語詞所佔的pha 數;用表 1-2 「詞型」佮「詞次」統計範例的例,計算出表 1-3。
表1-3 遮蓋率範例
詞型 詞次 詞頻 遮蓋率
愛 5 5/63*100%=7.94% 7.94%
kám 是 4 4/63*100%=6.35% 14.29%
因為 4 4/63*100%=6.35% 20.64%
ê 4 4/63*100%=6.35% 26.99%
chia 3 3/63*100%=4.76% 31.75%
/ / / /
山坡地 1 1/63*100%=1.59% 100.00%
計共:63
簡單說明遮蓋率的用處,以學習策略來講,假使某一个語言的語料,攏總有 10,000 个詞型、1,000,000 个詞次,其中,詞頻上懸的前 300 个詞型,遮蓋率達到 60%,這表示針對這个語言,咱若學習著前 3%(300/10000)的詞型,就看有這个 語言60%的文本。
三、本研究名詞定義
(一)共通詞佮非共通詞
本研究的語料總共有三份,通過語詞的詞頻統計了後,若是三phō 聖經攏有 的詞,就稱做「共通詞」。
佇圖1-1 三 phō 聖經共通詞示意圖,中央的範圍內底的語詞是「共通詞」;其 他各部份的詞(包括有任何兩phō 聖經有的語詞,抑是干焦有一 phō 聖經有的語 詞。)就是「非共通詞」。
圖1-1 三 phō 聖經共通詞示意圖
(二)繼續使用的語詞
根據圖1-1 三 phō 聖經共通詞示意圖,「共通詞」就是三个版本攏有的語詞,
本研究定義做「繼續使用的語詞」。
(三)新選用的語詞
用《現代譯本》做比較的基準,若是佇《巴克禮譯本》佮《高陳譯本》攏無 出現過,毋過有出現佇《現代譯本》的語詞,本研究就共伊號做「新選用的語詞」。
《巴克禮譯本》 《現代譯本》
《高陳譯本》
共通詞
(四)停用的語詞
用《現代譯本》做比較的基準,若是佇《巴克禮譯本》佮《高陳譯本》捌出 現過,佇《現代譯本》內底煞無看著的語詞,本研究就共伊號做「停用的語詞」。