本小節分為三大部分,首先將統計 15 文類前 200 名分類關鍵詞分布在一~
三種文類的情形並針對集中於一種文類的分類關鍵詞進行討論,接著統計各文類 間的相似度,找出相似度高的前 3 組文類進行分析,並且藉由文類相似度檢視「創 作文學」及「口傳文學」兩大分法是否恰當,最後討論 15 文類中因其他特殊原 因成為分類關鍵詞的詞彙。
一、 15 文類分類關鍵詞整理結果
本研究利用 Microsoft Excel 公式統計整理出 15 文類前 200 名分類關鍵詞,
但因篇幅過大,本文僅列舉歌仔冊一類的前 200 名分類關鍵詞,其他文類前 200 名分類關鍵詞詳細情形請參考附錄一~附錄十五。
表 4- 1 歌仔冊類前 200 名分類關鍵詞
編
號 漢字 羅馬字 編
號 漢字 羅馬字 編
號 漢字 羅馬字 編
號 漢字 羅馬字
1 恰 khah 51 蓮蓮 liân-liân 101 青冥 tshinn-mî 151 省麼 siánn-mih
2 袂 buē 52 瓦 uá 102 得卜 tit-beh 152 繼新 kè-sin
3 汝 lú 53 好 tú-hó 103 英皆 ing-kai 153 千代 tshian-tāi
4 卜 bueh 54 得確 tik-khak 104 絕情 tsut-tsîng 154 新式 sin-sik
5 會勿 bē 55 目周 bk-tsiu 105 打死 phah-sí 155 奧 oh
6 只 tsit 56 干苦 kan-khóo 106 宿 hioh 156 骨節 kut-tsat
7 听 thiann 57 即年 tsiah-n$h 107 吪 huah 157 目滓 bk-sái
8 者 tsia 58 喜 hit 108 省乜 siánn-mih 158 看活 khuànn-uh
9 阿娘 a-niû 59 野 iah 109 賢弟 hiân-tē 159 冥日 mî-j$t
10 皆 kâi 60 脚 kha 110 戀情 luân-tsîng 160 双人 siang-lâng
11 呰 tsit 61 廣話 kóng-uē 111 听見 thiann-kìnn 161 咀 tsuā
表 4- 1 歌仔冊類前 200 名分類關鍵詞
表 4- 1 歌仔冊類前 200 名分類關鍵詞
表 4- 2 15 文類分類關鍵詞出現文類數及比例統計表 出現在一種文類
的分類關鍵詞數 及比例
出現在二種文類 的分類關鍵詞數 及比例
出現在三種文類 的分類關鍵詞數 及比例
其他教材
59(29.5%) 50(25.0%) 91(45.5%)
說明:第二欄第二列的表格內容為「46(23%)」,表示詞彙個數是 46 個,
所佔比例為 23%。
(一) 統計結果
從表 4-2 得知 15 文類中分類關鍵詞集中在一種文類比例最高的是流行歌,
所佔比例為 30%,表示有三成分類關鍵詞和其他文類不同,是較具獨特性的文 類;其次是其他教材和民間故事,所佔比例皆為 29.5%,第三是囡仔歌,所佔比 例為 28.5%,比例最低的是教材類,所佔比例僅有 0.5%,獨特性最低。
同時出現在兩種文類比例最高的是戲劇,所佔比例為 42%,其次是歌仔冊 的 41%,第三是演講訪談的 37%,爾後我們將針對同時出現在兩種文類比例最 高的前 3 名文類進行分析討論。
而同時出現在三種文類比例最高的是教材類,所佔比例高達 70%,第二是 散文的 67.5%,第三是報導文學的 66%,而第四名的小說類比例也是高達 60%。
(二)各文類分布情況的長條圖與折線圖
為了能更清楚的比較各文類的分布在一~三種文類的情況,我們將各文類分 布在一~三種文類情形的長條圖及折線圖,整理如圖 4-1 和圖 4-2。
圖 4- 1 15 文類分類關鍵詞出現在一~三種文類的關鍵詞個數統計
圖 4- 2 15 文類分類關鍵詞出現在一~三種文類的關鍵詞百分比統計
由圖 4-2 我們可以發現流行歌這一類的分類關鍵詞比例,出現在一種文類、
兩種文類、三種文類的分類關鍵詞比例相當接近,大約是三成左右;幾乎所有的 文類分類關鍵詞都是同時出現在三種文類的比例最高,只有歌仔冊這一類的分類 關鍵詞中,同時出現在兩種文類的比例高於同時出現在三種文類的比例。
三、 分類關鍵詞集中在一個文類的分析與討論
流行歌的分類關鍵詞集中在一類出現的比例最高,可能是因為流行歌的作詞 人受華語的影響較深,填詞時習慣以華語思考,造成有許多詞彙的用字取華語音 相近的字來填寫,例如「tshit-thô」這一個詞,填詞的人就採用華語音接近的「七 桃」兩字。此外,在這一類的關鍵詞中,有許多是因為歌曲旋律哼唱需要而產生 的擬聲詞,例如「嘿仔囉咧嘿 he-ia-lo-le-he」、「咿都 i-to」、「幽麗伊啼 iu-lê-i-thî」
的教材,其中的詞彙用字較為特別(訓用字比例偏高),因而造成其他教材類的 分類關鍵詞較具獨特性。
分類關鍵詞集中在一類比例最低的是教材類,因為教育部在此一計畫中的一 個重要目標,就是要將詞頻統計的結果要做為教材編輯的參考,所以特別將國小 教材這一個部分的語料獨立出來成為教材類,但其語料內容本身就涵蓋了各種文 類,包括散文、詩歌、囡仔歌、俗諺……等,而此一文類集中在一個文類的關鍵 詞比例只有 0.5%,換句話說這一文類的分類關鍵詞有超過 99%以上的詞彙都可 在其他文類中找到,若非為了教材編輯的需要,這一類的語料是可以考慮併入其 他文類中。
四、 15 文類彼此間相似度統計與分析
(一)15 文類相似度結果統計
我們將文類的相似度定義為:兩種文類間前 200 名分類關鍵詞相同(包含漢 字及羅馬字都相同)的比例。首先利用 Microsoft Excel 公式找出 15 文類前 200 名分類關鍵詞間相同的詞型,統計出其個數及所佔比例。
以下將 15 文類前 200 名分類關鍵詞間相同的詞型個數及比例分別統計為表
4-3、表 4-4。
表 4- 3 15 文類前 200 名分類關鍵詞間相同的詞型個數
報導 文學
演講
訪談 散文 小說 論文
流行
歌 褒歌
囡仔
歌 謎猜
歌仔
冊 俗諺
民間
故事 戲劇 教材
其他 教材 報導文學
×
21 47 50 20 11 2 0 0 10 8 9 16 4 0
演講訪談
×
41 25 90 9 5 2 1 1 3 11 4 11 0
散文
×
79 27 15 3 4 1 5 3 14 14 4 0
小說 ×
16 13 7 1 0 11 3 20 13 3 1
論文 ×
3 2 1 0 2 2 4 1 4 0
流行歌 ×
14 3 1 13 15 11 17 14 0
褒歌 ×
4 1 38 25 33 15 8 0
囡仔歌 ×
23 1 11 4 4 8 0
表 4- 3 15 文類前 200 名分類關鍵詞間相同的詞型個數
報導 文學
演講
訪談 散文 小說 論文
流行
歌 褒歌
囡仔
歌 謎猜
歌仔
冊 俗諺
民間
故事 戲劇 教材
其他 教材 歌仔冊
×
11 30 61 6 1
俗諺 ×
13 11 22 0
民間故事
×
26 11 0
戲劇 ×
2 1
教材 ×
0
其他教材
×
表格說明如下:
第二欄第二列的內容為「×」,表示同樣是出現在報導文學這一類不予討論。
表 4- 4 15 文類前 200 名分類關鍵詞間相同的詞型比例
報導 文學
演講
訪談 散文 小說 論文
流行
歌 褒歌
囡仔
歌 謎猜
歌仔
冊 俗諺
民間
故事 戲劇 教材
其他 教材 報導文學
× 10.5% 23.5%
25% 10% 5.5% 1% 0% 0% 5% 4% 4.5% 8% 2% 0%
演講訪談
× 20.5% 12.5%
45% 4.5% 2.5% 1% 0.5% 0.5% 1.5% 5.5% 2% 5.5% 0%
散文 × 39.5% 13.5%
7.5% 1.5% 2% 0.5% 2.5% 1.5% 7% 7% 2% 0%
小說 ×
8% 6.5% 3.5% 0.5% 0% 5.5% 1.5% 10% 6.5% 1.5% 0.5%
論文 ×
1.5% 1% 0.5% 0% 1% 1% 2% 0.5% 2% 0%
流行歌 ×
7% 1.5% 0.5% 6.5% 7.5% 5.5% 8.5% 7% 0%
褒歌 ×
2% 0.5% 19%
12.5% 16.5%7.5% 4% 0%
囡仔歌 × 11.5%
0.5% 5.5% 2% 2% 4% 0%
表 4- 4 15 文類前 200 名分類關鍵詞間相同的詞型比例
報導 文學
演講
訪談 散文 小說 論文
流行
歌 褒歌
囡仔
歌 謎猜
歌仔
冊 俗諺
民間
故事 戲劇 教材
其他 教材
歌仔冊 ×
5.5% 15%
30.5%3% 0.5%
俗諺
×
6.5% 5.5% 11% 0%
民間故事
×
13% 5.5% 0%
戲劇 ×
1% 0.5%
教材 ×
0%
其他教材
×
表格說明如下:
第二欄第二列的內容為「×」,表示同樣是出現在報導文學這一類不予討論。
(二) 相似度高文類的討論與分析
我們仔細分析上表 4-4 可以發現,15 文類中相似度最高的前 3 組,最高的 一組是「演講訪談和論文」,相似度有 45%;第二組是「散文和小說」,相似度 有 39.5%,第三組是「歌仔冊和戲劇」,相似度是 30.5%。
「演講訪談和論文」這一組是相似度最高的,推測其相似度會這麼的原因 可能是這兩個文類的語料年代都比較新,演講訪談的類的語料年代是 1995~
2009 年之間,而論文類的語料年代是在 2002~2007 年之間,兩者的詞彙受到
華語的影響較深,關鍵詞的相似度也比較高。文類相似度第二高的是「小說和散文」這一組,小說和散文都是很接近口 語的文體,兩者所描述的內容,大部份也都是日常生活中的人、事、物,小說 和散文同樣都可以用來抒發情感、描寫景物和說明道理,所以這兩個文類的相 似度會高是合理的。
文類相似度第三的是「歌仔冊和戲劇」這一組,其實戲劇包含了劇本,是 表演者演出的腳本,裡頭收錄的內容都是具有情節、有故事性的文本,而歌仔 冊雖然不是做為演出的腳本,但卻是說書人的腳本,裡頭同樣是要具備情節以 及故事性,兩者所傳達的對象都是一般民眾,兩者的功能主要也都是在娛樂大 眾,歌仔冊和戲劇這一組的傳達的功能及對象都相似,這也就是兩者間關鍵詞 相似度高的主因。
綜合上述各點結論,這三組文類的研究結果或許可以提供教育部台語字詞 頻調查計畫的審查委員,是否可以將這三組相似度較高的文類合併的一個參考 依據。
(三) 其他教材類和各文類相似度分析
除上述三組相似度較高的文類,筆者還發現在其他教材類這一類和所有文 類的相似度都偏低,相似度的比例僅介於 0%~0.5%之間,這個統計結果剛好
(四) 創作文學和口傳文學相似度分析
在本研究中我們參考教育部字詞頻調查工作計畫的語料分類方式,將語料 粗分為「創作文學」和「口傳文學」兩大類,底下再細分為 15 個文類。現在我 們將同屬於「創作文學」類中的報導文學、演講訪談、散文、小說、論文及流 行歌之間(即表 4-5 中的創作文學&創作文學這一類組合)的文類相似度平均,
算出其平均值為 16.57%;同樣的也將同屬於「口傳文學」類的中的褒歌、囡仔 歌、謎猜、歌仔冊、俗諺、民間故事和戲劇類之間(即表 4-5 中的口傳文學&
口傳文學這一組合類型)的文類相似度平均,得到其平均值為 7.5%,最後將一 種是創作文學但另一種是口傳文學這種組合(即創作文學&口傳文學這一類組 合)的文類相似度平均,得到平均值是 2.9%。
將這三者的結果歸納統計如下表 4-5,藉此檢視這兩大類的分類方式是否 合理。
表 4- 5 相似度平均值一覽表
文類組合類型 文類組合相似度平均值
創作文學&創作文學
16.57%
口傳文學&口傳文學
7.5%
創作文學&口傳文學
2.9%
從上表 4-5 我們可得知,屬於同一大類的文類相似度平均值都高於分屬兩 種不同大類的文類組合的相似度平均值,顯示此計畫的審查委員所做的分類方 式是合理的。
在創作文學這一大類中的文類,其相似度平均值是 16.7%,從表 4-4 中我 們知道所有文類的相似度是介於 0%~45%,可見報導文學、演講訪談、散文、
小說、論文及流行歌等文類之間相似度是不低的;但口傳文學間的相似度平均 值只有 7.5%,雖然高於分屬兩種不同大類的文類組合的相似度平均值,但和創
作文學這一大類的相似度相比,差距高達 9.2%,所以口傳文學中的文類相似度 就顯得較低。
再進一步研究表 4-4,我們還可以發現分屬不同大類的組合中,「戲劇和流 行歌」的相似度是 8.5%,「戲劇和報導文學」的相似度是 8%,這兩種組合的 相似度都比同屬口傳文學類組合的相似度平均值高,推測會造成此一結果的原 因應該是戲劇類中包含了劇本,劇本原是屬於創作類的文學,所以才會造成這 兩種組合的相似度高於同屬口傳文學組合的相似度平均值。
再進一步研究表 4-4,我們還可以發現分屬不同大類的組合中,「戲劇和流 行歌」的相似度是 8.5%,「戲劇和報導文學」的相似度是 8%,這兩種組合的 相似度都比同屬口傳文學類組合的相似度平均值高,推測會造成此一結果的原 因應該是戲劇類中包含了劇本,劇本原是屬於創作類的文學,所以才會造成這 兩種組合的相似度高於同屬口傳文學組合的相似度平均值。