• 沒有找到結果。

各文類分類關鍵詞結果統計與分析

本小節分為三大部分,首先將統計 15 文類前 200 名分類關鍵詞分布在一~

三種文類的情形並針對集中於一種文類的分類關鍵詞進行討論,接著統計各文類 間的相似度,找出相似度高的前 3 組文類進行分析,並且藉由文類相似度檢視「創 作文學」及「口傳文學」兩大分法是否恰當,最後討論 15 文類中因其他特殊原 因成為分類關鍵詞的詞彙。

一、 15 文類分類關鍵詞整理結果

本研究利用 Microsoft Excel 公式統計整理出 15 文類前 200 名分類關鍵詞,

但因篇幅過大,本文僅列舉歌仔冊一類的前 200 名分類關鍵詞,其他文類前 200 名分類關鍵詞詳細情形請參考附錄一~附錄十五。

表 4- 1 歌仔冊類前 200 名分類關鍵詞

號 漢字 羅馬字 編

號 漢字 羅馬字 編

號 漢字 羅馬字 編

號 漢字 羅馬字

1 恰 khah 51 蓮蓮 liân-liân 101 青冥 tshinn-mî 151 省麼 siánn-mih

2 袂 buē 52 瓦 uá 102 得卜 tit-beh 152 繼新 kè-sin

3 汝 lú 53 好 tú-hó 103 英皆 ing-kai 153 千代 tshian-tāi

4 卜 bueh 54 得確 tik-khak 104 絕情 tsut-tsîng 154 新式 sin-sik

5 會勿 bē 55 目周 bk-tsiu 105 打死 phah-sí 155 奧 oh

6 只 tsit 56 干苦 kan-khóo 106 宿 hioh 156 骨節 kut-tsat

7 听 thiann 57 即年 tsiah-n$h 107 吪 huah 157 目滓 bk-sái

8 者 tsia 58 喜 hit 108 省乜 siánn-mih 158 看活 khuànn-uh

9 阿娘 a-niû 59 野 iah 109 賢弟 hiân-tē 159 冥日 mî-j$t

10 皆 kâi 60 脚 kha 110 戀情 luân-tsîng 160 双人 siang-lâng

11 呰 tsit 61 廣話 kóng-uē 111 听見 thiann-kìnn 161 咀 tsuā

表 4- 1 歌仔冊類前 200 名分類關鍵詞

表 4- 1 歌仔冊類前 200 名分類關鍵詞

表 4- 2 15 文類分類關鍵詞出現文類數及比例統計表 出現在一種文類

的分類關鍵詞數 及比例

出現在二種文類 的分類關鍵詞數 及比例

出現在三種文類 的分類關鍵詞數 及比例

其他教材

59(29.5%) 50(25.0%) 91(45.5%)

說明:第二欄第二列的表格內容為「46(23%)」,表示詞彙個數是 46 個,

所佔比例為 23%。

(一) 統計結果

從表 4-2 得知 15 文類中分類關鍵詞集中在一種文類比例最高的是流行歌,

所佔比例為 30%,表示有三成分類關鍵詞和其他文類不同,是較具獨特性的文 類;其次是其他教材和民間故事,所佔比例皆為 29.5%,第三是囡仔歌,所佔比 例為 28.5%,比例最低的是教材類,所佔比例僅有 0.5%,獨特性最低。

同時出現在兩種文類比例最高的是戲劇,所佔比例為 42%,其次是歌仔冊 的 41%,第三是演講訪談的 37%,爾後我們將針對同時出現在兩種文類比例最 高的前 3 名文類進行分析討論。

而同時出現在三種文類比例最高的是教材類,所佔比例高達 70%,第二是 散文的 67.5%,第三是報導文學的 66%,而第四名的小說類比例也是高達 60%。

(二)各文類分布情況的長條圖與折線圖

為了能更清楚的比較各文類的分布在一~三種文類的情況,我們將各文類分 布在一~三種文類情形的長條圖及折線圖,整理如圖 4-1 和圖 4-2。

圖 4- 1 15 文類分類關鍵詞出現在一~三種文類的關鍵詞個數統計

圖 4- 2 15 文類分類關鍵詞出現在一~三種文類的關鍵詞百分比統計

由圖 4-2 我們可以發現流行歌這一類的分類關鍵詞比例,出現在一種文類、

兩種文類、三種文類的分類關鍵詞比例相當接近,大約是三成左右;幾乎所有的 文類分類關鍵詞都是同時出現在三種文類的比例最高,只有歌仔冊這一類的分類 關鍵詞中,同時出現在兩種文類的比例高於同時出現在三種文類的比例。

三、 分類關鍵詞集中在一個文類的分析與討論

流行歌的分類關鍵詞集中在一類出現的比例最高,可能是因為流行歌的作詞 人受華語的影響較深,填詞時習慣以華語思考,造成有許多詞彙的用字取華語音 相近的字來填寫,例如「tshit-thô」這一個詞,填詞的人就採用華語音接近的「七 桃」兩字。此外,在這一類的關鍵詞中,有許多是因為歌曲旋律哼唱需要而產生 的擬聲詞,例如「嘿仔囉咧嘿 he-ia-lo-le-he」、「咿都 i-to」、「幽麗伊啼 iu-lê-i-thî」

的教材,其中的詞彙用字較為特別(訓用字比例偏高),因而造成其他教材類的 分類關鍵詞較具獨特性。

分類關鍵詞集中在一類比例最低的是教材類,因為教育部在此一計畫中的一 個重要目標,就是要將詞頻統計的結果要做為教材編輯的參考,所以特別將國小 教材這一個部分的語料獨立出來成為教材類,但其語料內容本身就涵蓋了各種文 類,包括散文、詩歌、囡仔歌、俗諺……等,而此一文類集中在一個文類的關鍵 詞比例只有 0.5%,換句話說這一文類的分類關鍵詞有超過 99%以上的詞彙都可 在其他文類中找到,若非為了教材編輯的需要,這一類的語料是可以考慮併入其 他文類中。

四、 15 文類彼此間相似度統計與分析

(一)15 文類相似度結果統計

我們將文類的相似度定義為:兩種文類間前 200 名分類關鍵詞相同(包含漢 字及羅馬字都相同)的比例。首先利用 Microsoft Excel 公式找出 15 文類前 200 名分類關鍵詞間相同的詞型,統計出其個數及所佔比例。

以下將 15 文類前 200 名分類關鍵詞間相同的詞型個數及比例分別統計為表

4-3、表 4-4。

表 4- 3 15 文類前 200 名分類關鍵詞間相同的詞型個數

報導 文學

演講

訪談 散文 小說 論文

流行

歌 褒歌

囡仔

歌 謎猜

歌仔

冊 俗諺

民間

故事 戲劇 教材

其他 教材 報導文學

×

21 47 50 20 11 2 0 0 10 8 9 16 4 0

演講訪談

×

41 25 90 9 5 2 1 1 3 11 4 11 0

散文

×

79 27 15 3 4 1 5 3 14 14 4 0

小說 ×

16 13 7 1 0 11 3 20 13 3 1

論文 ×

3 2 1 0 2 2 4 1 4 0

流行歌 ×

14 3 1 13 15 11 17 14 0

褒歌 ×

4 1 38 25 33 15 8 0

囡仔歌 ×

23 1 11 4 4 8 0

表 4- 3 15 文類前 200 名分類關鍵詞間相同的詞型個數

報導 文學

演講

訪談 散文 小說 論文

流行

歌 褒歌

囡仔

歌 謎猜

歌仔

冊 俗諺

民間

故事 戲劇 教材

其他 教材 歌仔冊

×

11 30 61 6 1

俗諺 ×

13 11 22 0

民間故事

×

26 11 0

戲劇 ×

2 1

教材 ×

0

其他教材

×

表格說明如下:

第二欄第二列的內容為「×」,表示同樣是出現在報導文學這一類不予討論。

表 4- 4 15 文類前 200 名分類關鍵詞間相同的詞型比例

報導 文學

演講

訪談 散文 小說 論文

流行

歌 褒歌

囡仔

歌 謎猜

歌仔

冊 俗諺

民間

故事 戲劇 教材

其他 教材 報導文學

× 10.5% 23.5%

25% 10% 5.5% 1% 0% 0% 5% 4% 4.5% 8% 2% 0%

演講訪談

× 20.5% 12.5%

45% 4.5% 2.5% 1% 0.5% 0.5% 1.5% 5.5% 2% 5.5% 0%

散文 × 39.5% 13.5%

7.5% 1.5% 2% 0.5% 2.5% 1.5% 7% 7% 2% 0%

小說 ×

8% 6.5% 3.5% 0.5% 0% 5.5% 1.5% 10% 6.5% 1.5% 0.5%

論文 ×

1.5% 1% 0.5% 0% 1% 1% 2% 0.5% 2% 0%

流行歌 ×

7% 1.5% 0.5% 6.5% 7.5% 5.5% 8.5% 7% 0%

褒歌 ×

2% 0.5% 19%

12.5% 16.5%

7.5% 4% 0%

囡仔歌 × 11.5%

0.5% 5.5% 2% 2% 4% 0%

表 4- 4 15 文類前 200 名分類關鍵詞間相同的詞型比例

報導 文學

演講

訪談 散文 小說 論文

流行

歌 褒歌

囡仔

歌 謎猜

歌仔

冊 俗諺

民間

故事 戲劇 教材

其他 教材

歌仔冊 ×

5.5% 15%

30.5%

3% 0.5%

俗諺

×

6.5% 5.5% 11% 0%

民間故事

×

13% 5.5% 0%

戲劇 ×

1% 0.5%

教材 ×

0%

其他教材

×

表格說明如下:

第二欄第二列的內容為「×」,表示同樣是出現在報導文學這一類不予討論。

(二) 相似度高文類的討論與分析

我們仔細分析上表 4-4 可以發現,15 文類中相似度最高的前 3 組,最高的 一組是「演講訪談和論文」,相似度有 45%;第二組是「散文和小說」,相似度 有 39.5%,第三組是「歌仔冊和戲劇」,相似度是 30.5%。

「演講訪談和論文」這一組是相似度最高的,推測其相似度會這麼的原因 可能是這兩個文類的語料年代都比較新,演講訪談的類的語料年代是 1995~

2009 年之間,而論文類的語料年代是在 2002~2007 年之間,兩者的詞彙受到

華語的影響較深,關鍵詞的相似度也比較高。

文類相似度第二高的是「小說和散文」這一組,小說和散文都是很接近口 語的文體,兩者所描述的內容,大部份也都是日常生活中的人、事、物,小說 和散文同樣都可以用來抒發情感、描寫景物和說明道理,所以這兩個文類的相 似度會高是合理的。

文類相似度第三的是「歌仔冊和戲劇」這一組,其實戲劇包含了劇本,是 表演者演出的腳本,裡頭收錄的內容都是具有情節、有故事性的文本,而歌仔 冊雖然不是做為演出的腳本,但卻是說書人的腳本,裡頭同樣是要具備情節以 及故事性,兩者所傳達的對象都是一般民眾,兩者的功能主要也都是在娛樂大 眾,歌仔冊和戲劇這一組的傳達的功能及對象都相似,這也就是兩者間關鍵詞 相似度高的主因。

綜合上述各點結論,這三組文類的研究結果或許可以提供教育部台語字詞 頻調查計畫的審查委員,是否可以將這三組相似度較高的文類合併的一個參考 依據。

(三) 其他教材類和各文類相似度分析

除上述三組相似度較高的文類,筆者還發現在其他教材類這一類和所有文 類的相似度都偏低,相似度的比例僅介於 0%~0.5%之間,這個統計結果剛好

(四) 創作文學和口傳文學相似度分析

在本研究中我們參考教育部字詞頻調查工作計畫的語料分類方式,將語料 粗分為「創作文學」和「口傳文學」兩大類,底下再細分為 15 個文類。現在我 們將同屬於「創作文學」類中的報導文學、演講訪談、散文、小說、論文及流 行歌之間(即表 4-5 中的創作文學&創作文學這一類組合)的文類相似度平均,

算出其平均值為 16.57%;同樣的也將同屬於「口傳文學」類的中的褒歌、囡仔 歌、謎猜、歌仔冊、俗諺、民間故事和戲劇類之間(即表 4-5 中的口傳文學&

口傳文學這一組合類型)的文類相似度平均,得到其平均值為 7.5%,最後將一 種是創作文學但另一種是口傳文學這種組合(即創作文學&口傳文學這一類組 合)的文類相似度平均,得到平均值是 2.9%。

將這三者的結果歸納統計如下表 4-5,藉此檢視這兩大類的分類方式是否 合理。

表 4- 5 相似度平均值一覽表

文類組合類型 文類組合相似度平均值

創作文學&創作文學

16.57%

口傳文學&口傳文學

7.5%

創作文學&口傳文學

2.9%

從上表 4-5 我們可得知,屬於同一大類的文類相似度平均值都高於分屬兩 種不同大類的文類組合的相似度平均值,顯示此計畫的審查委員所做的分類方 式是合理的。

在創作文學這一大類中的文類,其相似度平均值是 16.7%,從表 4-4 中我 們知道所有文類的相似度是介於 0%~45%,可見報導文學、演講訪談、散文、

小說、論文及流行歌等文類之間相似度是不低的;但口傳文學間的相似度平均 值只有 7.5%,雖然高於分屬兩種不同大類的文類組合的相似度平均值,但和創

作文學這一大類的相似度相比,差距高達 9.2%,所以口傳文學中的文類相似度 就顯得較低。

再進一步研究表 4-4,我們還可以發現分屬不同大類的組合中,「戲劇和流 行歌」的相似度是 8.5%,「戲劇和報導文學」的相似度是 8%,這兩種組合的 相似度都比同屬口傳文學類組合的相似度平均值高,推測會造成此一結果的原 因應該是戲劇類中包含了劇本,劇本原是屬於創作類的文學,所以才會造成這 兩種組合的相似度高於同屬口傳文學組合的相似度平均值。

再進一步研究表 4-4,我們還可以發現分屬不同大類的組合中,「戲劇和流 行歌」的相似度是 8.5%,「戲劇和報導文學」的相似度是 8%,這兩種組合的 相似度都比同屬口傳文學類組合的相似度平均值高,推測會造成此一結果的原 因應該是戲劇類中包含了劇本,劇本原是屬於創作類的文學,所以才會造成這 兩種組合的相似度高於同屬口傳文學組合的相似度平均值。

相關文件