• 沒有找到結果。

第三章 研究方法與過程

第一節 語料的取得

本研究語料收錄五種台語文類,分別為:戲劇、小說、散文、社論與學術論文,

五種文類共蒐集70 篇文章,收錄約 65,292 詞。

戲劇、小說、散文是國內普遍採用的文學分類法(朱國能 2003)。戲劇富含大 量的人物對白,在五種文類中最接近口語;小說兼具敘事與人物對白,在五種文 類中第二接近口語;散文則是作者本身抒情的告白,在五種文類中第三接近口語;

社論有豐富的時事評論,最可以反映當代的語言風貌,文體也較前三種嚴肅與正 式;學術論文則是最嚴肅與正式的文體,在五種文類裡最不接近口語。五種文類 各自有不同的風格與特色,比較加強詞在這五種文類中的使用情形,可以看出加 強詞的使用輪廓。

文章的詞數採估算方式求得,方法是運用Jang(1998)所做的研究,把每種文 類的字數除以詞數,計算出該文類「字數與詞數的比值」。再利用Microsoft Word

「字數統計」的功能分別統計出本研究的戲劇、小說、散文、社論與學術論文五 種文類的字數,並將本研究五種文類語料的字數分別除以 Jang(1998)五種文類

「字數與詞數的比值」,所得即為本研究語料的估計詞數。

表2 為 Jang(1998)五種文類「字數與詞數的比值」試算表,可以得知將五種 文類按每個詞的字數由多到少排列,依序是學術論文(2.0)、社論(1.9)、小說與 大眾散文(1.8)、戲劇(1.6),試算的結果符合 Biber(1988)發現的書面語比口 語常使用較長的詞。

表 2 Jang(1998)字數與詞數比值試算表

文類 字數 詞數 字數與詞數比值 近似值

戲劇 8391 5195 1.61520693 1.6

小說 15875 8705 1.823664561 1.8

大眾散文 15868 8680 1.828110599 1.8

社論 15849 8271 1.916213275 1.9

學術論文 17441 8881 1.963855422 2.0

以下介紹本研究五類語料的取得方式與收錄情形。

一、 戲劇

本研究收錄台語文作家陳雷所提供的戲劇劇本共 14 篇,詳細的篇名及檔案編 號請參見附錄一。

戲劇的劇本包含兩大部份,一個是人物的對白,另一個是場景的描寫,本研究 所收錄的戲劇類語料只取人物的對白,而沒有收錄場景的描寫。因為戲劇在實際 演出的時候,呈現給觀眾的語言表現只有人物的對白,場景往往是用非語言的形 式如佈景或道具來呈現;某些戲劇的場景甚至只用簡單的佈置作象徵,如歌仔戲 或布袋戲等其他傳統戲劇,觀眾依然能夠理解戲劇場景的意涵,因此我們認為人 物的對白才是戲劇的主體,劇本裡場景的描寫只是輔助觀眾對戲劇內容的認知,

所以不收錄描寫場景的部份。

Jang(1998)戲劇文類詞數與字數的比值約 1.6。戲劇類文章詞數大於 1,000 者,每篇只取前 1,600 字;文章詞數大於 1,000 者有 8 篇,共 12,800 字,估計約 8,000 詞;其餘詞數小於 1,000 者有 6 篇,共 7,465 字,約 4,666 詞。總計戲劇類語 料收錄約12,666 詞。

二、 小說

本研究收錄台語文作家陳雷所提供的短篇小說共 14 篇,每篇皆刪去篇名、段 號及輕聲符號(--),只留下內文的部分做為統計的語料。所收錄的詳細篇名及檔 案編號請參見附錄二。

Jang(1998)小說文類詞數與字數的比值約 1.8。小說類每篇文章只取前 1,800 字,14 篇共 25,200 字,估計約 14,000 詞。

三、 散文

散文的來源分成兩個部份,其中一部份來自「台灣聯通網」的「名家特區」李 勤岸寫的〈哈佛大學台語筆記〉,選取編號最新的12 篇;另外則是來自「《海翁》

台語文集網路版」的文篇散文2 篇,共收錄 14 篇散文。每篇都刪去篇名及標題,

只留下內文的部分做為統計的語料。所收錄的詳細篇名及檔案編號請參見附錄三。

Jang(1998)散文文類詞數與字數的比值約 1.8。散文類文章詞數大於 1,000 者有 6 篇,每篇只取前 1,800 字,共 10,800 字,估計約 6,000 詞;其餘詞數小於 1,000 者有 8 篇,共 12,309 字,約 6,838 詞。總計散文類語料約收錄 12,838 詞。

四、 社論

本研究的社論語料來自「白話字台語文網站」的「蓮蕉花台語雜誌」連結,與

「台灣聯通網」的「名家特區」裡,李勤岸所寫的4 篇「台語文社論」。每篇都刪 除篇名及作者姓名,留下內文的部分做統計。所收錄的詳細篇名及檔案編號請參 見附錄四。

Jang(1998)社論文類詞數與字數的比值約 1.9。社論類文章詞數大於 1,000 者有4 篇,每篇只取前 1,900 字,共 7,600 字,估計約 4,000 詞;其餘詞數小於 1,000 者有10 篇,共 14,798 字,約 7,788 詞。總計社論類語料約收錄 11,788 詞。

五、 學術論文

本研究的學術論文語料,有 10 篇來自 「2006 台語文學學術研討會」、4 篇來 自「2006 台灣羅馬字國際研討會」。這兩個研討會都有專屬的網站,網站內有部份 的發表論文供人下載,本研究選其中漢字與羅馬字合用的論文作為學術論文類的 語料,共14 篇,詳細篇名及檔案編號請參見附錄五。

學術論文只取內文的部份,論文的題目、標題、關鍵詞、摘要、獨立引文、表 格、註腳、標號,附錄以及參考資料都不在收錄的範圍內。

Jang(1998)學術論文類詞數與字數的比值約 2.0。每篇學術論文類文章只取 前2,000 字,14 篇共 28,000 字,估計約 14,000 詞。

六、 小結

小說與學術論文這兩類語料每篇文章取前1,000 詞作為統計的語料;戲劇、散 文與社論這三類語料都有詞數小於1,000 的文章,因此在統計詞頻時,需要再經過 標準化的程序,估算每篇文章詞數等於1,000 時的結果。表 3 為本研究語料收錄的 篇數與詞數統計表。

表 3 收錄語料篇數與詞數統計表

戲劇 小說 散文 社論 學術論文 總計

篇數 14 14 14 14 14 70

詞數 12,666 14,000 12,838 11,788 14,000 65,292

平均詞數 885 1,000 917 842 1,000