台語文類分類關鍵詞相關研究

李勤岸（2000）對於 1920 及 1990 兩個時代的移借層詞彙數量的比較，得知台語詞彙在這段時間的變化，是教會用語大量減少，日語借詞小部分增加。

楊允言（2003）以李勤岸的論文為基礎，利用各語域的台語詞彙，探討台語文的寫作風格，同時和卓緞女士的白話詩做比較，計算其所屬的語域，並量化寫作風格。

其他關於台語語料庫相關研究的有，謝昌運（2007）以語料庫語言學方法分析戲劇、小說、論文、散文、社論、學術論文等五種文類的加強詞；顏秀妃（2008）

基於詞典及語料庫，試著為閩南語雙聲音節詞組詞彙化研究；李欣珉（2008）透過語料庫語言學統計各版本教科書的字型、字數、詞型、詞數並比較各版本的用字情形；曾國榕（2008）利用語料庫語言學方法分析學術類與非學術類，二種文類在台華共通詞、詞彙豐富度、羅馬字詞彙、平均詞長的比較；蔡秀俐（2009）

以台語語料庫為基礎，分析漢羅文本中使用羅馬字的情形。

第二節台語文類分類關鍵詞相關研究

目前文學作品無論是題材或是內容都是包羅萬象、呈現多樣化的，對於文學作品做適當的分類，除了讓我們對於文學作品有較具體清楚的概念，還能迅速且有效率的找到各文類的文學作品。

一、文學作品分類的相關研究

朱國能（2003）認為文學作品的分類能讓我們對文學作品有一個全面概括性的了解，方便讀者去選擇取捨，透過整理、歸納和比較過的作品分類，能夠對文學作品的內容有更全面性的認識和了解。趙秋炎、毛宣國（2000）認為每一部文學作品都是有種可屬，有類可歸的，從複雜的作品中能夠尋求相同或相異的整體性結構，從中整理出各種文類的規律或特點。

文學作品的分類很多樣又很複雜，但最基本且廣為大眾所接受的是西方文學作品的三分法和華語文學作品的四分法，西方文學作品的分類主要奠基者是亞里士多德（韋勒克、華倫 1983）他將文學的本質定義為「生活的摹仿」，依據模仿的不同方式，把文學分為三類：敘事類、抒情類和戲劇類。華語的文學作品分類和西方有很大的不同，古人所重視文類多屬於詩歌和散文，對於小說和戲曲的重視要歸因於清朝末年受到外國文學作品及翻譯理論的介紹，人們才意識到文學作品不僅有詩歌和散文，還包括小說和戲劇，到了三十年代編輯的《中國新文學大系¹⁵》，即採取了小說、散文、詩歌、戲劇的四分法，至此以後，四分法變成了華語文學作品中普遍採用的分類法。（趙秋炎、毛宣國 2000、朱國能 2003）

二、語料庫文體分類的相關研究

在華語方面，李翰嘉（2008）將中央研究院現代漢語標記語料庫的語料分為口語及書面語兩大類，比較「怎麼」和「如何」兩個疑問詞的用法有何不同；黃旭妙（2010）把研究的口語語料分為「日常會話」與「電視廣播節目訪談」，分析「就是」和「只是」兩種語用功能的不同；王淑眉（2010）把華語語體分為正式訪談對話與非正式日常對話兩種，檢視「究竟」和「到底」在不同語體中的語用功能有何不同。

在台語方面，將文體做分類比較研究的並不多見，張學謙（2000）將台語分為口語語體及書面語語體兩類，利用 Biber 的多面向方法，從五個深層言談面向，

統計分析兩種語體的面向分數，比較台語的口語及書面語體的差異。謝昌運

（2007）將文類分為戲劇、小說、論文、散文、社論、學術論文五種，分別比較

15 此書由趙家壁主編，1936 年由上海良友圖書印刷公司出版，是中國最早的大型現代文學選集。

四種常見加強詞；曾國榕（2008）則是將台語文類分為學術和非學術兩大類，比較學術和非學術的台語書面語的風格差異。研究者採用語料庫語言學的方法進行資料的收集和分析。此論文在探討學術和非學術這兩種不同文體在語詞選用方面的差異，包括台華共通詞、詞彙豐富度、羅馬字詞彙、平均詞長這四方面的比較。

本研究則是將文類分為「口傳文學」和「創作文學」兩大類，在依其形式細分為小說、散文、論文、流行歌、報導文學、演講訪談、褒歌、囡仔歌、謎猜、歌仔冊、俗諺、民間故事、戲劇、教材及其他教材等 15 類，針對台語文類關鍵詞、

台華共通詞和台語用字等進行討論。

三、文類關鍵詞相關研究

二十一世紀是資訊化的時代，電子化文件以倍數成長，要在這龐大的電子資料中尋找自己想要的資料著實不易，於是文件自動分類的概念就應運而生了。目前文件分類的的形式大多利用文件本身關鍵詞出現的頻率，經統計後得到關鍵詞對於此文件的鑑別能力，並以此鑑別能力當作該文件的關鍵資訊，然後依此進行文件的分類（錢炳全、廖雙德 2002）。

1961 年 Maron 的論文是關於文件自動分類領域中最早的文獻，他認為我們

能從文件的某些詞中找出分類的線索，也就是所謂的關鍵詞（keywords），如果電腦能自動在文件中找出這些關鍵詞，就可以做到文件自動分類。（洪文斌 1999）

近年來台灣也有許多人進行文件自動分類的研究，較早的像是陳淑美（1992）對於財經新聞自動分類的研究，還有楊允言（1993）針對工商時報民國 80 年 7 月到 81 年 1 月的 2306 篇財經類的新聞報導，依據詞彙的次數、集中度和廣度，從其中 2095 篇訓練資料中篩選具有分類價值的關鍵詞，再將這些分類關鍵詞在剩餘的 211 篇測試資料中做自動分類實驗，並比較其結果。

在文檔中台語文語料中各文類間語詞差異之探討 (頁 34-37)

第二節 台語文類分類關鍵詞相關研究

一、 文學作品分類的相關研究

二、 語料庫文體分類的相關研究

三、 文類關鍵詞相關研究

1961 年 Maron 的論文是關於文件自動分類領域中最早的文獻，他認為我們

第二節台語文類分類關鍵詞相關研究

一、文學作品分類的相關研究

二、語料庫文體分類的相關研究

三、文類關鍵詞相關研究