李勤岸(2000)對於 1920 及 1990 兩個時代的移借層詞彙數量的比較,得知 台語詞彙在這段時間的變化,是教會用語大量減少,日語借詞小部分增加。
楊允言(2003)以李勤岸的論文為基礎,利用各語域的台語詞彙,探討台語 文的寫作風格,同時和卓緞女士的白話詩做比較,計算其所屬的語域,並量化寫 作風格。
其他關於台語語料庫相關研究的有,謝昌運(2007)以語料庫語言學方法分 析戲劇、小說、論文、散文、社論、學術論文等五種文類的加強詞;顏秀妃(2008)
基於詞典及語料庫,試著為閩南語雙聲音節詞組詞彙化研究;李欣珉(2008)透 過語料庫語言學統計各版本教科書的字型、字數、詞型、詞數並比較各版本的用 字情形;曾國榕(2008)利用語料庫語言學方法分析學術類與非學術類,二種文 類在台華共通詞、詞彙豐富度、羅馬字詞彙、平均詞長的比較;蔡秀俐(2009)
以台語語料庫為基礎,分析漢羅文本中使用羅馬字的情形。
第二節 台語文類分類關鍵詞相關研究
目前文學作品無論是題材或是內容都是包羅萬象、呈現多樣化的,對於文學 作品做適當的分類,除了讓我們對於文學作品有較具體清楚的概念,還能迅速且 有效率的找到各文類的文學作品。
一、 文學作品分類的相關研究
朱國能(2003)認為文學作品的分類能讓我們對文學作品有一個全面概括性 的了解,方便讀者去選擇取捨,透過整理、歸納和比較過的作品分類,能夠對文 學作品的內容有更全面性的認識和了解。趙秋炎、毛宣國(2000)認為每一部文 學作品都是有種可屬,有類可歸的,從複雜的作品中能夠尋求相同或相異的整體 性結構,從中整理出各種文類的規律或特點。
文學作品的分類很多樣又很複雜,但最基本且廣為大眾所接受的是西方文學 作品的三分法和華語文學作品的四分法,西方文學作品的分類主要奠基者是亞里 士多德(韋勒克、華倫 1983)他將文學的本質定義為「生活的摹仿」,依據模仿 的不同方式,把文學分為三類:敘事類、抒情類和戲劇類。華語的文學作品分類 和西方有很大的不同,古人所重視文類多屬於詩歌和散文,對於小說和戲曲的重 視要歸因於清朝末年受到外國文學作品及翻譯理論的介紹,人們才意識到文學作 品不僅有詩歌和散文,還包括小說和戲劇,到了三十年代編輯的《中國新文學大 系15》,即採取了小說、散文、詩歌、戲劇的四分法,至此以後,四分法變成了 華語文學作品中普遍採用的分類法。(趙秋炎、毛宣國 2000、朱國能 2003)
二、 語料庫文體分類的相關研究
在華語方面,李翰嘉(2008)將中央研究院現代漢語標記語料庫的語料分為 口語及書面語兩大類,比較「怎麼」和「如何」兩個疑問詞的用法有何不同;黃 旭妙(2010)把研究的口語語料分為「日常會話」與「電視廣播節目訪談」,分 析「就是」和「只是」兩種語用功能的不同;王淑眉(2010)把華語語體分為正 式訪談對話與非正式日常對話兩種,檢視「究竟」和「到底」在不同語體中的語 用功能有何不同。
在台語方面,將文體做分類比較研究的並不多見,張學謙(2000)將台語分 為口語語體及書面語語體兩類,利用 Biber 的多面向方法,從五個深層言談面向,
統計分析兩種語體的面向分數,比較台語的口語及書面語體的差異。謝昌運
(2007)將文類分為戲劇、小說、論文、散文、社論、學術論文五種,分別比較
15 此書由趙家壁主編,1936 年由上海良友圖書印刷公司出版,是中國最早的大型現代文學選集。
四種常見加強詞;曾國榕(2008)則是將台語文類分為學術和非學術兩大類,比 較學術和非學術的台語書面語的風格差異。研究者採用語料庫語言學的方法進行 資料的收集和分析。此論文在探討學術和非學術這兩種不同文體在語詞選用方面 的差異,包括台華共通詞、詞彙豐富度、羅馬字詞彙、平均詞長這四方面的比較。
本研究則是將文類分為「口傳文學」和「創作文學」兩大類,在依其形式細分為 小說、散文、論文、流行歌、報導文學、演講訪談、褒歌、囡仔歌、謎猜、歌仔 冊、俗諺、民間故事、戲劇、教材及其他教材等 15 類,針對台語文類關鍵詞、
台華共通詞和台語用字等進行討論。
三、 文類關鍵詞相關研究
二十一世紀是資訊化的時代,電子化文件以倍數成長,要在這龐大的電子資 料中尋找自己想要的資料著實不易,於是文件自動分類的概念就應運而生了。目 前文件分類的的形式大多利用文件本身關鍵詞出現的頻率,經統計後得到關鍵詞 對於此文件的鑑別能力,並以此鑑別能力當作該文件的關鍵資訊,然後依此進行 文件的分類(錢炳全、廖雙德 2002)。
1961 年 Maron 的論文是關於文件自動分類領域中最早的文獻,他認為我們
能從文件的某些詞中找出分類的線索,也就是所謂的關鍵詞(keywords),如果 電腦能自動在文件中找出這些關鍵詞,就可以做到文件自動分類。(洪文斌 1999)近年來台灣也有許多人進行文件自動分類的研究,較早的像是陳淑美(1992)對 於財經新聞自動分類的研究,還有楊允言(1993)針對工商時報民國 80 年 7 月 到 81 年 1 月的 2306 篇財經類的新聞報導,依據詞彙的次數、集中度和廣度,從 其中 2095 篇訓練資料中篩選具有分類價值的關鍵詞,再將這些分類關鍵詞在剩 餘的 211 篇測試資料中做自動分類實驗,並比較其結果。