• 沒有找到結果。

第二章 文獻探討

第二節 台語語料庫

第二節

第二節 第二節 台語語料庫 台語語料庫 台語語料庫 台語語料庫

台語語料庫建立的起步比較晚,過程中並沒有得到太多支援,「台語文所能 運用的資源,大概不及華語的千分之一」(楊允言 2003c),台語語料庫的建立 大部分是倚靠個人力量和政府單位少許經費補助下進行的。1990 年鄭良偉在 DOS 作業系統平台上開發 TW301 軟體,1994 年蘇芝萌在 Windows 作業系統上 開發HOTSYS 軟體,解決台語電腦輸入法與文書處理的問題;1999 年鄭良偉與 Roderick Gammon 合作開發的 TMLAP,功能包括斷詞、詞性標示、詞頻統計…

等;劉杰岳2001 年開發 Taiwanese Package(簡稱 TP),解決台語符號在網路 顯示的問題後,台語網站發展快速,擴展台語文在網際網路的流通性;目前台語 文已累積不少數位化的作品與刊物,台語語料庫的發展可說已經達到成熟的階段

(楊允言 2003c)。

目前台灣已建立數個公開與未公開的語料庫,有「台語文數位典藏資料庫(第 二階段)」、「台語文語料庫」、「台灣兒童語料庫」和「閩南語口語語料庫」。除了 以上的語料庫之外,還有許多個人基於研究需要所建立的小型語庫料。

以下分成五個部分簡介「台語文數位典藏資料庫(第二階段)」、「台灣兒童 語料庫」、「閩南語口語語料庫」、「台語文語料庫」以及小結。

一一

一一、、、、台語文數位典藏資料庫台語文數位典藏資料庫台語文數位典藏資料庫台語文數位典藏資料庫(((第二階(第二階第二階段第二階段段)段)) )

「台語文數位典藏資料庫」8是國家台灣文學館建立的台灣文學語料庫,委 託呂興昌執行「台灣白話字文學資料蒐集整理」計畫,蒐集到一千餘本白話字書 刊;高成炎執行「台語文數位典藏資料庫(第一階段)──台語文全羅文字語音輸 出系統」,將全羅馬字的台語文資料轉成聲音,透過網路放播放出來;楊允言執 行「台語文數位典藏資料庫(第二階段)──台語文學線上博物館」,此計畫承接 前述兩個計畫的成果,將已經打字建檔且取得授權的資料上網。

「台語文數位典藏資料庫」目前已完成兩個階段,建立漢羅、全羅對齊語料,

各 258 萬音節,分為清國、日治以及終戰後三個時期,文本分為詩、散文、小 說以及劇本四類,以漢羅、全羅文字對照的方式呈現,並且附有語音輸出可供學 習,現在已將資料上網供使用者查詢。

二 二 二

二、、、、台灣兒童語料庫台灣兒童語料庫台灣兒童語料庫台灣兒童語料庫(((Taiwan Child Language Corpus, 簡稱( 簡稱簡稱簡稱TAICORP))) )

台灣兒童語料庫是由蔡素娟主持建立的,語料來源是十四名嘉義縣民雄鄉一 歲二個月至五歲三個月的兒童,共有 431 人次錄音檔案,約 330 小時,以世界 標準的兒童語料交換系統(Child Language Data System, CHILDES)為格式建 構的語料庫,有46 個詞類標記,是世界上第一個有詞類標記的台語電腦語料庫,

8 台語文數位典藏資料庫(第二階段):http://iug.csie.dahan.edu.tw/nmtl/dadwt/pbk.asp。

目前收錄於國家數位典藏,並且架設網站提供資料作為學者研究之用,網址:

四四

四四、、、、台語文語料庫台語文語料庫台語文語料庫台語文語料庫

「台語文語料庫」9是由楊允言與張學謙共同主持建置的,是目前為止收錄 音節數最多的台語書面語語料庫,建立的目的是為了台語的相關研究建立基礎,

提升台語文的地位,並且促進台語文計算語言學的發展。

「台語文語料庫」的簡介如下:

(一)語料 1.語料來源

(1)台文刊物:包括《台文通訊》(1991 年創刊)、《台文罔報》(1996 年 創刊)、《TGB 通訊》(1999 年創刊)、《蓮蕉花》(1999 年創刊)、《台灣 字》(2000 年創刊,全羅馬字)、《湠根》母語文雜誌(2002 年創刊,

現已停刊)、《台灣公論報》蕃薯園台文專刊(2003 年創刊)、...等。

(2)專書或論文:主要由作者或編者提供。

(3)研究計畫成果:主要為國家台灣文學館的「台灣白話字文學資料蒐集 整理計畫」中已經數位化的電子檔,執行的時間至2004 年 12 月止。

2.語料規模

本研究所取得台語文語料庫規模是截至2005/7/31 為止的資料。

9「白話字台語文網站」---台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計:

http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/kiatanpoko/kiatanpoko.asp

表5 台語文語料庫規模表

音節次 音節型 詞次 詞型

漢羅合用台語 5,568,057 8,527 4,051,195 47,130 台語羅馬字 3,462,367 3,525 2,436,599 73,258

合計 9,030,424 6,487,794

資料來源 資料來源 資料來源

資料來源:「:「:「:「白話字台語文網站白話字台語文網站白話字台語文網站白話字台語文網站」」」」---台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統 計

計 計

計::::http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/

kiatanpoko/kiatanpoko.asp。。。。2008/8/22。。。。表格為研究者整理表格為研究者整理表格為研究者整理表格為研究者整理。。。。

3.語料分佈

下表是台語文漢羅、全羅語料文類的比例分佈表。

表6 台語文語料文類分佈表 文類文類

文類文類[Bûn-lūi] 漢羅漢羅漢羅漢羅[Hàn-lô] 全羅全羅全羅全羅[Chôan-lô]

學術[Ha̍k-su̍t] 7.48% 2.01%

報導[Pò-tō] 4.23% 2.54%

訪談[Hóng-tâm] 1.42% 0.00%

傳記[Tōan-kì] 2.90% 5.03%

評論[Phêng-lūn] 4.87% 4.39%

其它[Kî-tha] 1.20% 0.34%

表6 台語文語料文類分佈表

小說[Siáu-soat] 29.31% 59.08%

散文[Sàn-bûn] 35.78% 17.16%

新詩[Sin-si] 5.30% 3.42%

劇本[Ke̍k-pún] 3.43% 3.42%

兒童[Gín-á] 0.41% 0.97%

笑話[Chhiò-khe] 0.27% 0.24%

寓言[Gū-giân] 0.24% 0.12%

對話[Tùi-ōe] 0.38% 0.04%

書信[Phoe-sìn] 1.04% 0.58%

民間文學[Bîn-kan bûn-ha̍k] 0.72% 0.11%

演講[Káng-ián] 1.02% 0.54%

資料來源 資料來源 資料來源

資料來源:「:「:「:「白話字台語文網站白話字台語文網站白話字台語文網站白話字台語文網站」」」」---台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計:台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計::: http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/

kiatanpoko/kiatanpoko.asp。。。。2008/8/22。。。。

(二)台語文語料庫的應用

1.台語語詞檢索(concordance):分為漢羅和全羅兩個部分,提供學習者學 習欲查詢語詞的用法。

2.各類統計表:目前將語料庫全羅、漢羅的音節、語詞相關統計所得上網,

提供台語文研究使用。

表7 台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計

羅馬字(P) 漢羅(H)

音節層次 (S)

頻率統計(Frequency Count) 互訊息(Mutual Information) 相關度(Correlation)

頻率統計(Frequency Count) 互訊息(Mutual Information) 相關度(Correlation)

語詞層次 (W)

頻率統計(Frequency Count) 互訊息(Mutual Information) 相關度(Correlation)

頻率統計(Frequency Count) 互訊息(Mutual Information) 相關度(Correlation)

資料來源 資料來源 資料來源

資料來源:「:「:「:「白話字台語文網站白話字台語文網站白話字台語文網站白話字台語文網站」」」」---台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計:台語文語料庫蒐集及語料庫為本台語書面語音節詞頻統計::: http://iug.csie.dahan.edu.tw/giankiu/keoe/KKH/guliau-supin/ guliau-supin.asp。。。。 2008/8/22。。。 。