• 沒有找到結果。

國民小學台語課本詞性序列分析- 以金安版為例

N/A
N/A
Protected

Academic year: 2022

Share "國民小學台語課本詞性序列分析- 以金安版為例"

Copied!
132
0
0

加載中.... (立即查看全文)

全文

(1)

國立台東大學華語文學系 台灣語文教師碩士班碩士論文

指導教授: 楊允言 先生

國民小學台語課本詞性序列分析-

以金安版為例

研究生:汪 女 嫈 撰

中華民國九十九年九月

(2)
(3)
(4)
(5)
(6)
(7)

誌謝辭

研究生的生涯既艱辛又充實,歷經三個寒暑辛勤的努力付出和學習,如今論 文得以順利完成,內心除了擁有拾穗的甜蜜喜悅,更是充滿著無限的感激。

首先,感謝我的指導教授楊允言老師,從論文一開始的主題設定,到研擬、

進行研究計畫,乃至完成研究的最後階段,除了給予明確的方向和悉心指導之外,

並不時的鼓勵士氣,亦師亦友的精神支持,是論文順利完成的最大動力,在此謹 致上最深的敬謝。

再則,感謝論文口試委員張學謙教授和何信翰教授,對論文提供寶貴的意見 和指導,讓論文更能臻於完善,深感謝意。並感謝中研院資訊所詞庫小組林素朱 在詞性判斷方面提供寶貴的意見,在此僅聊表謝意。

感謝同事彭必佳老師在英文文獻上的協助。更感謝允言幫四朵花慧蓮、慧娟、

明姍、佩娟的相知相惜;麗華、歲玲、愛珍姐姐和蒼林大哥在口考時的協助;以 及同窗們的支持和勉勵。

感謝家母和二哥經堯及二嫂林慧玲老師,在報考和就讀期間,無論是生活上 或是精神上均提供了窩心的支援和鼓勵;感謝婆婆辛勤持家以及先生仲倫在修業 期間父兼母職,悉心照料兩個女兒,讓我無後顧之憂。欣慰兩個女兒廷伃和妙臻 的貼心,此期間廷伃更承受著基測的壓力,不但度過沒有媽媽陪伴的三個暑假,

還不斷幫媽媽加油打氣。

僅將此論文獻給所有關愛我的人,尤其是不向病魔低頭,長年與之對抗的生 命勇者-我最摯愛的母親。謝謝您們滿滿的愛,感恩!

女嫈 謹誌

(8)
(9)

國民小學台語課本詞性序列分析

-以金安版為例

作者:汪女嫈

國立台東大學台灣語文教師碩士班

摘 要

本研究以金安版(真平版)台語讀本第一冊到第十二冊建立微型語 料,運用線上語料庫系統進行詞性標記,從台語詞性序列的角度去予 以分析探討,且以描述統計和比較法來進行分析說明,並挑出內文中 有疑慮之台華對譯句加以討論說明。

研究結果發現,低、中、高年級分別學會了 10、11、12 種的簡化 詞性序列即可達到 61.98%、51.47%、49.56%的學習率。前 14 種未簡化 和前 13 種簡化後之詞性序列的覆蓋率分為 30.93%和 52.99%,亦即簡化 詞性序列較易顯現成效。而高出現率的 N、V N、N D V、N D VH、及 D V 建議列為先學的詞性序列。

希望本研究能提供出版社、教學者、學生家長、未來研究和相關 單位在台語教材選用、編撰、選讀或制定能力指標之參考,更冀望在 台語詞性序列研究上能達拋磚引玉之效。

關鍵詞:台語、語料庫、覆蓋率、詞性標記、詞性序列

(10)
(11)

Analysis of Part-of-speech Sequence in Taiwanese Textbook in Elementary School: Take Jin-An Version as the Example

Wang, Nu-Ying

Abstract

In this research, Jin-An Taiwanese textbooks (volume 1-12) were used to build up a mini corpus database. Based on Taiwanese part-of-speech sequence, it utilized

Taiwanese and Mandarin online tagging system respectively to mark the part-of-speech

and used descriptive statistics approach and comparative method to illustrate the outcome; in addition, some doubted Mandarin-Taiwanese translation sentences were picked up to proceed further discussion.

The research unveiled: students in lower, intermediate, higher grade learning 10,11,12 types of simplified part-of-speech sequence respectively can achieve the learning rate of 61.98%, 51.47%, 49.56%. The coverage of the former 14 unsimplifed part-of-speech and simplified part-of-speech are 30.93% and 52.99% individually, which indicated simplified part-of-speech is more effective. Moreover, part-of-speech in high rate of occurrence, such as N, VN, NDV, NDVH and DV are suggested to learn first.

The research unveiled: students in lower, intermediate, higher grade learning 10,11,12 types of simplified part-of-speech sequence respectively can achieve the learning rate of 61.98%, 51.47%, 49.56%. The coverage of the former 14 unsimplifed part-of-speech and simplified part-of-speech are 30.93% and 52.99% individually, which indicated simplified part-of-speech is more effective. Moreover, part-of-speech in high rate of occurrence, such as N, VN, NDV, NDVH and DV are suggested to learn first.

This research aims to throw a sprat to catch a whale, providing a reference of selecting, editing, reading, and establish a competence index for publishers, teachers, parents, researchers, and relevant organizations in the future.

Keywords : Taiwanese, corpus, coverage, part-of-speech marker, part-of–speech

sequence.

(12)
(13)

目錄

第一章 緒論 ... 1

第一節 研究動機與目的 ... 1

第二節 研究問題 ... 3

第三節 研究範圍 ... 3

第四節 名詞釋義 ... 4

第五節 本文結構 ... 5

第二章 文獻回顧 ... 7

第一節 語料庫語言學的相關研究 ... 7

第二節 句型的相關文獻研究探討 ... 13

第三章 研究方法與步驟 ... 21

第一節 研究方法 ... 21

第二節 研究步驟 ... 25

第三節 研究限制 ... 28

第四章 結果分析與討論 ... 29

第一節 金安版台語讀本句型研究結果 ... 29

第二節 簡化句型研究結果 ... 54

第三節 台華差異句比較分析 ... 65

第五章 結果與建議 ... 71

(14)

第一節 研究結論 ... 71

第二節 建議 ... 73

參考文獻 ... 77

附錄 ... 85

(15)

表目錄

表二- 1 楊惠中(2001)的語料庫分類 ... 7

表三 1 本研究詞類標記集 ... 23

表四- 1 第一冊 詞性組合及次數 ... 29

表四- 2 第二冊 詞性組合及次數 ... 30

表四- 3 第三冊 詞性組合及次數 ... 32

表四- 4 第四冊詞性組合及次數 ... 33

表四- 5 第五冊 詞性組合及次數 ... 35

表四- 6 第六冊詞性組合及次數 ... 36

表四- 7 第七冊詞性組合及次數 ... 38

表四- 8 第八冊詞性組合及次數 ... 39

表四- 9 第九冊詞性組合及次數 ... 41

表四- 10 第十冊詞性組合及次數 ... 43

表四- 11 第十一冊詞性組合及次數 ... 44

表四- 12 第十二冊詞性組合及次數 ... 47

表四- 13 平均句長統計表 ... 50

(16)

表四- 14 各冊之句型類別與句數之比值 ... 51 表四- 15 覆蓋率前 16 個一覽表 ... 53 表四- 16 低、中、高及全 12 冊常出現句型之排序表 ... 58 表四- 17 低年級出現率 1.65%以上之簡化句型及其覆蓋率一覽表 ... 61 表四- 18 中年級出現率 1.47%以上之簡化句型及其覆蓋率一覽表 ... 62 表四- 19 高年級出現率 1.32%以上之簡化句型及其覆蓋率一覽表 ... 63 表四- 20 全 12 冊出現率 1.03%以上之簡化句型及其覆蓋率一覽表 .. 64

(17)

圖目錄

圖三- 1 研究步驟流程圖 ... 27

圖四- 1 各冊句首 N、句首 V 和其餘句首之折線圖 ... 49

圖四- 2 1~12 課平均句長折線圖 ... 50

圖四- 3 各冊之句型類別與句數之比值 ... 51

圖四- 4 句型類別和總句數之比較 ... 52

圖四- 5 句型簡化後之低年級主要句型和出現機率 ... 59

圖四- 6 句型簡化後之中年級主要句型和出現機率 ... 59

圖四- 7 句型簡化後之高年級主要句型和出現機率 ... 60

圖四- 8 句型簡化後之全 12 冊主要句型和出現機率 ... 60

(18)
(19)

第一章 緒論

第一節 研究動機與目的

一、研究動機

過去政府的獨尊華語政策,造成學生學會了華語卻喪失其母語,致使族群語 言的嚴重流失。Krauss(1992)更指出,據估計世界上現有將近 6,000 種語言,到二 十世紀末將有 90%的語言會死亡。2002 年來自聯合國教科文組織的一份「世界 瀕臨消失語言分布狀況」報告書中,指出台灣因為島內的二十三種語言中,超過 半數已「屈服在華語的壓力之下」,故而也被列入「危險地區」1。在多語社會中 推行某一語言時,應對其他語言加以保護,才能避免被推行的語言變成強勢語 言,而其他語言成為弱勢語言。根據洪惟仁(2002)的研究指出,桃園地區公共場 所,以及全台 25 個火車站的語言使用情形,發現華語的使用頻率偏高,已成為 大多數人的生活常用語。人類生活中賴以傳達溝通、情感、思想的語言是母語,

母語關係著一個民族的文化延續,如果母語不幸被壓制,或過度被同化甚而導致 消失,怎不叫人堪憂。人民負有維護族群語言的權利,更不能因為其語言與文化 的不同,喪失了在法律上被平等保護的權利。湯廷池(1997)指出:

美國的雙語教育還可以說是為少數民族而推行的「德政」;國內的母語教育 只能說是回復大多數族群被剝奪已久的遲來的權利。

張學謙(2003)認為學校與家庭社區的語言文化無法銜接是弱勢族群普遍的經 驗,張學謙(2005)再指出學校與家庭社區的語言文化斷裂是導致母語流失的重要 因素之一。因此,挽救母語流失的重要方法就是學校的母語教育。黃榮村(1986) 表示:

近代的研究泰半認為雙語使用者,在概念形成上較為靈活,有較大之心理彈 性。

1記者閻紀宇综合外電報導,<台灣的母語逾半消失滅絕>,《中國時報.13 版》2002.10.10。

(20)

鄭良偉(1989)更指出:

台語的參與和推動有兩個共同的大目標:一是台灣話文的標準化和普及化,

另一就是雙語教育的實施。

如今,雙語並列是國小語文教育的現實(姚榮松,2004),雙語教育儼然已是一 種世界潮流,在一般家長的觀念裡,所謂的雙語自然為華語加上外語。然而,雙 語的學習,在台灣的大多數人所應正視的問題應是台華雙語(張欣戊,1995),黃宣 範(1995)認為:雙語教育就是在學校對弱勢族群人口施以母語教育,使之能(通常 是)在小學階段藉他∕她已經精通的母語吸收知識,認知世界。而根據陳美瑩與 康紹榮(2000)以台語進行實驗教學的結果証實,台國語雙語教學是可行的。

研究者為國小教師,在教學基層的職場上約二十個年頭,從早期學生在校想 說台語總苦無機會說,直到現在是鼓勵學生多開口說話,卻常常冒出「不輪轉」

的台語,出現不太會說的窘態。教育部於九十學年度起實施九年一貫課程,將母 語課程列入學習領域中,企求母語能透過學校教育激發學生的學習動機,進而引 起家長重視,對於母語的家庭教育有正面積極的影響。

李壬癸(1984)指出:語言不是本能,語言必須有後天學習的機會。除了家庭 環境的口語學習外,學校即是提供語言教育後天學習的不二場所。由於政府多年 的語文教育偏重華語,無論在決策的策劃推行、教材開發、師資培育以及其他軟 硬體設備上,可說是資源雄厚,如張學謙(2003)表示:母語教育和華語教育比起 來,僅是點綴性的學科,其地位連外語都不如。若能把華語教學的資源轉為母語 教學資源的一部份,透過教學經驗的累積和教學技巧的傳承,或是教材研究的比 對分析,想必不但可資源共享再利用,更能達到事半功倍之效果。同屬漢語的華 語、閩南語,在詞彙與語法方面的同質性高,若能藉由華語與閩南語之間的比較 分析來了解其異同,以達到迅速、有效地轉移學習。故而希望透過文獻及語料整 理的比較分析,探討閩語及華語之差異句為何,整理出異同處,做為教學或編輯 各方的參考,增加家長引導學童學習的信心。

(21)

二、研究目的

張學謙(2003)指出母語絕非學習第二語言的障礙,甚至學習任何語言的基本 條件建立在母語的基礎之上,母語不但有助於學習的轉移,從心理、社會及教育 三個層面而言,更是學習寶貴的資源。本研究基於此理念,擬定三個研究目的,

希望藉由台語和華語詞性序列學習上的相輔相成達到事半功倍的成效。

(一) 探討國小階段,金安版課程安排的詞性序列為何。經由台華語對照整理出差 異句,以供教師教學注意和參考。

(二) 經由詞性序列比對分析,增加台語教學的成效。

(三) 提供相關單位對編寫台語教科書的參考。

第二節 研究問題

基於第一節的研究動機與目的,本研究嘗試探討以下的問題:

一、低、中、高年級的詞性序列出現狀況為何?

二、低年級的何種詞性序列出現頻率較高,宜先施以教學?

三、位於前面覆蓋率,出現率較高的詞性序列,該學會哪幾種語句?

四、台語華語的詞性序列對照比較有無差異,若有,有哪些不同?

第三節 研究範圍

根據李欣珉(2008)對國民小學民間版教科書分析安可、真平(金安)、康軒、

翰林、南一等五家出版社的閩南語教科書,探討各版本間的使用漢字的差異以及 版本間字型與詞型之編排差異,從十個構面來評分,其中以真平版(金安版)(42) 得分最高。故而本研究以金安版國民小學的 12 冊台語課本進行台華語的比對,

針對詞性序列加以比較分析。

(22)

第四節 名詞釋義

一、台語

台語(Taiwanese)於廣義上而言是指台灣各族群所使用的語言,包含原住民 語、客語、閩南語;狹義的台語是在台灣通行的閩南語。而「台灣閩南語」有人 稱為「閩南語」、「台語」、「台灣話」、「河洛話」、「福佬話」或「鶴佬話」,全是 指在台灣使用的「閩南話」(林慶勳,2001)。而本研究稱之台語,與教育部公告之

「台灣閩南語」及九年一貫課程綱要中之「閩南語文」同。

二、華語

台灣人民口中的「國語」2,是台灣經過逾半世紀「國家統一」的統治下,

在語言教育上的「一語獨尊」語言。故而「北京官話」被榮稱為「國語」。為了 因應時代潮流,免除爭議故稱之「華語」。而本研究所提及之參考文獻中所呈現 之「國語」一詞即是「華語」

三、語料

「語料」此字譯自拉丁文 corpus(複數為 corpora),意思是「整體性的語言資 料」,意指人類口語或文字紀錄的彙編,亦即語料依不同的語言與傳達媒介,區 分為口語語料與書面語料。本研究中之語料,金安版國民小學的 12 冊台語課本 之正文,包含全漢字、台羅書寫之台語文書面語料。

四、覆蓋率

現在相關研究中的詞彙覆蓋率,是指將詞彙出現的頻率由高到低排序,依序 累積計算詞彙所佔百分比例,亦即將詞彙的出現百分比,依序加以累積,某個詞 在語料裡佔所有詞的百分比,就是覆蓋率。本研究所做的是研究詞性序列,依語 料實際呈現的詞序排列,雖然和詞彙覆蓋率概念相同,但詞性序列覆蓋率因詞序 排列組合複雜,計算上要達到完全吻合較為困難,因而本研究的覆蓋率說明到依

2 乃北京官話,又稱普通話,本文稱華語。

(23)

實際詞性序列之出現率而定。

五、句子

童鷹九(1971)認為:用兩個字以上的詞連接起來,能表出一個完整意思的 叫做句,不能表達一個完整意思的叫做詞組。而鄧英樹(2002)則認為:句子是 一種語法單位,不但必須有一個語調,更是動態單位,是語言的運用單位或表 述單位。趙元任認為:一個句子是兩頭被停頓限定的一節話語。呂叔湘更指出:

傳統的”句”和現在的”句子”有一點不同,”句”的長短差不多有一定範圍,可是”

句子”可以很短,也可以很長。基於台語教材內容大多偏為口語唸謠,常一小段 甚至一個詞就會停頓,故而本研究將只要兩頭可停頓的話語,且能表達完整意 思的,無論長短均視為一個句子。因此有時單一個動詞或名詞本研究亦視之為 一個句子。

六、詞性標記

我們在研究詞性序列時,詞性是相當重要的基準,目前台語尚未有自成一 套的詞類標準。本研究的執行工具是以台語文詞性標示系統為主,中文斷詞系 統為輔,而台語文詞性標示系統之詞性標記乃參考中文斷詞系統,故而本研究 主要採用中研院平衡語料庫的 46 個詞類標記集,再加以精簡為 18 個,讓教學 者能輕鬆地判斷,也使研究目的能如期完成。

第五節 本文結構

本研究共分為五個章節,第一章為緒論,第一節介紹研究動機與目的;第 二節介紹研究問題;第三節是研究範圍;第四節是本研究的重要名詞釋義;第 五節介紹本文結構。

(24)

第二章為文獻回顧,第一節 語料庫語言學的相關研究,第二節 語法的相 關文獻研究探討。

第三章介紹研究方法與步驟,包含研究方法和研究步驟以及研究的限制與困 難。

第四章為結果分析與討論,分別對金安版台語讀本詞性序列研究的結果,

簡化詞性序列的研究結果,以及台華差異句比較分析進行說明。

第五章為結論與建議,先對本研究做結論,再對出版社、教學者、學生家 長、未來相關研究,以及相關單位等提出建議。

(25)

第二章 文獻回顧

本章共分為二節,第一節為語料庫語言學的相關研究;第二節語法的相關文 獻研究探討。

第一節 語料庫語言學的相關研究

一、語料庫語言學

電腦科技精確又快速的發展,在教育上,無論是教材的編寫或是教學重點 的提供等,資訊的確豐富了課堂教學的內容,變成現代教學不可或缺的一環。

一個語言在計算語言學發展時,極需辭典及語料庫當做重要的基礎建設(楊允 言、劉杰岳,2007)。語料庫是一座儲存在計算機裡的信息寶庫,其方法即是一 種資訊的獲取,語料庫更是一個自然語言的大集合體,包含口語語料庫,書面 語語料庫,教育語料庫,兒童語料庫,學生語料庫,專用語料庫,平行語料庫 等等。透過電腦的資料大量輸入、經由儲存、統計、分析語言資料形成語言資 料庫,取代了人工的試算,得到快速、精確的答案。

語料庫的語料是以電子文本形式儲存,並且通過計算機自動處理的,透過 語料庫的對大數量的文本語料進行系統地處理呈現一些語言事實。

楊惠中(2001)按已建成使用的語料庫根據用途和性質分為以下類型:

表二- 1 楊惠中(2001)的語料庫分類

BROWN 語料庫:當代美國英語語料庫。

通用語料庫

LOB 語料庫:在構成上完全和 BROWN 對應,取材自當代 英國英語語料。

(26)

表二- 1 楊惠中(2001)的語料庫分類

Helsinki Corpus of Historical English:用於研究古英語。

專用語料庫

JDEST:學術英語語料庫,用於研究學術英語。

監控語料庫

稱為 Monitor corpus

COBUILD 語料庫:用於觀察現代英語的變遷。

如 The London-Lund Corpus、the Corpus of Spoken American English。

口語語料庫

研究口語特徵的重要工具,如語音語調的規律,其研究成 果在語音合成中有重要應用。其建設涉及口語真實語料的 採集及語音轉錄,工作量極大。

如 Chinese Learner English Corpus 學生英語語料庫

將各種程度的學生在學習英語過程中的言語輸出輸入計算 機,建立學生英語語料庫。對於研究中間語的性質及找出 學生易犯的錯誤,從而提高學習效率。

平行語料庫

稱為 parallel corpura

把兩種語言中完全對應的文本(如法律文件)輸入計算機,通 過分析對比找出兩者關係,可用於機器翻譯研究。

Susan Hunston 和 Gill Francis 從建立的語料庫中,利用大量的語料庫數據,

尋找詞彙項目、常用詞及文法型態,對語法結構進行分析,試圖藉由數據的呈 現來暸解語法模式。提出了語彙和文法之間沒有嚴格的區分之觀點,因為語彙 藉由在文法型態上的特性來加以顯現,而型態又常伴隨特殊的語彙出現。並透 過例句的介紹,具體來描述語法,從非常普遍到更明確的例句來介紹型態,普 遍的如 Vn(一個動詞後面跟著名詞組),就像是基本的片語結構規則;明確的 如 it V n/amount before/since (i.e. it 這個字後面跟著一個動詞,動詞後面跟著一 個名詞片語,表達語義觀念的 “amount”,後面跟著 before or since)。並討論 句型和意義的相關性,說明語義上相似的字群如何出現在相同的句型,例如說

(27)

明形容詞 difficult 和名詞 difficulty 的型態,也解釋了在字詞之間的差異。其中 包含了動詞接名詞組以及名詞和形容詞,找出類似於基本短語的規則,以及句 型與結構描述之間的關係及使用文法功能標籤如 Subject(主詞)和 Object(受 詞),提供了實用的字典說明和教學者實際上的應用,從語料庫語言學的角度為 語言學開創了另一視野。本研究將以此概念為前提,擬將有限的語料透過實作 分析,找出某種可能的規則,期能有助於教學者在實務上利用。

二、國內語料庫

國內有些語料庫的建立為研究者自行建構並未公開,但在研究上仍頗有建 樹。如洪于惠(2007)利用曾金金(2005, 2006)與鄧守信(2005)建制的語料庫為基 礎,加上自行搜集的語料進行語料庫分析。張宇虹(2008)以鄧守信教授專案研 究蒐集之中介語料庫為研究基礎,收集有關「的」字結構之偏誤,歸納最常見 的偏誤類型。

而目前由台灣各單位研發,在線上能查詢相關資料的台灣線上語料庫如錯 誤! 找不到參照來源。:

(一) 台大台灣南島語多媒體語料庫3,由國立台灣大學語言學研究所研發,

在 2001 年原為黃宣範、蘇以文、宋麗梅共同主持,從 2006 年 3 月起,改由 宋麗梅主持。主要語料為台灣南島語(噶瑪蘭語、賽夏語、鄒語、阿美語、撒奇 萊雅語、賽德克語、布農語),目前語料庫中已建構好有:賽夏語 22 筆聲音檔 之口述語料、噶瑪蘭語 4 筆有聲音及影像檔之口述語料、鄒語 2 筆只有聲音檔 之語料及阿美語 2 筆有聲音及影像檔口述語料。主要內容是將田野調查的口語 語料,以語調為單位,詳細紀錄口語中的各種現象。將聲音的語料轉寫成文字 紀錄,並做標記及中英翻譯等等。

3網址為:http://corpus.linguistics.ntu.edu.tw/intro.php

(28)

(二) 國立政治大學漢語口語語料4,由國立政治大學教授研發,在 2006 年 由徐嘉慧、賴惠玲及詹惠珍共同主持。以中文、客語、閩南語三種變化中或逐 漸消失的語言為語料,主要內容包含中文、客語、閩南語或逐漸消失的語言的 口語語料。含文字紀錄和音訊檔。主要分析華語及方言,並提供羅馬拼音與英 文翻譯。

(三) 台灣兒童語料庫(I)(II)(III) 5,由中正大學語言學研究所研發,在 2000 由蔡素娟主持,以台灣閩南語(簡稱台灣話)為語料,主要內容是自然言談性質 的語料,將「台灣話聲調習得的發展之研究」收集的語料建置語料庫,提供音 韻、構詞、句法、語意等不同層面的語言習得的研究。

(四) 台灣多國語言學習者語料庫6,由國立成功大學外國語文學系研發,以 中、德、日、西之語言為語料,主要內容是中、德、日、西語言的整合模式,

且提供公開檢索服務之第二外語學習者語料庫。現階段的語料收集重點為第二 外語的學習者為來源所建立的書面語語料。

(五) 中央研究現代漢語平衡語料庫(簡稱「研究院語料庫」) 7由中央研究院 資訊所、語言所詞庫小組研發,從 1990 年起由陳克健(資訊所)、黃居仁(語言所)兩位 研究員主持。以漢語為語料,主要內容是一個有完整詞類標記的漢語平衡語料 庫,蒐集不同主題和語式的語料構建語料庫,是專門針對語言分析而設計的加詞類標 記的漢語語料庫,每個文句都依詞斷開,並標示詞類。

三、台語語料庫

4網址為:http://140.119.174.187/

5網址為:http://linguist.ccu.edu.tw/front/bin/ptdetail.phtml?Part=ptsay891c&Rcg=7

6網址為:http://corpora.flld.ncku.edu.tw/index.pl#

7網址為:http://dbo.sinica.edu.tw/SinicaCorpus/

(29)

“語料庫會 sái 講是除了辭典以外,一種語言 tī 計算語言學 ê 發展所需要 ê 重要基礎”(楊允言、劉杰岳,2006)。和英語語料庫及漢語語料庫相較之下,

台語語料庫的建立發展和被重視,遠遠不及前者。楊允言(2003)即指出「台語 文在資料處理的發展,也關係著台語文的現代化。當我們在檢視這方面的發展 時,必須了解一個事實,在台灣,台語文所能運用的資源,大概不及華語的千 分之一。」

早期,台語語料的收集建立,缺乏政府單位的大力支援,大多是靠個人力 量在少許經費補助下進行的。1990 年鄭良偉將 TW301 架在 DOS 作業系統及倚 天中文系統之上,此輸入法對 1990 年代的台語文運動貢獻極大;蘇芝萌於 1994 年發展出 HOTSYS,是架在以圖形介面的 Windows 作業系統及 Word 文書處理 軟體之上的一套應用程式;001 年劉杰岳開發出 Taiwanese Package(簡稱 TP),擴 展台語文在網際網路的發展。楊允言於 2003 年經刊物主編或研究計畫主持人取 得原始語料(raw corpus) ,才真正開始了台語文語料庫的建立與蒐集工作。目前 提供的功能包括:1.台語語詞檢索(concordancer)系統8:分成漢羅和全羅兩部分;

2003 年上線,並陸續增加語料。2.台語音節和語詞的頻率統計資料,共有四個 統計表。3. 台語音節和語詞的互訊息及相關度統計,為語詞搭配(collocation),

提供統計資料,共有八個統計表。

由公家單位國家台灣文學館委辦補助的公開計畫如下:

(一)「台灣白話字文學資料蒐集整理」計畫:2001 年 5 月至 2004 年 12 月 由呂興昌執行,將蒐集到一千餘本的白話字書刊中部分有文學性的作品打字建 檔。

(二)「台語文數位典藏資料庫(第一階段)──台語文全羅文字語音輸出系

8 網址在 http://iug.csie.dahan.edu.tw/TG/concordance/ form.asp

(30)

統」:將高成炎於 2003 年 4 月至 2004 年 3 月接受文建會委託執行「台語文文化 推廣網站建構計畫」,加以延伸的計畫,於 2004 年 9 月至 2005 年 12 月執行。

此計畫主要的核心技術是變調註記,即先將資料加以整理,從台文華文線上辭 典查出台語的華語對應詞,透過中研院詞庫小組的辭典查出這個語詞的詞類標 記,透過變調標記演算法將這個台語文句標記變調註記,從事先錄好的台語音 節串接成整句的 mp3 格式聲音檔,透過 web 傳送聲音,讓使用者可以邊讀白話 字資料邊聽聲音。本系統的主要目的是將全羅馬字的台語文資料轉成聲音,透 過網路播放出來。

(三)「台語文數位典藏資料庫(第二階段)──台語文學線上博物館」:本計 畫承接前述兩計畫的成果,由楊允言執行,將呂興昌所完成的計畫中,已經打 字建檔的漢羅/全羅台語文各 224 萬音節資料再進一步校對,並持續完成 34 萬 音節的文學資料打字建檔、校對,網站上共呈現了各 258 萬音節的台語文學資 料。並且系統也規劃了其他功能。例如:提供查詢介面,提供使用者利用作者、

文類、文章名稱、時代、年代等資訊做查詢。也開發漢羅/全羅對照台語文的線 上校對系統、全羅台語文的文本統計系統(計算文本的段落、句、語詞、音節的 數量)、數字調號轉圖形顯示系統及羅馬字拼字檢查系統。目前的架構可以繼續 容納相關的文學作品,整理出來的成果就是一份台語文學語料庫。

四、台語語料庫的相關論文研究

謝昌運(2007)以語料庫語言學的方法分析台語加強詞的使用做研究。研究 範圍包括戲劇、小說、散文、社論、學術論文等五種台語文本,分析常見的加 強詞,有低調詞、退讓詞、擴充詞、強調詞四種。結果發現最常使用的是強調 詞,最不常使用的是低調詞;最常使用的文類是散文,最不常使用的是學術論 文。台語會利用不同程度的加強詞來增加修辭;台語具有某些跨語言的共通性

(31)

且保有部份自己加強詞的特色。

賴淑玲(2008) 採用文獻分析法和語料庫語言學分析法,將教育部所公佈的 第一批推薦的字詞 300 字詞和不同版本台語辭典的用字進行比較,發現這 300 字詞的選用,符合普遍性的「常用字詞」達到 97%,符合適用性的「優先字詞」

達到 85.3%的比例。

曾國榕(2008)採用語料庫語言學的方法進行資料的收集和分析學術和非學 術這兩種文體,研究發現在台華共通詞的使用比例學術類高於非學術類;在詞 彙豐富度學術類略高於非學術類、羅馬字詞彙的使用比例非學術類高於學術 類;平均詞長術類高於非學術類。顯示愈正式的文體台語借用華語的比例愈高。

李欣珉(2008)將 96 學年度國民小學五種版本的閩南語教科書,在一至十二 冊的課文中,分別研究字型、字次、詞型、詞次之數量、比例及用字差異,並 找出整體的高頻字、高頻詞及各版本使用教育部推薦用 400 字詞之現況,並以 十個構面來對各版本進行評分,將其得分由高到低排列,分別為真平版(42)>

康軒版(41)>翰林版(39)>南一版(27)>安可版(23)。

第二節 語法的相關文獻探討

三、四百年前閩南先民遷移到台灣時,將閩南漳泉的使用語帶入台灣。但 是,特殊的歷史背景和社會的動盪變遷,先後接受過南島語、西班牙語、荷蘭 語、日語和華語等程度不一的影響,交互作用下不但可略窺各時期的語言背景,

更形成了具有台灣本土特色的語言9。因為台語和漢語有密切的歷史和地緣關 聯,語法上在相似中仍有其相異之處,故而漢語和台語語法的相關研究則頗值 得注意。

9加入了更多元素的閩南語,即我們現在所使用的「台語」。

(32)

一、語法相關研究

從研究的目的和對象不同的角度來分,漢語語法可以大致分為理論語法和 教學語法兩大類。理論語法是語法學家根據不同的觀點、角度和方法所建立起 來的語法學體系,漢語語法專家代表性人物及其著作有:(黎錦熙)《新著國語 文法》;(呂叔湘)《中國文法要略》;(王力)《中國現代語法》;(高名凱)《漢語 語法論》;(丁聲樹、呂叔湘、李榮等)《現代漢語語法講話》;(呂叔湘)《漢語 語法分析問題》;(朱德熙)《語法講義》等。而教學語法是從語法教學實際出發,

除了注重實踐性,涉及的內容也較全面,其中“暫擬漢語語法教學系統”10的 句法主要討論句子的六大成分:主語、謂語、賓語、定語、狀語、補語。而句 子成分和詞之間存在對應關係,詞進入句子後就能作句子成分。

近年來,國內有關漢語句型進行相關論文的分析研究如下:

洪敏雄(1995) 以英文為主要書寫工具,採用國小國語課本十二冊、師大國 語文中心編製的外籍學生二冊以及國語日報中心出版的二冊國語教材,共十六 本書,7447 句建立資料庫,除了界定中文各種句型並計算出各句型在資料庫的 百分比。研究結果顯示資料庫共包含41種句型,這些句型提供了三種用途:

(1)學習的難易度的設定(2)安置、成就與診斷測驗的參考(3)教材編制的依據。

白麗娜(2001)對國編、康軒、南一三家首冊至第四冊進行句型教學研究,

將句類分為含陳述、疑問、祈使、感嘆四類語氣;句構分類為單句、複句、特 殊句、疑問句四大類,共四十二小類。研究發現教材中陳述句的句類最多;而 句構以「主語+述語+賓語」、「並列複句」句型最多。

10“暫擬漢語語法教學系統”是漢語語法學史上影響最大的語法體系之一,也是漢語教學語法 體系的代表。採用傳統的中心詞分析法進行句子分析,(即分析句子先要找出兩個中心詞『主 語和謂語』,然後再找主語和謂語的連帶成分和附加成分——賓語、定語、狀語和補語。)

把語法分為詞法和句法兩部分,詞法包括詞的構成、變化和分類,主要討論詞類的問題,而 詞類是根據詞的意義和語法特點劃分出來的。

(33)

孫碧霞(2005) 以二十四名學生為研究對象,主要是了解國小高年級學童國 語習作中語法的錯誤現象,收集了總數 152 個包含錯誤的句子,以「表層結構 策略分析(Surface Strategy Taxonomic)」歸類,計算「贅加型」、「省略型」、「替 代型」和「倒置型」四個錯誤類別所佔比率,並以內容分析法進行質的分析。

研究結果發現「添加」和「代替」為學童最常使用的語文表達策略,贅加型和 替代型多數是受到另一語言影響。有鑒於此,本研究在台華對譯句比較分析時,

針對教學上較易混淆的部份加以說明,希冀教學者從事教學時,提醒和幫助學 習者避免此方面的困擾。

林曉茹(2005) 以「文獻分析法」和「內容分析法」對仁林、南一、康軒和 翰林所出版的一到十二冊國語教科書,進行句型教學研究。朱崴慈(2008)對康 軒版國小一至六年級國語語法教學內容採「內容分析法」,探討單純詞、合成 詞、虛詞、短語、特殊句、實詞和複句進行統計分析和解釋量化結果。吳幸純 (2009)對南一、康軒、翰林三家出版社的九、十、十一、十二冊國語教科書進 行句型教學,以「內容分析法」為研究方法,探討句型與修辭相互間的關聯性。

陳家珍(2009)以「內容分析法」,探討九十七年度南一版、康軒版及翰林版國 小低年級國語教科書,由句型的類別所佔比例、各類單句、複句的呈現原則、.

五個特殊句型添加修飾語的情形等,說明記敍文句型之呈現情形。呂淑惠(2009) 以語料分析法和統計分析法來探討台語歌詞的句型,主要區分為單句和複句探 討台語歌謠的句型特色。以上這些研究對句型或許各有其不同的分類方式,但 主要均針對句型的表現狀況加以探討。

二、華台語對應研究

黃瓊華(2000)以七種華語語料庫中的常用詞彙 3600 條,對譯成台語常用詞 彙 3543 條,提出建議台語教材應優先教授的詞彙。許幸華(2002)以文獻調查蒐

(34)

集華語教學用語 2027 條,台語教學用語 2172 條,由詞形構成方式分析兩者的 異同。莊雅雯(2006)以文獻分析台語教材中的台語句型,透過華語對台語的句 型對比分析,探討兩種語言的差異。

本研究亦是台華語對應的研究,主要是整理台語教材的句型,藉由語料庫 的輔助將詞性標記加以簡化來進行統計分析。

三、台語語法研究

對於台語語法有多位學者提出相關研究書籍,分述如下。

(一)鄭良偉(1997)

在四冊八集的《台語、華語的結構及動向》中,內容提及:一、語音;二、

詞法與特列結構;三、語言接觸與語言類型;四、同義語的共存及重整;五、

時空關係;六、疑問與否定;七、代名詞的詞法、句法、回指結構及語用;八、

焦點及領域-範圍。其指出「台語無語法」是一般人的錯覺,對語法學者而言,

語法可分為人腦內的語法、描述語法、教學參考用規範語法三種,並以介於描 述語法及參考語法之間的角度去加以探討說明台語的語法。鄭良偉認為台語借 用大量的外來語詞,並將母語的語音、句法及認知特點帶進新語言。藉由台語 和其他語言交互作用所產生的特點,了解所牽涉的多語能力、多語層、共通化、

人腦以及社區效率化等等動力的互動,不但能一窺台灣語言的真面貌,也能對 人類語言共生進行深入的探討。

全書收錄三十七篇的學術刊物論文以淺白的文字探討有關台語、華語的結 構及動向的課題,是為探討現代人台語全貌的語法,並透過及英語、日語的比 較討論台灣華語及台語的特點研究;再則對台語的變調及輕聲語音規律密切及 詞法、句法、語意重點、詞彙各層面結構配合互動加以說明;並對台語表達數 量、條件、促使、疑問及否定的語詞攏有詞根、詞法、句法之間的同義語語層、

(35)

語法、及語用特點等多種結構類型加以探討;更從語言結構變動的觀點,探討 台灣社區內的台語及華語的語言效率化。

(二)楊秀芳(1992)

《台灣閩南語語法稿》中,認為閩南語法研究比較特別的地方是,常常需 對本字判斷和句法詞的探源等加以考慮,兼用歷史的方法和觀點,較能將閩南 語法分析清楚,在在都超出描述語法的範圍。故而在書中雖以結構學派描述語 法( descriptive grammar )為主,處理平面語言問題,更注重歷史的考量。而分析 構詞法及造句法的架構,則參考趙元任(1968)、朱德熙(1984)對漢語語法的描述。

為了要了解閩南語歷史,需替閩南語作詳細的語言層剖析,其中牽涉到極 多變數,除了必需對漢語史及漢語方言的分布、變遷、移民活動有詳實的了解,

對每一個時代的音韵結構更要有完整的看法,甚至還得考慮讀音本身不規則的 變化,要能作出較好的推斷是一件相當困難的事。這方面的相關研究,有顏祥 霖(Yen 1965).、Norman (1970、1979)、嚴棉(Sung1973)、張盛裕(1979)、何大安 (1981)、楊秀芳(1982)、周長楫(1983)、丁邦新(Ting 1979、1983)、張光宇(1986) 等。

(三)王育德(1993 黃國彥譯)

原刊於《台灣青年》歷經四年之久的《台灣話講座》,後經黃國彥加以譯 為漢文版,其中第二十一講至第二十三講探討台灣話的文法,包括構詞法、詞 類的畫分句法等。「文法理論是很棘手的一門領域」若將語言中依循著可找出的 道理加以編纂的文法即稱為規範文法;若用科學方法來實際描寫語言現象極為 描寫文法。規範文法重視規律性不允許例外,而描寫文法除了有規律性亦將例 外據實描述,故而王育德認為「台灣話根本無法談規範文法」,當務之急應是觀 察和描述台灣話的語言現象。

認為文法研究的內容分為詞法和句法,所謂詞法是將具有單獨用法的兩個

(36)

以上的詞合成另一個詞,或將一個詞和一個以上的非獨立成份結合成立一個 詞,此兩種利用合成或派生手段進行構詞或辭行交替的研究。更指出「台灣話 屬孤立語,沒有形態交替,文法功能專賴詞序表達,因此句法極為重要。」「詞 序是詞在句子或結構中所佔的位置、順序。」因此詞序的固定與否和形態交替 的有無,彼此之間密切關聯。

分析文法時,詞類的畫分是一種權宜措施,張志公設為十一個詞類:名詞、

動詞、形容詞、數量詞、指代詞、繫詞、副詞、介詞、連詞、助詞、感嘆詞;

倉石武四郎亦設定十一個:指代詞、數詞、量詞、名詞、動詞、形容詞、副詞、

介詞、連續詞(=連詞)、間投詞(=感嘆詞);而王育德設定為十三個詞類:名詞、

指代詞、數詞、範詞、動詞、形容詞、助動詞、副詞、情意詞、介詞、接續詞、

語氣詞、感嘆詞。

(四)許極燉(1998)

在《台灣語概論》中對台灣話進行综合性的概述,指出語音、詞彙和語法 是語言的三大要素,台語有其特有的語法,而台語的語音有一部分亦會反映出 台語的語法。語言的法則即為語法,是詞與詞組構成語句時相互之間存在的原 理原則的關係。基於實用性目的,將規則性質列出的為規範語法,另一則為把 語言上的現象用科學的方法記述下來的為記述語法。指出語法的研究課題是詞 法和句法,詞法是指研究詞的合成和派生以及單詞型態進行交替的體系;而句 法則是研究單詞或詞組在構成文句時的社會習慣,即句法。

句子的形成是來自使用該語言的社會約定成俗,並非絕對不變。台語因不 具詞形交替,故而語詞在句中所佔的位置極為重要,亦即台語的構語法須重視 語序的問題。亦將台語句子的種類,依句子構成形式分為簡單句和複合句;從 句子的性質分為敘述句、疑問句、感嘆句和命令句。對於詞的種類更有別於品 詞的分類,而是按照詞的音節多寡,詞的組成方式來做區分詞類。

(37)

(五)許極燉(2003)

《台語學講座》的第八講語法導論中,從語法研究的領域、〔ɑ〕音變的語 法及〔e〕的語法,對台語有趣的語法現象做了概述;再則從詞語詞組、詞的合 成法和構詞的衍聲派生法進行詞彙的說明;最後介紹了聲調集團的句法、輕聲 造句法、「有」與「無」的句法、形容詞的重疊句法、大量使用擬聲詞與擬態詞 等台語的巧妙造句方法。

(六)林慶勳(2001)

在《台灣閩南語概論》第三章台灣閩南語的語言特點中,將台語的詞彙特 點和語法特點和華語做比較。其中詞彙特點分述為四點:形同義別、義同形別、

特殊造詞法、構詞特殊的常用詞彙舉例;在語法特點舉出下列三項:構詞法特 點、語詞組合特點、句子結構特點。

在構詞法特點舉出重疊的部份,指出台灣閩南語使用形容詞重疊,表示性 質的程度;台灣閩南語有時使用動詞重疊形式,表示動作的完成;台灣閩南語 也可以使用動詞重疊形式,表示對事物的強調與動量強化。在附加部分則點出:

台灣閩南語用後綴詞尾「仔」字表示小義;「仔」字有時表示輕視義;「仔」字 有時可以讓形容詞名詞化;後綴詞尾「頭」字,有時用在泛稱卻縮小範圍;「頭」

字有時表示次等貨。

對於語詞組合特點舉出下列三點:量詞+名詞時,數詞「一」可省略;形 容詞+量詞+名詞,是將量詞置於形容詞之後,修飾後面的後面名詞的形容詞 特殊結合;而名詞+疊音形容詞,則強調表示性質的程度。

句子結構特點則將比較句分為相等式和不相等式來說明;以「有」「無」置 於動詞或形容詞之前來說明疑問句;最後指出台灣閩南語有賓語提前,放在謂 語前面句子的形式,即賓語+謂語。

(38)

(七)盧廣誠(1999)

《台灣閩南語詞彙研究》對台閩語的構詞方式做了全面性的描述,更以現 代語言學理論分析各類的重疊詞,並提供相當豐富的語料。並在附錄中收錄了 八篇和台閩語相關的論文,提供研究者進一部參考。

(39)

第三章 研究方法與步驟

本章旨在說明採用的研究方法和研究步驟的流程。本研究透過語料庫系統 的進行語料處理,並將研究結果經描述統計的整理,並利用比較法進行台華差 異分析。

第一節 研究方法

一、線上語料庫系統

透過已建立的大規模語料庫進行研究,是語料庫語言學的主要研究方法。

相較於全人工作業的方式,利用電子計算機的輔助,可以大量、快速、準確的 進行研究是其最大的特色之一,本研究使用之語料庫,以台語文詞性標示系統 為主,中文斷詞系統為輔,而語料之建立,以全羅漢羅轉換系統來檢視,將課 本中沒有的連結符號做進一步確認,以增加語料輸入時的信度。

(一)台語文全羅漢羅轉換系統

此線上系統,使用者可自由選擇輸入漢字或台羅來進行轉換,系統會將句 子做適當的斷句,並把意思完整的詞彙以連結符號「-」加以標示。本研究使用 此系統,對語料的台羅標音進一步地加以檢視,以利於進行挑選華語詞時,提 供電腦更正確的判斷資訊。

(40)

(二)台語文詞性標示系統11

詞性標示系統為楊允言和張學謙共同主持之國科會計畫,此系統乃參考中 文斷詞系統詞類標記集,簡化台語之詞類後,分為 43 個標記和 3 個特殊標記,

共 46 個標記。本研究利用此系統,分為三個步驟進行:

1.輸入台語文找華語候選詞:進入系統,點選全羅漢羅台語文找華語候選 詞,再將資料輸入「對照文本輸入找華語候選詞」。系統會將漢羅文本 的部分,參照台華辭典 6 萬多詞條以及逆向最大匹配(BMM)演算法斷 詞,若是漢羅及全羅文本,則使用對齊程式逐詞對齊,下方即出現選出 之華語候選詞資料。

2.挑華語詞和標詞性:將華語候選詞資料輸入「挑華語詞和標詞性」中,

系統會根據華語候選詞的出現機率及前後文對照,加以比對後,標出可 能的詞性及其出現率。

3.整理:再將華語詞和詞性輸入整理欄,系統會選擇出兩組較為適當的詞 性組,即可挑出較符合文本原意的詞組作為研究語料。

(三)中文斷詞系統

此系統依據中央標準局「資料處理用中文分詞規範」處理中文斷詞問題,

詞類標記集(見 表三 1)則是由詞庫小組(1993)八萬目辭典中的 178 個詞類經簡 化後所得的 43 個標記,另外加上 3 個特殊標記,共 46 個標記。本研究為台語 語料,故以台語文詞性標示系統為主要查詢系統,若有疑慮則加以參照中文斷 詞系統的標記。

11網址:http://203.64.42.21/TGB/tagging/tagging.asp。2010/08/04。

(41)

(四) 本研究詞性標記

本研究主要以中研院平衡語料庫中的 46 種詞性標記為參照,再加以精簡,

以較為簡易的方式呈現,讓教學者在教學時能快速去做判斷進行活動。故而精 簡為如表三 1 之 18 種詞性標記。原則上將同性質的歸為同類,但若全數均以 精簡,又將看不出其中的語法現象,故而將較為特殊的予以保留。例如:VH 雖是狀態不及物動詞,但有時視為形容詞才合理,為了避免個人的解讀差異造 成模稜兩可的困擾,故而保留為 VH;名詞 N 為了能分辨其所代表的特性,故 而分為 N、Nc、Nd、Ne、Nf、Ng 六類,即 Na、Nb、Nh 標記為 N;Nc、Ncd 標記為 Nc;Neu、Nes、Nep、Neqa、Neqb 標記為 Ne;而 Nd、Nf、Ng 則予以 保留。例如:一本書,「一」為 Neu、「本」為 Nf、「書」為 Na,若全精簡為 N,

則出現 N N N 的詞性序列,將不易從詞性序列上看出原來的含意,故而標示為 Ne Nf N。

表三 1 本研究詞性標記集 簡化標記 詞性標記

A A /*非謂形容詞*/

Caa C /*對等連接詞,如:和、跟*/

Cab C /*連接詞,如:等等*/

Cba C /*連接詞,如:的話*/

Cbb C /*關聯連接詞*/

Da D /*數量副詞*/

Dfa D /*動詞前程度副詞*/

Dfb D /*動詞後程度副詞*/

Di D /*時態標記*/

Dk D /*句副詞*/

D D /*副詞*/

Na N /*普通名詞*/

Nb N /*專有名稱*/

Nc Nc /*地方詞*/

(42)

表三 1本研究詞性標記集 簡化標記 詞性標記

Ncd Nc /*位置詞*/

Nd Nd /*時間詞*/

Neu Ne /*數詞定詞*/.

Nes Ne /*特指定詞*/

Nep Ne /*指代定詞*/

Neqa Ne /*數量定詞*/

Neqb Ne /*後置數量定詞*/

Nf Nf /*量詞*/

Ng Ng /*後置詞*/

Nh N /*代名詞*/

I I /*感嘆詞*/

P P /*介詞*/

T T /*語助詞*/

VA V /*動作不及物動詞*/

VAC V /*動作使動動詞*/

VB V /*動作類及物動詞*/

VC V /*動作及物動詞*/

VCL V /*動作接地方賓語動詞*/

VD V /*雙賓動詞*/

VE V /*動作句賓動詞*/

VF V /*動作謂賓動詞*/

VG V /*分類動詞*/

VH VH /*狀態不及物動詞*/

VHC VH /*狀態使動動詞/

VI V /*狀態類及物動詞*/

VJ V /*狀態及物動詞*/

VK V /*狀態句賓動詞*/

VL V /*狀態謂賓動詞*/

V_2 V-2 /*有*/

DE DE SHI SHI FW FW

(43)

二、描述統計

將十二冊所整理之詞性序列,進行相關的統計分析,包括各冊詞性序列數、

平均句長、較高覆蓋率之詞性序列,以及簡化詞性序列後,低、中、高年級之 詞性序列組合差異,進行描述統計的說明。將語料中,臺華對譯時,在詞性序 列組合上有所不同或需注意的句子,加以挑揀並進行差異句之分析比較。

三、比較法

將語料中,臺華對譯時,在詞性序列組合上有所不同或需注意的句子,加 以挑揀並進行差異句之分析比較。

第二節 研究步驟

主要的步驟如圖三- 1,分別為:一.收集並建立研究語料;二.研究資料處 理;三.資料分析過程三大部分。

一、收集並建立研究語料

本研究整理金安版(真平版)第一冊到第十二冊台語課本的課文內容,以逐 字輸入漢字及羅馬字拼音方式,建立微型語料12之雛型。

二、研究資料處理

所建立的語料雛型,需再利用台語文全羅漢羅轉換系統13、中文斷詞系統14 及台語文詞性標示系統,此三個大型語料庫系統為工具,將語料雛型加以比對,

12 一般對現代語料庫的認知是,以電子文檔為主要構成的計算機大型語料庫。另微型語料的概 念,不是將現有語料庫加以抽樣,取出具有代表性的樣本,而是處理目前所使用的語料,將真 實的語言現象加以顯示,使語料庫能應用於教學上,此乃微型語料的目的。

13 台語文全羅漢羅轉換系統:http://203.64.42.21/TGB/CLHLMI/clhlmi.asp

14 中文斷詞系統網址:http://ckipsvr.iis.sinica.edu.tw/

(44)

整理出所需之詞性序列語料。處理的程序為:電腦挑選華語詞和詞性、人工校 正詞性、詞性序列統計。

三、資料分析

除了進行詞性序列的量化比較,並以人工方式挑揀語料中出現的臺華差異句 進行分析比較。

進行步驟說明如下:

步驟一:蒐集金安版(真平版)第一冊到第十二冊台語讀本為研究語料。

步驟二:整理金安版第一冊到第十二冊台語課本的課文內容,以逐字輸入 漢字及羅馬拼音。

步驟三:利用台語斷詞系統,找出一個一個的語詞,加上適當的連字符號 「-」。

步驟四:檢查台語文轉換呈現的語料,進行人工校對,增加輸入語料的信 度。

步驟五:輸入漢字和全羅資料,在網路台語文系統進行挑華語詞和標詞性。

步驟六:電腦雖能大量的處理資料,但面對語言的多樣性,在僅有的規則 脈絡中,常會在慣例中出現特例,不免會出現錯誤或無法判定。

此步驟是將台語文系統所挑出的華語詞和標詞性語料,進行人工 校對檢查;若有疑慮則參照網路中文斷詞系統,或請教專家。

步驟七:將詞性標示結果做詞性序列整理,語料排序順序為 1.出現次數由 高到低 2.英文字母順序由前到後來加以整理。

步驟八:將整理好的詞性序列加以數位化,並透過試算表軟體加以統計。

步驟九:將原始詞性序列加以簡化,從步驟七再重新做一次。

步驟十:進行詞性序列的量化比較和台華差異句型比較。

步驟十一:研究結果分析。

(45)

圖三- 1 研究步驟流程圖 收集並建立研究語料 蒐集研究語料

輸入語料

連結符號「-」確定

人工校對

挑華語詞和標詞性

人工校正詞性

詞性序列整理

詞性序列統計

進行詞性序列比較

研究結果分析

研究資料處理 資料分析過程

蒐集金安版 98 學年度學校使用之台語讀本。

將教材中課文內容的漢字和羅馬字打字輸入。

輸入語料進行轉換,取得連結符號「-」標示。

檢查台語文轉換呈現的語料,進行人工校對。

輸入漢字和全羅資料,進行網路挑華語詞和 標詞性之台語文系統。

檢查台語文系統所挑出的華語詞和標詞性語 料,進行人工校對;若有疑慮則參照網路中文 斷詞系統,或請教專家。

將詞性標示結果做詞性序列整理。

將整理好的詞性序列利用電腦程式加以分類統 計。

各冊句型、各類句型比較。

臺華差異句比較 人工挑揀臺華差異句進行比較。

簡化詞性序列再重做

(46)

第三節 研究限制與困難

研究者在進行研究時,面對一些限制與困難,分述如下:

一、課本雖有台羅標音,但缺少了連結符號「-」的標註,在建立語料時,為了 避免個人的喜好和偏見,影響斷詞及詞性判斷以致誤植語料,故而審慎地 再利用台語文斷詞系統做再確認,但電腦的執行並非百分百之正確,便以 專家效度方式來獲得解決。

二、在進行台語文詞性標示系統時,常因長時間或大量使用的關係,使系統當機,

此時則需 mail 給系統維護助理,請他系統重新開機,這往返當中,需有一 定時間的等待。

三、詞性序列分析的首要工作是詞彙的詞性判斷,當台語文詞性標示系統和中文 斷詞系統,無法或無一致做判別時,則需請教中研院資訊所詞庫小組專家 林素朱的幫忙。

四、本研究建立金安版之台語語料,故而在分析時只能針對此版本進行描述統計 之說明,無法進而推及其他版本,因而對於使用此版本者之實質意義較大。

(47)

第四章 結果分析與討論

第一節 金安版台語讀本詞性序列研究結果

針對金安版(真平版)第一冊到第十二冊台語讀本進行詞性序列分類,再根據 台語文斷詞系統、台語文詞性標示系統、中文斷詞系統所得到的詞性序列結果,

將資料加以整理統計分述如下。

一、一至十二各冊詞性序列組合及次數統計表 (一)第一冊

總句數為 28 句,有 19 種不同之詞性序列組合,有重複出現詞性序列的 8 類共 16 句,占總句數的 57.1%,即 42.9%為不同詞性序列,如表四- 1 所示。

表四- 1 第一冊 詞性序列組合及次數

詞性序列組合 次數 例句

N 4 囝仔兄

N N 2 膨鼠 膨鼠

N Ne Nf 2 大人 兩 个

N V 2 阿爸 講

Ne Nf V 2 一 句 來

V 2 行來行去

V V 2 相掠 相逐

D SHI N DE N 1 攏 是 伊 的 寶貝 D V N 1 愛 食 果子

D V N N 1 欲 揣  小妹

D VH N V N N 1 就 大聲 喝 妹妹 妹妹

(48)

表四- 1 第一冊 詞性序列組合及次數

詞性組合 次數 例句

N D D V N 1 咱 來 做伙 學 台語 N Nc D VH 1 台語 世界 真 趣味 N N D VH 1 阿安 阿安 真 好禮 N Nc DE N Ne Nf 1 阮 兜 的 人 五 个

P N V D V D VH 1 對 人 失禮 會 講 真 歹勢 V N D V V D 1 看著 人 會 問 食飽 未 V N P Nc V 1 看著 白雲 佇 天頂 飛 V Ne Nf VH N 1 穿 一 領 白 膨紗

總句數 28

重複出現詞性序列比例 57.1%

由表四- 1 可知,在第一冊中,N 的出現次數最多有 4 次;出現 2 次的分別 是 N N、N Ne Nf、N V、Ne Nf V、V、V V。以 N 為句首的 14 句佔了 50%,以 V 為句首的 7 句佔了 25%,其餘佔 25%。

(二)第二冊

總句數為 29 句,有 18 種不同之詞性序列組合,有重複出現詞性序列的 7 類共 18 句,占總句數的 62.1%,即 37.9%為不同詞性序列,如表四- 2 所示。

表四- 2 第二冊 詞性序列組合及次數

詞性序列組合 次數 例句

N VH 5 桃花 紅

Ne Nf N 3 一 粒 肚臍 D D V N 2 鬥陣 來 學 台語

D VH 2 真 好耍

(49)

表四- 2 第二冊 詞性序列組合及次數

詞性序列組合 次數 例句

N D V 2 阮 咧 拋輾斗

N DE N 2 我 的 頭殼

N Nc 2 腹肚 中央

N 1 運動埕

N D D V 1 逐家 攏 真 歡喜 N D V N 1 恁 咧 做 體操

N N D V D D VH 1  逐家 攏 講 無夠 飽

P Nd 1 對 半暝

V N D D V 1 看 啥 較 𠢕 走 V N V Nc 1 揹 冊包 去 學校 V Nc V Nc 1 摸 東 摸 西

V P Nd 1 食 到 透早

VH DE Nd VH 1 彩色 的 花園 媠噹噹 VH SHI VH N 1 開學 是 大 日子

總句數 29

重複出現詞性序列比例 62.1%

由表四- 2 可知,在第二冊中,N VH 的出現次數最多有 5 次;出現 3 次的是 Ne Nf N;出現 2 次的有 D D V N、D VH、N D V、N DE N、N Nc;其他詞性序 列均只出現 1 次。以 N 為句首的 14 句佔了 48.3%,以 V 為句首的 4 句佔了 13.8%,

其餘佔 37.9%。

(三)第三冊

總句數為 32 句,有 28 種不同之詞性序列組合,有重複出現詞性序列的 1 類共 5 句,占總句數的 15.6%,即 84.4%為不同詞性序列,如表四- 3 所示。

(50)

表四- 3 第三冊 詞性組合及次數

詞性組合 次數 例句

N 5 流星

C N Nc V_2 D VH 1 雖然 阮 兜 有 較 狹 C VH P N 1 毋過 溫暖 在 心底 D N Nc V 1 來 阮 兜 坐

D V 1 四界 玲瓏踅

D V_2 N C N 1 愛 有 電視 佮 電話 N D D V Ne Nf N 1  欲 去 揣 一 間 厝 N D P N Nc 1 蠓仔 猶 佇 耳空 邊

N N 1 隔壁 埕

Nd D V V 1 暗時 欲 睏 膏膏纏 N D V D VH 1 你 四界 看看 免 歹勢

N D V 1 你 著 保庇

N V N D V 1 風 吹 芳味 四界 送 N V Nc V VH N 1 我 去 灶跤 泡 好 茶 N V P N Nc 1 蠓仔 飛 佇 耳空 邊

N VH 1 玉蘭樹仔 媠噹噹

Ne Nf N D V 1 一 陣 露螺 寬寬仔 爬

V 1 閃閃爍

V N 1 踅過 沙仔地

V N N V N 1 予 阮 阿爸 趁 大錢

V N N VH VH 1 予 阮 阿母 無煩無惱 笑微微

V N Nc 1 踅過 田岸 邊

V P N V 1 流 對 彼爿 去 V Ne Nf 1 種 一 欉

V N V N D V 1 予 我 食 糖仔 袂 蛀齒

(51)

表四- 3 第三冊 詞性組合及次數

詞性組合 次數 例句

V N V N 1 拍無著 蠓 拍著 鼻

V V V 1 來 來 來

VH D VH 1 白 擱 芳

總句數 32

重複出現詞性序列比例 15.6%

由表四- 3 可知,在第三冊中,N 的出現次數最多有 5 次;其他詞性序列均 只出現 1 次。以 N 為句首的 15 句佔了 46.9%,以 V 為句首的 10 句佔了 31.3%,

其餘佔 21.8%。

(四)第四冊

總句數為 32 句,有 26 種不同之詞性序列組合,有重複出現詞性序列的 2 類共 10 句,占總句數的 31.3%,即 68.7%為不同詞性序列,如表四- 4 所示。

表四- 4 第四冊詞性組合及次數

詞性組合 次數 例句

N 6 大象

N N D VH 2 高鐵 高鐵 真 勇健

V Ne N 2 煮 規 鼎

C D V 1 若 欲 睏

D D V Ne Nf N 1 敢 愛 用 一 箱 茶箍 D D V Ne Nf VH N 1 敢 愛 用 三 張 大 眠床 N D SHI N 1 豆菜 本來 是 綠豆 N D V D VH 1 你 哪會 落 遮 粗

N D VH 1 你 遮 大箍

Nd DE Nd 1 熱天 的 下晡

(52)

表四- 4 第四冊詞性組合及次數

詞性組合 次數 例句

N N VH 1 你 鼻仔 長

N SHI VH N 1 伊 是 「追風」 少年兄

N T N 1 雨 啊 雨

N V N D V N 1 豆菜 生 根 無 生 葉 N V V N 1 綠豆 發芽 變 豆菜 Ne Nf N D P Nc 1 逐 項 好料 攏 佇 遮 P N V C VH 1 將 阮 沃 甲 澹糊糊 V D V V N 1 走 敢若 飛 排 頭名

V N 1 洗 身軀

V N D V D N 1 害 阮 煞 「必+見」無 路 V N D V N 1 生 葉 袂當 做 豆菜

V V Ne Nf V 1 上北 落南 逐 工 行 VH Ne Nf N 1 雄雄 一 陣 西北雨 VH V C VH 1 歡歡喜喜 食 甲 飽 VH VH P Nc V 1 勇健 拍拼 向 前 行

總句數 32

重複出現詞性序列比例 31.3%

由表四- 4 可知,在第四冊中,N 的出現次數最多有 4 次;出現 2 次的分別 N N D VH、V Ne N;其他詞性序列均只出現 1 次。以 N 為句首的 16 句佔了 50%,

以 V 為句首的 7 句佔了 21.9%,其餘佔 28.1%。

(五)第五冊

總句數為 28 句,有 24 種不同之詞性序列組合,有重複出現詞性序列的 3 類 共 7 句,占總句數的 25%,即 75%為不同詞性序列,如表四- 5 所示。

(53)

表四- 5 第五冊 詞性組合及次數

詞性組合 次數 例句

V N 3 出 畚斗

Nc 2 五金店

N D V 2 你 來 切

D N Ne Nf N 1 親像 天頂 一 面 鏡 N N D D V N 1 電器 電器 真 𠢕 變 把戲 N N D V C VH 1 冷氣機 熱天 嘛 變 甲 冷吱吱 N N V C VH 1 電冰箱 好食物 冰 甲 鮮鮮鮮 Nd Ne V N 1 八月 十五 食 月餅

N N VH N 1 蓮霧 蓮霧 好 果子 N V D V 1 厝邊 相招 來 摒掃

N V N VH D V 1 洗衫機 洗 衫 省工 袂 費氣 N V P Nc 1 規陣 摒 到 巷仔口

N VH N D SHI 1 電視機 精彩 節目 滿滿 是 N VH VH 1 月娘 圓圓 光焱焱

V 1 𧿳𧿳跳

V D V Ne N 1 挽落來 共 食 一 喙 V N D D V V 1 講 伊 嘛 欲 鬥 摒掃 V N D V D VH 1 包 你 愈 食 愈 紲喙 V N DE N 1 唱出 阮 的 祝福 V N Nc Ne Nf N 1 拄著 阮 兜 彼 隻 狗

V N VH 1 祝 你 生日快樂

V N VH VH 1 祝 你 美滿 幸福 V P N Nc VH 1 掛 佇 樹 頂 紅記記

V VH N 1 分享 甜蜜 願望

總句數 28

重複出現詞性序列比例 25%

(54)

由表四- 5 可知,在第五冊中,VN 的出現次數最多有 3 次;出現 2 次的分別 是 Nc、N D V;其他詞性序列均只出現 1 次。以 N 為句首的 11 句佔了 39.3%,

以 V 為句首的 13 句佔了 46.4%,其餘佔 14.3%。

(六)第六冊

總句數為 42 句,有 31 種不同之句型組合,有重複出現詞性序列的 4 類共 15 句,占總句數的 35.7%,即 64.3%為不同詞性序列,如表四- 6 所示。

表四- 6 第六冊詞性組合及次數

詞性組合 次數 例句

N 8 跤球

V Nc V N 3 走去 冰店 買 冰枝 N D V N 2 囡仔人 著 知 道理

V 2 攄來攄去

C D V N N 1 若 欲 食 紅豆 冰 D D P V N 1 現現 就 咧 踢 跤球 D D V D V 1 早早 去 睏 早早 起 D D V N 1 煞 去 踢著 地球 D N VH 1 不時 身軀 黏黐黐

D V 1 袂 費氣

D V D VH 1 愛 運動 愛 清氣 D V N 1 來 洗 喙

D V Nc V N N 1 就 去 冰果店 揣 阮 阿舅 N C N 1 菝仔 佮 蓮霧

N D N VH 1 日頭 像 火 炎熾熾 Nc DE N D VH 1 齒縫 的 垃圾 攏 無去

(55)

表四- 6 第六冊詞性組合及次數

詞性組合 次數 例句

N V 1 啥 知影

N VH D V 1 身體 健康 愛 注意 Ne Nf N 1 這 條 街

Ne Nf V V 1 規 日 流汗 流袂離 Ne Nf C P N Ng 1 每 年 若 到 熱天 時 Ne Nf V 1 逐 工 洗

Ne Nf V_2 1 逐 項 有

V N 1 提 齒抿仔

V N V 1 走去 海邊 藏水沫 V N V N D V 1 洗 喙 漉 喙 袂 蛀齒 V N V N D VH 1 看 山 看 水 袂 近視 V Ne Nf VH VH 1 踢 一 下 烏青 害溜溜 V VH V 1 踢來踢去 大聲 咻 VH D V V 1 清氣噹噹 免 驚 蛀齒 VH N D N 1 健康 囡仔兄 著是 你

總句數 42

重複出現詞性序列比例 35.7%

由表四- 6 可知,在第六冊中,N 的出現次數最多有 8 次;出現 3 次的是 V Nc V N;出現 2 次的分別是 N D V N、V;其他詞性序列均只出現 1 次。以 N 為句 首的 15 句佔了 35.7%,以 V 為句首的 11 句佔了 26.2%,其餘佔 38.1%。

(七)第七冊

總句數為 28 句,有 26 種不同之詞性序列組合,有重複出現詞性序列的 1 類 共 3 句,占總句數的 10.7%,即 89.3%為不同詞性序列,如表四- 7 所示。

(56)

表四- 7 第七冊詞性組合及次數

詞性組合 次數 例句

N N D V 3 阿寶 阿寶 去 散步 D V N D V N 1 會當 鼓 栗仔 通 挨 米

N C N V D VH 1 田嬰 和 蝶仔 飛來飛去 真 古錐 N D D VH 1 風鼓 實在 真 稀奇

N D V 1 野花 四界 開

N N N VH 1 病菌 病菌 心肝 䆀

N Nc 1 樹林 內

N Nc V N 1 腹肚 內底 藏 葵扇 N V C VH 1 衫仔褲 沃 甲 澹糊糊 N V T D V 1 電梯 坐 咧 連鞭 到 N V V Nc 1 阿公 想欲 搬 新厝

Nc N N VH 1 草地所在風景媠

Nc V N 1 半路 拄著 西北雨

V D P N Nc 1 相遇 攏 佇 電梯 內

V D V 1 轉來 煞 感冒

V N V D VH 1 害 我 破病 無 爽快 V Ne Nf VH N 1 揣著 一 間 老 公寓

V V 1 哈啾 哈啾

V V N P N D 1 注射 食 藥仔 照 步 來 V V P Nc 1 搬去 蹛 佇 十二樓 V V V V 1 擛 過來 擛 過去

VH DE N 1 清清的溪仔水

VH DE Nc 1 青青 的 草仔埔 VH N Nc 1 下 厝 邊

VH V D N N 1 大力 擛 親像 風颱 天

參考文獻

相關文件

• elearning pilot scheme (Four True Light Schools): WIFI construction, iPad procurement, elearning school visit and teacher training, English starts the elearning lesson.. 2012 •

Teachers can design short practice tasks to help students focus on one learning target at a time Inferencing task – to help students infer meaning while reading. Skimming task –

DVDs, Podcasts, language teaching software, video games, and even foreign- language music and music videos can provide positive and fun associations with the language for

To help students achieve the curriculum aims and objectives, schools should feel free to vary the organization and teaching sequence of learning elements. In practice, most

Debentures are (3) loan capital and are reported as (4) liabilities part in the statement of financial position. No adjustment is required. If Cost > NRV, inventory is valued

For example, even though no payment was made on the interest expenses for the bank loan in item (vi), the interest expenses should be calculated based on the number of

Hsuan-Tien Lin (NTU CSIE) Machine Learning Basics

The aim of this study is to develop and investigate the integration of the dynamic geometry software GeoGebra (GGB) into eleventh grade students’.. learning of geometric concepts