• 沒有找到結果。

研究方法

在文檔中 台語聲調錯誤研究 (頁 17-23)

口誤語料庫的建構方法關係語料庫的可信度,同時也影響分析的數據是否具代表 性,及其結果是否能成為典型。本章首先介紹口誤文獻的研究方法及本研究所採用的方 法。

2.1 理論背景

因為技術的限制, 早期的口誤語料採集多以聽寫(aural)方式記錄,而後發展至錄 音再記音分析,進而發展出以實驗設計誘發口誤的研究方法。

基於實證原則,實驗所得和自然發生的證據都被廣泛地應用在各種學科的研究。這 二者各有其長短,實驗無法達到全面的、百分之百的自然非人為,同樣地,在觀察自然 現象時需要非常仔細且公正,這個問題扮演著舉足輕重的角色。

有鑑於自然口誤的收集費時,無法在短期內累積足夠樣本數,達到統計上的顯著性;

且自然口誤的採集過程若是變因控制不夠嚴謹,會使統計結果在效度及信度上無法使人 信服,因而遭受質疑。這其中主要的問題來自於對於某些類別的語誤感知和評斷的偏頗,

例如:急欲收集語料、過度敏感;或是因為自我修正的盲點、略過語料。

除此之外,實驗誘發的語誤可進一步檢測自然口誤得到的觀察是否具有預測性。

Stemberger(1992)比較自然口誤與實驗誘發口誤,發現兩者的結果大致吻合,僅摘錄音 韻相關結論,餘不一一。

表 二 自然口誤與實驗口誤之比較 一致

主題 結果

1 詞彙偏頗 真字錯誤率遠高於假字(Fromkin 1971, 1980; Garrett 1976; Dell 和 Reich 1981)

2 共有特徵 兩音位間若具備共有特徵者較易出錯(MacKay 1970a; Nooteboom 1969; Shattuck-Hufnagel 1979; Stedmberger 1982a, b; Levitt 和 Healy 1985)

3 特徵錯誤率 不同特徵間錯誤率不一,例如:發音部位>濁化>鼻化(MacKay

1970a; Shattuck-Hufnagel 和 Klatt 1979; Kupin 1982)

4 受語境影響 錯誤率提高

5 錯誤大小單位 音段>特徵(Fromkin 1971; Shattuck-Hufnagel 和 Klatt 1979;

Stedmberger 和 Treiman 1986; Kupin 1982)

6 重音 重音節出錯率較高(MacKay 1971)

7 顎化 傾 向 以舌 面音 代 替舌 尖音 (Shattuck-Hufnagel 和 Klatt 1979;

Stedmberger 1991; Levitt & Healy 1985)

8 詞彙頻率 高頻字較少出錯(Stedmberger 和 MacWhinney 1986; Dell 1991)

9 同位音的調節 錯誤音段傾向以適合新的語音環境的同位音出現(Fromkin 1971;

Stedmberger 1983b; Shattuck-Hufnagel 1985)

10 輔音串 許多共同點(Stedmberger 1990; Stedmberger 和 Treiman 1986)

11 非關語境錯誤 受語境影響>非關語境錯誤,具有統計上顯著性(Stedmberger 1991; Levitt 和 Healy 1985)

12 音韻上的有標性 不具影響力(Motley 和 Baars 1975; Shattuck-Hufnagel 和 Klatt 1979; Stedmberger 1986)

迥異

這個台語口語語誤語料庫從 2004 年 6 月,以錄音的方式錄下電台節目,篩選 34 個 現場談話性節目,以記音的方式收集了總筆數 1887 筆的語誤,其中聲調錯誤共有 364 筆。

電台節目主持人大多操漳州口音,極少數叩應的觀眾是泉州腔。語誤的判別主要依據(一)

說話者的「自我糾正」(self-correction),(二)與音系中的聲調及相關變調規則進行比 對的結果。有些說話者傾向於不修正錯誤,因此,必須依據台語音系中的聲調,以及其 變調規則來判斷。所有的語誤都經過二位具有語言學背景且臺閩語為母語的同學交叉確 認。為了精準地表達語誤,語誤發生的時間都有明確的記載,並反覆判聽五次以上。少 數難以確認的錯誤或無法歸類的錯誤暫不列入統計,避免影響語料庫的可靠性。

語料庫建立採人工記音,參照音段標注系統(SAMPA, Speech Assessment Methods Phonetic Alphabet, John Wells),再依台語特有的音位作調整,目的在於建立一套可機讀的 音段標注系統。為了清楚標示口誤時的語音細微差異,除非特別標示,本文的標記皆為 語音層次(phonetic level)記音。

早期語誤研究的分類標準及名稱素有分歧,在參酌眾多文獻之後,本文決定以語言 親疏關係近者為參考座標。臺閩語與國語同屬漢語方言,本論文語料庫的分類方法及名 稱主要參照陳振宇(1993)及Wan(1999, 2002),再作些許調整,以方便比對分析。

對於這些語料的分類,主要有四個準則:(1)最小改變原則,亦即音段或音節的替 代或改變不能太劇烈、改變的特徵或音段數愈少愈好;(2)出現的音韻錯誤仍為真字;

(3)非關語境的判定取決於無法從上下文中找到相同的來源;以及(4)徵性錯誤(feature errors)不同於音段替代(segment substitution),只涉及部份的徵性擴散,例如送氣或鼻 化等等。4

2.2.2 研究對象背景

台灣地區的閩南人絕大多數來自福建泉州、漳州兩地,經過三四百年的混居,各地 所說的方音已有程度不等的混淆。語料庫採集了兩種台灣地區的台語聲調系統。依據楊

(1991)的描述,漳泉連讀變調有些許不同,泉州腔陽調變調時走向為低平調 [11]。本

4 這些準則綜合自前人對語誤分類所採用的準則,詳細內容請見 Laubstein(1987)、Fromkin(1973)、及 Wan(1999)。關於這些錯誤的例子,見於第四章及附錄一。

文中聲調錯誤主要依據說話者的變調特色,進行判別屬於泉州或漳州口音,再對照其單 字調與連讀調,記錄錯誤的音位。

語料中皆為正常說話,非病患,無口語障礙,亦無疲憊等狀態。記音時如果判定語 誤是個人風格即不列入語誤,例如:有主持人習慣以上揚語調作為句子結尾的音調。或 是因情緒激動而產生的句尾音調上揚情形,不符合尾字音節聲調,都不列入語誤記錄。

大部份的主持人都是雙語(台語、國語),甚至三語(台語、國語、英語),因此若判 定語誤是受方言影響,都另外處理,不在本文探討範圍;刻意藉由語誤方式說出的雙關 語,以達娛樂效果或指桑罵槐的情形亦不在語料庫中,併此聲明。

2.3 統計方法

在記音、語料組織及彙整完成之後,便進入統計階段,本文涉及的統計方法為研究 上最常用的敘述統計(descriptive statistics)及推論統計(inferential statistics),利用設定 的預測變項來解釋語料,並推論母體的特性是推論統計的重點所在。第四章應用分類樹 來分析台語聲調的方向特點和聲調錯誤的決定因素。

本研究資料分析採百分比、平均數、標準差、 卡方獨立性檢定(Chi-Square Tests)、

卡方自動互動檢視法(CHAID)。

2.3.1 卡方獨立性檢定(Chi-Square Tests)

卡方檢定(χ2-test, Chi-square test)是針對母體分配所作的檢定。為避免語料落在某 一特定的分配,可以比較樣本觀察值的次數分配和假設的母體分配是否接近,以此推論 資料是否的確來自此一假設。對兩個屬性變數之關聯度進行測量,這種方法稱之為獨立 性檢定(independence test),透過交叉分析與卡方檢定即可以看出二變數之間的關係。另 一種檢查兩個或多個母體是否具有相同的分配,或是兩組或多組隨機樣本是否取自相同 的分配,這種檢定稱之為同質性檢定(homogeneity test),此方法是檢定分配是否相同,

而非檢定分配的類型。

卡方檢定 χ2 =

(OEE)2

適合度檢定

df=k-

1 獨立性檢定

df=(r-1)(c-1)

同性質檢定

df=(r-1)(c-1)

O

=觀察次數(observed frequency)

E

=期望次數(expected frequency)

k

:單因子分類的水準(level)數

r

:因子分類,列的水準數

c

:因子分類,行的水準數

2.3.2 卡方自動互動檢視法(CHAID)

「卡方自動互動檢視法」(CHAID, CHI-Square Automatic Interaction Detector, Hartigan 1975)是一種決策樹分析法,而決策樹是機器學習領域中最常被應用於資料擷取的方法。

CHAID 分析法主要利用 Bonferroni 的調整卡方值作為樣本群體依據,透過卡方檢定使同 質語料歸於同一群,逐次搜索直到完成分割過程。每一個分支節切割資料時,藉著單一 輸入變數函數來建構多元決策樹。

將決策樹應用在語音或音韻方面議題的研究有,Sproat 和 Shih (2001)、邱淳奕

(1993)及廖香娟(2000)。邱利用決策樹的樹狀結構,分類音節測距函數所量測到的 測距。廖利用決策樹為狀態參數分享的依據,建立前後文相依之語音辨識模組,並藉由 決策樹降低訓練語料不足所造成的影響。

2.4 研究限制

口誤材料有一定的參考價值,但同時也會限於樣本數的數量。目前研究方法有地區 性及樣本數上的限制。採樣會因為地區性、族群、和樣本數而影響其在統計上的代表性。

由於大眾傳播的發達,台灣民眾使用台語會依附主流發音,同樣的,多數主持人受 台灣優勢音的影響,原本音系內火字組的字與溪字組的字韻母混雜,也有人音節是台北 泉州,但變調規則是漳州音的變調模式,這一方面顯示出詞彙擴散的力量,一方面也受 制於社會語言的因素。

火字組:

和尚 hue 碗粿 kue 幾歲 hue 送貨 hue 煮糜 mue 火車 hue 過去 kue 炊飯 ts’ue 作伙 hue 風吹 ts’ue 溪字組:

街路 ke 火雞 ke 溪水 k’e 地契 k’e 草笠 le 人矮 e 八十 pe 草鞋 e 洗手 se 貯飯 te

面對這樣的泉漳混合情形,目前僅能就其變調規則作初步歸類,除非知道主持人的 背景,不然一律暫時標記為「泉州」或「漳州」。

本文針對台語口誤的初步研究,取樣上受限,樣本來源雖然有台南、嘉義、台北地 區的台語,但是口誤的出現等於是隨機取樣,無法控制這些地區的樣本數均等,因此不 敢斷言所作出的結果具有全面代表性、能代表全台灣的人口,本文期望能藉由多變項發 現,推論至母體的基礎,提供初步概況。

在文檔中 台語聲調錯誤研究 (頁 17-23)

相關文件