• 沒有找到結果。

第四章 產生實驗 (Production Experiment)

4.2 產生實驗方法

4.2.4 錄音過程

此實驗的錄音工作在國立交通大學外國語文學系暨研究所的語音實驗室裡 的錄音間進行,發音人和實驗引導者同時在錄音間內進行錄音工作。在實驗正 式開始之前,實驗引導人會與發音人先進行練習範例,讓發音人熟悉實驗流程

。在正式實驗中,實驗引導者會先唸一小段情境,接著唸出前導問句。 舉 例 來 說,若要引出圖3.1中(1s)的一聲句子,實驗引導者會先唸出以下情境:「老校長

雖然退休了,但一直關心著教育相關新聞。自從聽到中國偏遠地區的孩子沒有足 夠的師資和教育資源後,老校長開始固定捐款,希望能夠盡一己之力來幫助他 們 。 」, 接 著 念 出 前 導 問 句 :「 請 問 老 校 長 關 心 著 哪 裡 的 學 生 ? 」。

實驗所需要的目標句就是前導問句的答句,此答句會在實驗引導者唸完前導問 句後出現在電腦螢幕上,如圖4.1。發音人看到電腦螢幕上無標點的「關心中國 的學生」後,必須依照之前語境自然地回答:「關心中國的學生」。若目標句是圖 3.1中(1w)的一聲句子,則情境為:「小明是中國人,雖然後來移民到加拿大,但 仍然天天收看中國新聞,了解與中國相關的事。」,前導問句是:「小明是一位怎 樣的學生?」。發音人要回答的句子雖然字面上仍為「關心中國的學生」,但意義 卻有所不同。圖4.1為提供給受試者的句子提示。

圖 4.1 句子提示範例

每一次錄音過程持續 90 分鐘左右,每 30 至 40 分鐘休息 5 分鐘。發音人在 錄音工作完成後皆領取報酬。

在錄音過程中,實驗引導者會判斷發音人的回答是否符合實驗需求。若發音 人唸出的目標句有唸錯字、不順暢、發音不標準、咳嗽、中斷、或其他足以影響 句子分析的狀況時,實驗引導者會根據情況來判斷該句的錄製過程是否需重新來 過,若是則要求發音人重新回答該目標句。

4.2.5 資料分析

由於「受試者解讀句子的偏好」以及「語境的合適與否」都有可能影響發音 人在產生實驗中所產生的句子,為了了解這兩個因素是否對實驗造成影響,特別 設計了兩個前測以觀察受試者對不同句子是否有不同的解讀偏好,以及欲引導歧 義句的語境對受試者來說是否提供足夠的資訊。

在分析方面,我們知道界限的存在會反映在界限後的停頓、周圍音節的強度、

基頻、和時長上,因此在這裡要測量的聲學特徵為停頓時長、界限前後音節的平 均強度、界限前音節的最小基頻、界限後音節的最大基頻、以及界限前後音節的 時長。

由於停頓會對時長測量造成影響,若是忽略停頓的存在或是將停頓統一歸入 界限前音節時長會影響時長數據。因此在音檔製作textgrid檔之前,每位發音人所 產出的每一句子都必須經過 3 位標記者(coder)的判斷,標記者的母語皆為國語。

3 位標記者分開進行標記工作,每次標記兩位發音人,每次標記時間約為 30 分 鐘,共進行 3 次。在聽過句子後,標記者根據他們的直覺判斷有無停頓存在於句

子中,若是有,標記者會在句子清單上進行標記。根據標記者的意見,停頓的時 段會在textgrid中以「_」標示之,不納入任何一個音節的時長。3 位標記者並非 對每一句的停頓現象都持相同看法,若遇意見不同時,則採多數決方式決定該句 有無停頓。圖 4.2 和 4.3 分別呈現無停頓現象和有停頓現象的音檔範例。

圖4.2 「bian」和「cheng」之間的界限無停頓之句子

圖4.3「bian」和「cheng」之間的界限有停頓之句子

經過標記者判定有無停頓後,使用 Voicesauce 軟體 query 出數據,詳細的處理 步驟如下:

步驟一:切出每一個句子,存成獨立音檔。

步驟二:使用Praat軟體替每一音檔製作textgrid檔。

步驟三:使用EasyAlign軟體,配合本實驗室電腦工程師所寫之程式,自動切出句 中的每一音節(syllable)。

步驟四:以人工方式檢查句子中每一音節的界限,進行界限調整。

步驟五:使用VoiceSauce軟體量出每一音節的強度、基頻數值(9 個觀察點) 、和 界限所在時間點。

圖 4.4 為句子經上述步驟處裡後的完成型式。

圖4.4 Praat軟體所呈現之聲譜圖、音節界限,以及基頻曲線之範例

在此音節強度是指該音節的平均強度,跨界限基頻重設範圍則是指界限後音 節的最大基頻減去界限前音節最小基頻,而音節時長由音節結束時間減去起始時 間而得。

由於界限的存在會反映在停頓現象、周圍音節的強度、基頻、和時長上,因 此在這份研究中要測量的聲學特徵是停頓時長、界限前後音節強度、跨界限基頻 重設範圍、和界限前後音節時長。這些聲學特徵的算法如下:停頓時長是停頓的 起始時間與下一音節(停頓結束)的起始時間之差;界限前後音節強度是音節的均

方根(root mean square)強度;跨界限基頻重設範圍是界限前音節的最小基頻與界 圍(range)中的百分段值(percentile) 。其中「Adjust intensity_X’」的「X’」指不同音 節,下標「speaker x」的「x」指不同發音人。

(1)

spea MAX intensity X MIN intensity X X 節中的最小強度(intensity_XspeakerX - MIN intensity_XspeakerX),求出原始音節強度與最小 強度之差,再將原始音節強度距最小強度之差除以強度範圍(range)(MAX

intensity_XspeakerX - MIN intensity_XspeakerX),所得到的數值就是該音節強度的百分段 值。也就是說,經過公式(1)換算後所得到的值,是原始音節強度在相同音節中強 度所佔的百分比位置,因此調整過的數值會介於 0 到 1 之間。以發音人 CLY 所

最小值為 0.017,因此強度範圍為 0.319(0.336-0.017=0.319)。發音人 CLY 所唸的其 中一個「心」字強度為 0.021,將該「心」字強度減去「心」字群中的最小強度,

得到的差為 0.004(0.021-0.017=0.004)。最後將「心」字的原始強度與最小強度之 差除以「心」字的強度範圍便得到 0.013(0.004/0.319=0.013),也就是此「心」字 的百分段值。

由於在欲觀察的界限附近有聲調替換的設計,為了避免因聲調不同而造成基 頻重設範圍(f0 reset range)數值的不同,我們使用公式(2)求出每位發音人的基頻重 設範圍數值在所有相同位置的基頻重設範圍數值中的百分段值(percentile) 。其中

「Adjust f0 reset range_X’」的「X’」指不同音節,下標「speaker x」的「x」指不 同發音人。

spea MAX f resetrange X MIN f reset range X X 相同位置的最小基頻重設範圍值(f0 reset range_X speakerX - MIN f0 reset range_X

speakerX),求出原始基頻重設範圍值與最小基頻重設範圍值之差,再將原始基頻重設

範圍值與最小基頻重設範圍值之差除以所有基頻重設範圍值所組成的範圍 (range)(MAX f0 reset range_X speakerX - MIN f0 reset range_X speakerX),所得到的數值就是

CLY 所唸的「關心中國的學生」中的「心」和「中」字為例,在此基頻範圍值 為「中」的最大基頻與「心」的最小基頻之差。在這個位置上最大值的基頻範圍 值為 34.44Hz,最小值為 19.83 Hz,因此所組成的範圍為 14.61 Hz

(34.44-19.83=14.61)。在發音人 CLY 所唸其中一句裡,「心」與「中」的基頻範 圍值為 28.06 Hz,將該基頻範圍值減去範圍中的最小基頻範圍值,得到的差為 13.45 (28.06-19.83=8.23)。最後將原始基頻範圍值與最小基頻範圍值之差除以該處 基頻範圍值所組成的範圍便得到 0.56(8.23/14.61=0.56),也就是此處基頻範圍值的 百分段值。

公式(3)是用來算出每位發音人發同一句中同一字時該字在時長範圍中的百 分段值(percentile) 。其中「Adjust Duration_X’」的「X’」指不同音節,下標「speaker x」的「x」指不同發音人。

spea MAX duration X MIN duration X X 節中的最小時長(duration_XspeakerX - MIN duration _XspeakerX),求出原始音節時長與最小 時長之差,再將原始音節時長與最小時長之差除以時長範圍(range)(MAX duration

過的數值會介於 0 到 1 之間。以發音人 CLY 所唸的「關心中國的學生」中的「心」

字為例,在所有的「心」字中最大值為 230 毫秒,最小值為 168.18 毫秒,因此時 長範圍為 61.82 毫秒(230-168.18=61.82)。發音人 CLY 所唸的其中一個「心」字時 長為 196.54 毫秒,將該「心」字時長減去「心」字群中的最小時長,得到的差為 28.36(196.54-168.18=28.36)。最後將「心」字的原始時長與最小時長之差除以「心」

字的時長範圍便得到 0.46(28.36/61.82=0.46),也就是此「心」字的百分段值。

為控制語速對時長數值所造成影響,所以要求出每位發音人同一句中每一個 音節在該句中所佔的比例。公式(4)將時長數值標準化(normalize),目的是算出音 節在所處句子中所佔的比例。其中「Normalized duration_X’’」的「X’’」指不同音 節的調整時長,下標「speaker x」的「x」指不同發音人。

(4)

k 1 Adjustduration_X'speakerX k表示),再把欲觀察的音節之時長百分 值段相加(公式中以 Adjust duration_X’speaker X表示)除以調整過的句子時長。以發

值段為 0.59,調整過的「心」時長百分值段為 0.46,調整過的「中」時長百分值 段為 0.26,調整過的「國」時長百分值段為 0.44,調整過的「的」時長百分值段 為 0.20,調整過的「學」時長百分值段為 0.38,調整過的「生」時長百分值段為 0.19,所以此句子的總百分值段為 2.52(0.59+0.46+0.26+0.44+0.20+0.38+0.19=2.52)。

若要求出「心」字的標準化時長百分值段,則將「心」字的調整時長百分值段 0.46 除以句子總百分值段 2.52,就可以得到標準化時長百分值段

0.18(0.46/2.52=0.18)。由於基頻和強度沒有語速的問題,所以不用進行標準化動 作。所有音節數據都是按發音人分開進行調整/標準化動作,再做進一步的統計 與分析比較,因此後面章節所提到的強度、基頻重設範圍、與時長均是指強度百 分值段、基頻重設範圍百分值段、和標準化時長百分值段。

為了可以更清楚地觀察歧義句的句法結構與實驗數據之間的關係,在後面圖 表中,每一句歧義句都只以詞性、界限、和結點(node)關係重新命名。舉例來說,

在「關心中國的學生」一句中,以「V」代表「關心」,「Adj」代表「中國的」,

「N」代表「學生」,此外我們使用「*」標示欲觀察的界限位置(標的界限),並 且以括弧「[ ]」將隸屬於同詞組(constituent)的詞彙放在括弧內,「+」區隔不同 片語。因此,當界限位於「關心」與「中國」之間時句子就可以寫成 V*[Adj+N],

而當界限位於「中國的」與「學生」之間時我們就以[V*NP]+N 表示之。表 4.1 為所有句型代號。

表4.1 8 種類型歧義句在圖表中的句法結構表示名稱 類型 界限強度 句子代號

1 較強 V*[AdjP+N]

較弱 [V*NP]+N 2 較強 [V+NP]*V

較弱 V+[NP*V]

3 較強 [AdjP+N]*ConjP+N 較弱 AdjP+[N*ConjP+N]

4 較強 NP*[NegP]

較弱 [NP*NegP]

5 較強 P*[N+N]

較弱 [P*N]+V 6 較強 AdvP*[NP+I]

較弱 [AdvP*NP]+I 7 較強 [NP]*V

較弱 [σ *σ ] 8 較強 NP*[V+Neg+V]

較弱 [σ *σ ] +Neg+V