國立臺灣大學電機資訊學院資訊工程學研究所 碩士論文
Graduate Institute of Computer Science and Information Engineering College of Electrical Enginnering and Computer Science
National Taiwan University Master Thesis
考慮發聲特徵用於個人化 電腦輔助發音訓練之對話遊戲
Dialogue Game Considering Articulatory Features for Personalized Computer-Aided Pronunciation Training
吳全勳 Chuan-Hsun Wu
指導教授:李琳山 教授 Advisor: Lin-Shan Lee, Ph.D.
中華民國一百零四年七月
July, 2015
考慮發聲特徵用於個人化電腦輔助發音訓練之對話遊戲
摘要
本論文提出了一套在電腦輔助語言學習 (Computer-Assisted Language Learning, CALL)中考慮發聲特徵 (Articulatory Feature) 之對話遊戲 (Dialogue Game) 架構。
本論文中使用自動發音評量系統與餐廳情境對話之劇本,並利用連續狀態馬 可夫決策程序 (Markov Decision Process, MDP) 作為系統之模型, 並以增強式學 習 (Reinforcement Learning, RL) 訓練出系統之對化管理決策。 此外,本論文亦採 用由真實學習者語料庫,包括華語教師標註之發音偏誤類型 (Pronunciation Error Pattern),訓練得到之學習者模擬模型,來產生模擬學習者來訓練系統模型。
過去相關研究少有發聲特徵結合電腦輔助語言學習的思考,本論文特提出了 此全新構想。 主要考量來自前人的作品中由於永遠有若干低頻發音單位,若學習 者說不好, 系統將必須耗費相對多練習回合,以實際練習到這些低頻的發音單 位。 為改善此現象,本論文考慮以下重要假設:當某一發音單位出現頻率極低 時,練習與該單位有高比例相同發聲特徵之其他發音單位,亦可視為一種虛擬而 有進步效果之練習。 此一假設為本論文之基礎,雖然吾人並不曾有機會在實驗中 證實此假設成立。因此本論文結合發聲特徵設定,希望以此虛擬練習次數之設 定,彌補在前人系統中上述的缺陷。
本論文中建構出考量發聲特徵之華語學習對話樹遊戲,訓練系統適性提供練 習對話語句給予不同發音情況的學習者。 並當語句缺乏某發音單位時,可以其他 有高比例發聲特徵相同的發音單位,作為替代的虛擬練習, 亦可進一步給予不同 發聲特徵不同權重,此設計使系統更專注於學習者表現不佳或練習不足之發音單 位, 或練習該發音單位中高比例的發聲特徵之組合,以提供較多練習機會於這些 發音單位。 實驗證實與分析顯示本論文中所提出方法之有其成效並可行,如果上 述假設可以成立。
Abstract
In this thesis we propose a new dialogue game framework considering Articulatory Fea- tures (AFs) for personalized Computer-Assisted Language Learning (CALL). We use an automatic pronunciation evaluator and a set of dialogue scripts for reastaurant scenar- ios, with policy for selecting learning sentence trained by Reinforcement Learning (RL), based on continuous state Markov Decision Process (MDP) as the system’s model, We utilize a corpus of real learner data, including pronunciation Error Patterns (EP) anno- tated by Mandarin teachers, to train a learner simulation model, in order to produce a huge quantity of simulated learners for MDP training.
This thesis proposes a new concept of considering Articulatory Features (AFs) in a dialogue game for Computer-Assisted Language Learning (CALL). In the previous work, the learner has to go through longer dialogue paths (more dialogue turns) to practice some rare and ill-pronounced pronunciation units. Here the new approach is based on an impor- tant hypothesis: practicing other pronunciation units with high proportion of the same set of AFs of a considered rare unit, taken as ’pseudo practice’, can somehow offer improve- ment to the pronunciation of the considered rare unit. We further set different weights for different AFs within different pronunciation units, so as to have the system concentrated on those rare or ill-pronounced units. Experimental results verify the feasibility of the proposed framework based on the hypothesis above.
Contents
口試委員會審定書 . . . i
中文摘要 . . . ii
英文摘要 . . . iii
一、導論 . . . 1
1.1 研究動機 . . . 1
1.2 相關研究 . . . 2
1.3 研究方向與貢獻 . . . 4
1.4 章節安排 . . . 5
二、背景知識 . . . 7
2.1 音位與音素 . . . 7
2.2 國際音標 . . . 7
2.3 華語語音介紹 . . . 9
2.3.1 聲母與韻母 . . . 9
2.3.2 聲調 . . . 10
2.4 發聲特徵分類 . . . 12
2.4.1 二元特徵 . . . 12
2.4.2 多值特徵 . . . 13
2.4.3 發聲軌跡 . . . 13
2.5 發音偏誤類型 . . . 14
2.6 增強式學習 . . . 14
2.6.1 馬可夫決策程序 (Markov Decision Process) 模型 . . . 14
2.6.2 連續狀態馬可夫決策程序模型 . . . 16
三、實驗語料庫 . . . 20
3.1 樹狀對話劇本集 . . . 20
3.2 真實華語學習者語料庫 . . . 21
3.3 華語教師偏誤標註與轉換 . . . 23
四、考慮發聲特徵之對話遊戲架構設計 . . . 27
4.1 前人系統 . . . 27
4.1.1 系統架構 . . . 27
4.1.2 系統原理 . . . 29
4.1.3 前作之結果 . . . 30
4.2 本論文系統 . . . 30
4.2.1 系統原理 . . . 31
4.2.2 模擬學習者 . . . 31
4.2.3 以高斯混合模型建構之學習者模型 . . . 33
4.2.4 訓練與測試 . . . 34
4.2.5 模擬階段 . . . 34
4.3 連續狀態馬可夫決策程序模型 . . . 35
4.3.1 模型之參數 . . . 35
4.3.2 模型之訓練演算法 . . . 37
4.4 虛擬練習 . . . 42
4.4.1 虛擬練習次數計算 . . . 42
4.4.2 結合權重式發聲特徵 . . . 44
4.4.3 權重設定 . . . 45
五、實驗結果與分析 . . . 46
5.1 無權重發聲特徵之實驗與分析 . . . 46
5.2 結合權重式發聲特徵之實驗與分析 . . . 53
六、結論與展望 . . . 59
6.1 總結 . . . 59
6.2 未來研究方向 . . . 60
6.2.1 部分可觀測馬可夫決策程序 . . . 60
6.2.2 深層Q-神經網路 . . . 60
參考文獻 . . . 61
附錄 . . . . . 69
圖
圖 圖目 目 目錄 錄 錄
2.1 母音圖表 . . . 8
2.2 人體口腔節面圖,各部位和母音四邊形各點相呼應 . . . 8
2.3 肺部氣流子音表 . . . 9
2.4 聲母分類與代號對照表 . . . 10
2.5 韻母分類與代號對照 . . . 11
2.6 結合韻母分類與代號對照 . . . 11
2.7 增強式學習中之系統代理人與環境之互動 . . . 15
3.1 循環樹狀對話劇本 . . . 20
3.2 樹狀對話劇本之部份片段 . . . 21
3.3 台大華語之發音評量細節 . . . 23
4.1 對話遊戲系統架構 . . . 28
4.2 使用動態時間校準將正確發音之音素序列與學習者發音之音素系列 對齊 . . . 32
4.3 線性回歸分析範例圖 . . . 38
4.4 狀態-動作價值函數曲線與高斯函數之疊加 . . . 39
4.5 學習者模擬模型與對話劇本 . . . 44
5.1 採用虛擬練習所需對話回合數 . . . 47
5.2 不同虛擬練習次數權重 ,所需對話回合數 . . . 47
5.3 各分類佔全發音單位之比例 . . . 49
5.4 虛擬練習次數之發音單位各分類比較(覆蓋比例閾值 = 0.6) . . . 49
5.5 虛擬練習次數之發音單位各分類比較(覆蓋比例閾值 = 0.7) . . . 50
5.6 虛擬練習次數之發音單位各分類比較(覆蓋比例閾值 = 0.8) . . . 50
5.7 不同參數設定之所需對話回合數 (語音學知識設定權重) . . . 54
5.8 不同參數設定之所需對話回合數 (亂數權重) . . . 54
5.9 不同參數設定之所需對話回合數 (覆蓋比例閾值為 0.8 時,無權 重、亂數與語音學知識設定權重比較) . . . 55
5.10 各分類佔全發音單位之比例 . . . 56
5.11 虛擬練習次數佔虛擬與實際練習次數總和之比例 . . . 57
表
表 表目 目 目錄 錄 錄
2.1 華語音節結構組成 . . . 9
2.2 聲調分類表 . . . 12
2.3 華語聲母韻母發音常見偏誤 . . . 18
2.4 華語聲調常見偏誤 . . . 19
3.1 樹狀劇本各主題細節 . . . 22
3.2 華語學習者之 30 句錄音內容 . . . 25
3.3 華語教師偏誤標註示範 . . . 26
4.1 f1、f2之求取範例 . . . 33
5.1 虛擬練習次數與總平均之虛擬練習次數相比,多出之比例 . . . 52
5.2 低分低頻與高分高頻之發音單位 . . . 53
第 第
第 一 一 一 章 章 章 導 導 導論 論 論
1.1 研 研 研究 究 究 動 動 動機 機 機
在全球化的世代,傳統地理的隔閡不再成為人類互相溝通的障礙,不同母語 背 景 人士之間的互動溝通越趨普遍且必要,第二語言習得 (Second Language Acquisition)之需求因而大幅增加。在傳統的語言教學情境中,語言老師利用專家 訂定好之學習教材,帶領著學習者從單字、文法、對話等等面向去學習目標語 言 (Target Language),面對面的教學讓學習者可以逐步掌握語言的使用特性。然 而,語言學習之需求在近年已大大超過供給資源。以華語為例,隨著華語地區的 市場地位日益重要,華語學習人數持續成長,相關資料更指出2008年底,華語作 為第二外語之學習人數已達4億人口。在如此大量的學習需求與科技日新月異的發 展下,電腦輔助語言學習 (Computer-Assisted Language Learning, CALL) 成為一個 相當重要的領域。
電腦輔助語言學習一詞由利氏 (Mike Levy) 於1997年 [1] 所提出,舉凡電 腦對於語言教學與學習之應用都屬於此領域,目的在於使語言學習的過程更 為有效益。而語言中之發音 (pronunciation) 為語言中最重要的溝通工具,好 的 發 音學習方法與適當訓練必能促進整體學習成效。人類語言技術 (Human Language Technology)在近年被廣泛應用於電腦輔助語言學習上。其中語音辨識技 術 (Speech Recognition Technology) 可應用於語言學習者所發的語句 (Utterance) 與 學習目標語言的母語人士同一語句之比對,進而給予分析、評分。而語音對話系 統 (Spoken Dialogue System)之應用提供學習者更進一步的互動式學習,在系統的 引導下完成特定目標,並從互動的過程中得到學習成效。隨著語音處理技術應用 之潛力日漸受重視,大量研究也被投入在此領域中,如何有效地使用語音相關技
術於語言學習的情境上,尤其是華語的學習,是當前的一個熱門主題。 此外,發 聲特徵 (Articulatory Feature,AF) 的相關研究事實上在數位語音界也已行之有年,
但尚未見到與發聲特徵理論結合的華語對話教學研究。本論文希望能從發聲特徵 的角度切入,就每一發音單位 (pronunciation unit) 以其發聲特徵來分析,並與原本 學習者的發音學習進展 (learning status) 作結合,希望這些從人類發聲特徵的角度 取得的資訊,能給予使用者更有效率的學習。
1.2 相 相 相關 關 關研 研 研究 究 究
金氏 (Simon King) 及泰式 (Paul Taylor) [2] 於西元2000年以不同種類的發聲特徵分 析英語語料,以類神經網路 (Artificial Neural Network,ANN) 訓練其和音訊特徵 的對應關係,並進一步提出以發聲特徵輔助語音辨識的進步效果。而後續幾年 更有許多針對不同語言、語料的類似研究方法相繼被提出,足見發聲特徵在語 音辨識上確實有其效果。中國科學院 [3] 以發聲特徵為基礎,在可取得之資源較 少 (low-resource data language) 的語言上,利用類神經網路偵測非母語者的語音。
桑氏 (Abhijeet Sangwan) 與韓氏 (John H. L. Hansen) [4]亦利用發聲特徵進行有漢語 口音之英語語音分析。國立成功大學語音團隊 [5] 在跨語言語料中的音素前後文 以發聲特徵輔助辨識,改善了跨語言語料中特定訓練資料不足所衍發的辨識問 題。
電 腦 輔 助 語 言 學 習 之 相 關 研 究 最 早 可 以 追 溯 至 1960 年 代 , 伊 利 諾 大 學 (University of Illinois) 建立了一套電腦輔助教學 (Computer-Assisted Instruction) 系 統─柏拉圖 (PLATO) [6],希望藉由電腦來增進學生的學習成效。自從 1990 年代 個人電腦普及,異於傳統課堂內的教學方式也開始被不同領域之專家深入探討。
近年來網際網路的不斷發展與電腦性能之大幅進步,語言學習與虛擬實境之結
合、遠距離學習、統整式應用軟體等等皆被廣泛研發。以多鄰國 (Duolingo) [7]為 例,此免費語言學習網站提供多種語言從初階到高階的聽說讀寫輔助與測驗,
為世界上教育類手機應用程式下載量第一之應用程式。商業方面, Rosetta Stone Online [8]與 English Town [9] 兩套語言學習系統,其整合各領域之語言學習應 用,完善系統亦受到使用者們的喜愛。
在學習語言的過程中,發音常常是學習過程中最困難且最重要的環節。
也因此相對應之語音技術應用也廣為研究,美國卡內基梅隆大學艾氏 (Maxine Eskenazi) 教授撰寫了一份了口語技術用於教育之應用回顧 [10],從各種學習面向 與技術來介紹。其中語言學習之領域更是其著重之方向。當今之研究方向主要可 以分為以下兩類:
• 電腦輔助發音訓練 (Computer-Aided Pronunciation Training, CAPT)
此 類 研 究 專 注 在 評 量 以 模 型 分 析 學 習 者 的 發 音 類 型 (Pronunciation Pat-
tern) [11],英國劍橋大學楊氏 (Young) 等人之團隊利用發音良好度 (Goodness of Pronunciation) 來評量學習者發音與標準發音 (Canonical Pronunciation) 之 間之似然比 (Likelihood Ratio) [12,13] ,利用此測量結果作為學習者的發音 評量。香港中文大學孟氏 (Meng) 等人之團隊利用語音辨識之技術與擴展辨 識網路 (Extended Recognition Network)之設計,有效辨識出學習者之英文錯 誤發音 [14] 。日本東京大學廣瀨氏 (Hirose) 等人之團隊提出語者不特定結 構化特徵 (Speaker-Independent Structural Feature) 之概念,消除不同發音者間 之差異,以找出真正的錯誤發音 [15–18] 。寇氏 (Koreman) 以第一語言至第 二語言之映射 (L1-L2 map) 來預測由於學習者母語的影響可能造成的發音錯 誤 [19] 。台大語音實驗室在近年也著力於中文發音之偏誤類型偵測 (Error Pattern Detection) [20] 與 發 音 評 量 , 台 大 華 語 (NTU Chinese) [21] 便 是 台
大語音實驗室與台灣大學國際華語研習所 (International Chinese Language Program)之合作產品,對音節與句子層面的發音、聲調、韻律與重音狀況作 評分回饋。
• 語音對話系統 (Spoken Dialogue System)
為了使語言學習者有沈浸式學習環境 (Immersive Environment) [22] ,語音對 話系統 [23–27] 之應用於語言教學在近年也被大量研究討論。「素晴 」為 一日文互動對話系統,藉由事先設計好之對話腳本組,讓使用者選擇想回 應之語句來學習日文 [28] 。美國卡內基梅隆大學艾氏將其巴士查詢對話 系統 (Let’s Go) 加上發音回饋功能 [29–31] ,讓使用者在查詢資訊之同時了 解語句之發音情形。美國南加州大學 (University of South California, USC) 與 業 界 合作設計一套軍事情境之語言學習遊戲 (Serious Game for Language Learning) [32],搭配虛擬實境 (Virtual Reality) 之技術模擬真實應對情況。
而美國麻省理工學院 (Massachusetts Institute of Technology, MIT) 更發展一系 列對話遊戲,讓學習者從文法、理解能力等不同角度去接觸所學習之語 言 [33–36]。
1.3 研 研 研究 究 究方 方 方向 向 向與 與 與貢 貢 貢獻 獻 獻
鑒於大多數發聲特徵相關研究著重於以發聲特徵協助語音辨識、語音合成等各類 語音處理應用 [2–4] ,卻未曾見有學者將發聲特徵與教學目標之對話練習結合。
本論文嘗試發聲特徵的角度切入,改善本實驗室過去所發展之華語對話遊戲架 構,來結合發音訓練與對話系統之應用,以冀能夠提供學習者更有效率和方便之 發音訓練,以提高學習成效。
本論文之研究目的在於改進對話遊戲架構,以發聲特徵的輔助,補強在情境
樹狀結構對話劇本中,較為不足之發音單位。 基於華語老師所設計之對話劇本,
與真實華語學習者語料話過程中,讓學習者最有效地練習華語各個發音單位。
本論文在台大華語的發音評量基礎技術之上,使用循環式情境對話劇本,
並套用了增強式學習 (Reinforcement Learning) 之連續狀態馬可夫決策程序模 型 (Continuous State Markov Decision Process, CMDP) ,以真實華語學習者語料庫 統計訓練成一高斯混合模型 (Gaussian Mixture Model, GMM) ,作為訓練馬可夫決 策程序模型之訓練語料產生模型,此設計讓學習者在有限的對話內容中充分練習 到發音較差的發音單位。本研究也將所有對話中的發音以發聲特徵做剖析,試圖 以發聲特徵的出現作為尚未練習到的發音單位之部分補償練習,期望此補償能代 替語料庫較缺乏之發音單位。本研究將比較不同發聲特徵的計算模式下,學習者 的練習效率,以及補償練習之效率。最後,也針對本論文實驗提出結論與展望。
1.4 章 章 章 節 節 節安 安 安排 排 排
本論文之章節安排如下:
• 第二章:介紹本論文相關背景知識,包含音位與音素、國際音標、華語語音 介紹、發聲特徵分類、發音偏誤與增強式學習。
• 第三章:介紹本論文所使用的實驗語料庫、發音偏誤類型之音位轉換,以及 所使用的發聲特徵。
• 第四章:介紹結合發聲特徵之對話遊戲架構。
• 第五章:探討增加無權重以及語音學知識設定權重之虛擬練習次數後,在實 驗語料上的系統成效。
• 第六章:本論文之結論與未來研究方向。
• 附錄:音素與發聲特徵轉換,及發聲特徵詳細權重設計。
第
第 第 二 二 二 章 章 章 背 背 背景 景 景知 知 知識 識 識
2.1 音 音 音位 位 位與 與 與音 音 音素 素 素
音位 (Phoneme) 是一個語音系統裡能夠區別意義的最小語音單位,是按語音的辨 意作用歸納出的單位。音素 (Phone) 是構成音節的最小單位或最小的語音片段。
它是從音值的角度劃分出來的。
音位和音素是兩個不同但互有關係的概念。音素是從物理意義劃分出來的最 小語音單位,音值不同,音素也就不同。而音位則是從區別詞彙意義的角度而劃 分的語音單位。屬於同一個音位的各個音素,彼此無法區別意義。因此在不同語 言裡,兩個音素可能在其中一種語言被劃為不同音位,但在另一種語言裡因為不 構成理解的影響,而被劃為同一音位。
2.2 國 國 國際 際 際音 音 音標 標 標
國 際 音 標 (International Phonetic Alphabet, IPA) 由 國 際 語 音 學 學 會 (International Phonetic Association) 所建,為語音學家欲有效率及精確表達各種語言之語音而設 計的一套符號規則,其中最常使用的表格為母音 (Vowel) 和子音 (Consonant) 的肺 部氣流音 (Pulmonic) 部分。
母音圖表 (Vowel Diagram) 如圖 2.1 所示,是以人體口腔截面為基礎,模仿不 同母音發聲時舌頭接觸口腔內各位置 (圖 2.2 ) 的圖表。每一點為一個母音,越靠 左代表此母音發聲時,舌頭越靠近口腔前方,越靠右則代表舌頭越靠近口腔後 方。元音圖的縱列表示舌頭與上顎間的關係,靠上方為閉元音 (Close Vowel) ,舌 頭貼近上顎;靠下方為開元音 (Open Vowel) ,舌頭盡可能遠離上顎。同一位置上
圖 2.1: 母音圖表
圖 2.2: 人體口腔節面圖,各部位和母音四邊形各點相呼應
有兩種音素時,右音素為圓唇音 (Rounded Vowel) ,發音時嘴唇收圓,左音素為非 圓唇音 (Unrounded Vowel) ,發音時嘴唇不收圓,展唇或保持自然唇型。
肺部氣流子音表 (圖 2.3 ) 是以發音方式和發音位置交錯整理而成的表格。
表格最左行為發音方式,最上列為發音接觸位置,每一音素即可以查表 得到其發音位置和方式,而同一格中有兩種音素時,左音素為兩片聲帶 (Vocal Folds) 彼 此 遠離 時 所 發 的 清 音 (Unvoiced) , 右 音 素 為 聲 帶 靠 近 時 所 發 的 濁 音 (Voiced) 。灰色格則為物理判定不可能發音的位置方式組合。
圖 2.3: 肺部氣流子音表
2.3 華 華 華語 語 語語 語 語 音 音 音介 介 介紹 紹 紹
有別於大部份之多音節語言,華語是以單音節為節奏 (Syllable-Timed) 的聲調語 言 (Tonal Language),每一個字 (Character) 都對應至一個音節 (Syllable) ,而每個 音節又由聲母 (Initial) 、韻母 (Final) 與聲調 (Tone) 所組成。音節組成如表 2.1 所 示,聲母之出現位置為音節的開始,韻母則是其餘部分。其中聲母均為子音,而 韻母可又再分為介音、元音和韻尾。另,一個音節之音高變化相當程度地受聲調 所影響。以下將針對聲韻母與聲調分別做介紹。
表 2.1:華語音節結構組成
完整音節
聲母 韻母
聲調 子音 介音 元音 韻尾
2.3.1 聲 聲 聲母 母 母與 與 與韻 韻 韻母 母 母
根據華語的注音符號分類系統 [37] ,聲母共有 21 種,若再加上一個空聲母 (為不 含聲母的音節所定義的虛擬聲母) ,則共有 22 種聲母。 而韻母則有 40 種,包含 空韻母 2 種 (ㄓㄔㄕㄖ的韻母及ㄗㄘㄙ的韻母)。 如果單考慮聲母與韻母組合不計
圖 2.4: 聲母分類與代號對照表
聲調之華語基本音節,則共有約 408 種組合。 若再考慮聲調,華語中的考慮聲調 之音節則即有約 1345 種組合。 在如此多種組合之下,將基礎的 62 種聲韻母與聲 調充分練習方能正確發聲,是華語學習者的一個基本方向。
• 聲母
聲母也稱前音,依不同的發音部位,聲母可分為唇音、舌尖音、舌根音、舌 面音、翹舌音、舌齒音等。圖 2.4 是詳細之聲母分類、實驗中代號與相對國 際音標對照表。
• 韻母
韻母也依發音的不同初步分四類:單韻母、複韻母、聲隨韻母與捲舌韻母;
這些韻母再與介音 (ㄧㄨㄩ) 結合成為結合韻母。 圖 2.5 和圖 2.6 列舉韻母、
結合韻母與其分類和代號對照表。其中空 (一) 為接在ㄓ等翹舌音後之空韻 母,空 (二) 是在ㄗ等舌齒音後之空韻母。
2.3.2 聲 聲 聲調 調 調
華語的聲調可分為陰平、陽平、上聲、去聲以及輕聲共五類。聲調是華語非常重 要的音節結構部分,控制講話時音節發音的音高升降。多數語言中並無特別賦予
圖 2.5: 韻母分類與代號對照
圖 2.6: 結合韻母分類與代號對照
各音節音高變化的特性,也因此聲調特性的熟悉與練習是華語學習的一大重點。
表 2.2: 聲調分類表
陰平聲 一聲 - 陽平聲 二聲 ˊ
上聲 三聲 ˇ 去聲 四聲 ˋ 輕聲 ˙
由以上可知,華語之學習不單單在於基礎發音的單位上,聲調的使用正確與 否更是深刻影響整體發音句子的語意。而本論文在後面的章節也將會討論如何讓 電腦幫助分配、加強適當的發音練習。
2.4 發 發 發聲 聲 聲特 特 特徵 徵 徵分 分 分類 類 類
發聲特徵是將音素分解為更小單位,以每一種發音口型特性的觀點去評斷一個音 素的特徵值。此概念事實上從國際音標的表格編排方式不難聯想,然而如何以最 有效率的特徵維度重現一個音素的特質一直是語音學界相當大的課題。一般來 說,發聲特徵有三種最常見的定義方式:二元特徵、多值特徵以及發音聲韻要 素 [2]。
2.4.1 二 二 二元 元 元特 特 特徵 徵 徵
二元特徵 (Binary Feature) 的定義方式是將每一個音素針對某一種發聲特性給予 有 (+) 或無 (-) 的特徵值,每一種發聲特性即可視作一個維度 [38] 。
此特徵概念最早是由賈氏 (Jacobson) 和哈氏 (Halle) 於西元1956年提出 [39, p. 70–102],認為音位是由一系列特徵所組成,並以12大項特徵同時對發音口型 和音訊粗略分類。而後西元1968年,杭氏 (Chomsky) 和哈氏 (Halle) 發表知名鉅作
《英語語音模式》 (The Sound Patterns of English,SPE) [40, p. 29–31] ,並從英語 的角度切入,細分27項針對發聲觀點的可能特徵維度,對聲韻學領域中的特徵相 關研究影響深遠。
2.4.2 多 多 多值 值 值特 特 特徵 徵 徵
多值特徵 (Multi-Valued Feature) 的定義方式較趨近於國際音標的表格形式,以較 少的維度解析每一個音素,然而每一個維度則擁有多種可能的發聲特性值。
舉例而言,肺部氣流子音表之最上列項目即可作為「發音位置」的各種可能 值,最左行項目則是「發音方式」維度上的各個選項,「圓唇與否」、「清濁 音」、「舌頭位置」等等定義方式亦然。
多值特徵定義相對容易理解,維度亦較少,然而每一種維度的多值特性導致 其較二元特徵複雜,解析後的單位也和音素定義相去不遠,性質介於音素和二元 發聲特徵之間。
2.4.3 發 發 發聲 聲 聲軌 軌 軌跡 跡 跡
近年來又有較新之發聲軌跡 (Articulatory trajectory) 概念 [41–44] 。發聲軌跡不只 將每一音素之發音口型狀態記錄下,更依據時間紀錄各發聲器官之實際移動情 形。然而為了記錄發聲軌跡,不僅需要比紀錄發聲特徵更大量之訓練語料,更因 為其精細而龐大之數據資料易受語者個體影響,實驗過程也更加耗工費時。
2.5 發 發 發音 音 音偏 偏 偏誤 誤 誤 類 類 類型 型 型
為求更精確歸類外語學習者在發音上的錯誤,語言教育學者定義了發音偏誤類型 (Pronunciation Error Pattern),依照不同的發聲機制將常見的發音錯誤類型分門別 類。發音偏誤類型的產生,通常是由於學習者的母語缺乏此外語所必須的發聲機 制,學習者以母語類似之發聲機制填補而造成。因此不同母語的學習者對於學習 之目標語言產生的發音偏誤也不盡相同,當學習者母語來源相當多元廣泛時,發 音偏誤的分類也益趨複雜。
表 2.3 與 2.4 的華語發音偏誤列舉,是以英語、韓語、日語為母語,或是有漢 語方言背景之海外華人普遍擁有的現象歸類而成 [45] 。
2.6 增 增 增強 強 強式 式 式學 學 學習 習 習
增強式學習 (Reinforcement Learning) 是機器學習 (Machine Learning) 中很重要的 一個子領域 [46–49]。主要探討系統代理人 (Agent) 如何在環境 (Environment) 之 下作出一組動作序列 (Action Sequence) 使得某種定義下之累積獎勵 (Cumulative Reward) 最大,如圖 2.7 所示。在對話系統中之對話管理者 (Dialogue Manager) 設 計中,統計式方法是近年來非常熱門的研究方向之一,增強式學習即是常用且普 遍的訓練方式。為了達到此一學習目標,增強式學習之訓練常被套用在馬可夫決 策程序模型上,以下將介紹模型相關參數與訓練方法。
2.6.1 馬 馬 馬可 可 可夫 夫 夫決 決 決策 策 策程 程 程序 序 序 (Markov Decision Process) 模 模 模型 型 型
馬可夫決策程序模型是常用在處理序列性決策 (Sequential Decision Making) 問題的 一套數學架構。此模型將決策性問題轉變成一最佳化(Optimization) 問題。一般以
圖 2.7: 增強式學習中之系統代理人與環境之互動
五個參數 {S, A, R, T , γ}:
• S代表系統代理人之狀態 (State),是其對於當下所處在環境中之觀點。
• A (Action) 是系統代理人可採用之動作。
• R (Reward Function)則是獎勵函數。
• T (Transition Probability) 是系統代理人在所處環境中之狀態轉移機率。
• γ 是折扣因數 (Discount Factor),決定未來系統狀態對於當下狀態之影響。
當系統代理人從狀態 s 做了動作 a ,會獲得獎勵 r 並轉移到新的狀態 s0 。馬 可夫決策程序模型之目標在於找尋一個決策 π (Policy) 以做一系列之系統狀態轉 移,使在每個狀態上之總折扣獎勵之期望值 (Expected Total Discounted Reward) (又 稱價值函數,Value Function) 最大:
Vπ(s) = E[
∞
X
k=0
γkrk|s0 = s, π] (2.1)
一個狀態之價值函數大小代表著處於此狀態對於最大總折扣獎勵之貢獻。其中 rk
是第 k 次系統狀態轉移所獲得之獎勵,而決策 π 則為每一系統狀態 s 設定一動作 a,故決定著在某狀態應採取的相對應系統動作。若將式 (2.1) 拆解, 其又可表示 為:
Vπ(s) = R(s, π(s)) + γX
s0∈S
T (s, π(s), s0) · Vπ(s0) (2.2)
此式可視為根據決策 π ,系統得到之立即獎勵 (Immediate Reward) R(s, π(s)) 與下 一個可能跳至之狀態 s0 的價值函數期望值之合。其中 T (s, π(s), s0)為從狀態 s 轉 移至狀態 s0 之機率,而 γ 則是折扣因數。
此外,系統狀態之價值函數又可以被分解為系統狀態採取某動作之價值函 數。因此上述之價值函數可從狀態-動作價值函數 (State-action Value Function, Q Function)之角度分析:
Qπ(s, a) = E[
∞
X
k=0
γkrk|s0 = s, a0 = a, π]
= R(s, a) + γX
s0∈S
T (s, a, s0) · Qπ(s0)
(2.3)
因此,系統之最佳決策可以表示為:
π∗(s) = arg max
a∈A Q(s, a) (2.4) 故找尋最佳系統決策在此轉變成使以上所提到之狀態-動作價值函數之最大化。
決策通常以表格 (Grid) 方式儲存,每一組狀態-動作價值函數為表格內之一元素 (Element)。
2.6.2 連 連 連續 續 續狀 狀 狀態 態 態 馬 馬 馬可 可 可夫 夫 夫決 決 決策 策 策程 程 程序 序 序模 模 模型 型 型
傳統馬可夫決策程序模型假設系統為離散狀態 (Discrete State) ,也就是說,以有 限個狀態來表示系統對於環境的看法。然而,在很多真實的問題中,系統狀態是 必須切割成非常多種可能性、連續性、甚至是無限多個的。因此,式(2.2) 須改 為:
Vπ(s) = R(s, π(s)) + γ Z
s0∈S
T (s, π(s), s0) · Vπ(s0) · ds0 (2.5)
因為系統狀態為連續且無限多個,此式利用積分方式將所有下個狀態 s0 加總 以求其期望值。然而,要窮舉並計算所有可能出現之下個狀態是近乎不可能的。
要處理這樣的連續狀態空間 (Continuous State Space) 相關問題,必須透過針對連 續狀態馬可夫決策程序模型之設計方法來解決。
常見之方法有狀態離散化 (State Discretization) [50] 與參數函數近似 (Parametric Function Approximations) [51,52]。 此兩者皆將無限之狀態空間以有限參數表示。
• 狀態離散化
此方法將連續狀態空間離散化,試著以一個有限之狀態集合代表所有的狀態 空間。待狀態空間離散化後,再以一般解離散狀態馬可夫決策程序模型之演 算法得最佳系統決策。其缺點為過度離散化將使系統狀態空間變得太粗糙,
而失去原本連續狀態空間在應用上之優點。
• 參數函數近似
利用適當之參數函數模型來近似價值函數 (V (s)) 。多數方法利用迭代方式 在固定步驟下將函數模型之參數調適 (Fit) 至所見之數據點,而參數調適 多採用最小平方準則 (Least Squares Criterion) 等方式。此外,梯度下降法 (Gradient Descent)亦是另一種常用之參數函數近似之模型調適方法。此類方 法之缺點為調適之不穩定與發散情形。
表 2.3: 華語聲母韻母發音常見偏誤
英語背景 韓語背景 日語背景 海外華人
舌根擦音ㄏ和唇齒擦音ㄈ誤為吹氣音 有 有 有
ㄓㄔㄕㄖ誤為舌面音或舌齒音 有 有 有 有
ㄖ誤為ㄌ 有 有 有 有
ㄋ與ㄌ相混 有 有
清聲母濁化 有 有
送氣音ㄆㄊㄎㄗㄘㄙ念為不送氣 有
鬆緊問題 有 有 有
圓展問題 有 有 有
ㄦ的卷舌動作 有 有 有 有
ㄩ音色的穩定性 有 有
介音問題 有 有
動程問題 有 有 有
比例問題 有
前後鼻音韻母相混 有 有 有 有
ㄖ與開口呼韻母的拼合 有 有 有
聲母(唇音除外)與合口呼或撮口呼韻母相拼 有
音節界線問題 有
「啊」的音變 有 有 有 有
表 2.4:華語聲調常見偏誤
英語背景 韓語背景 日語背景 海外華人
音高變化的區別作用 有 有 有
單字調的調值和調性 有 有 有 有
包含上聲的連調組 有 有 有 有
「陰+陽」和「去+去」的連調組 有 有 有
輕重音 有 有 有 有
停頓和語調 有 有 有 有
拼音誤讀 有 有 有 有
第
第 第 三 三 三 章 章 章 實 實 實驗 驗 驗語 語 語料 料 料庫 庫 庫
3.1 樹 樹 樹狀 狀 狀對 對 對話 話 話 劇 劇 劇本 本 本集 集 集
樹狀對話劇本集由9個子對話 (Sub-dialogue) 劇本 (Script) 組成,是台灣大學國際華 語研習所與本實驗室合作設計之華語對話語料。子對話劇本各有一小主題,可 串接成一套完整的循環對話內容。這些日常用語約有一半對話語句取自台大華 語 [21]教學軟體之練習語句。這些語句都具有音素平衡 (Phonetically Balanced) 、 韻律多元 (Prosodically Rich) 之特性。對話類語句除了文法、語意結構需注意外,
其更著重在與其他語句間的互動性。也因此適合演練此對話語料之華語學習者需 至少已學習華語3-6 個月,以充分了解多數華語語句之內容與結構。
如圖 3.1 所示,劇本集內容為餐廳用餐情境,從 (1) 電話邀約開始、接著 是 (2)餐廳訂位,直到最後 (9) 結束道別,流程結束後,又可再次從 (1) 電話 邀約從頭開始練習。劇本對話流程由A 和B 兩位角色交替輪流對話 (Turn-taking Conversation)。學習者可選擇扮演其中一位角色,另一位則是由系統所扮演。在 不同的子對話劇本中,有不一樣的相對應角色。圖 3.2 是主題 (4) 帶位點餐劇本之 部分對話片段。
在圖 3.2 中此 A 扮演服務生之角色,而 B 則是顧客。每位角色在各個對話
圖 3.1: 循環樹狀對話劇本
圖 3.2: 樹狀對話劇本之部份片段
回合 (Dialogue Turn) 中都有若干語句可以選擇做為回應並跟著教師的聲音練習發 音,此對話劇本片段包含了5個對話回合 (A1,B1,A2,B2,A3) 。這樣的設計形成了 樹狀對話結構,讓使用者在不同次練習中,有非常多元的練習語句路徑,不但可 以練習到不同類型之語句,亦可了解不同情境下之不同說法。
完整樹狀對話劇本集總共有176個對話回合。各個子對話劇本之主題與細節如 表 3.1 所示。語句一共有466 句,其中有230 為台大華語教學軟體之練習語句,以 配合華語學習者之程度。各個主題間預設連接方式如圖 3.1 ,端看欲使用的對話 語料內容,亦可從中挑選任若干個主題並加以串接。
3.2 真 真 真 實 實 實華 華 華語 語 語 學 學 學習 習 習者 者 者語 語 語料 料 料庫 庫 庫
真實華語學習者語料庫是由就讀於台灣大學國際華語研習所之外國華語學習者所 錄製。外國華語學習者之定義為其母語非華語的學習者。這些錄音之收集時間 為2008至2009年,一共有278位華語學習者參與錄音。這些學習者分別來自36個國 家。其中人數最多之國家為美國,有87位,其次是日本,有46位。學習者們各自
表 3.1:樹狀劇本各主題細節
對話樹主題 角色 對話回合數 語句統計(句)
(1)電話邀約 小王vs美芳 25 70 (2)餐廳訂位 小王vs服務生 25 60 (3)約定會面 小王vs美芳 25 71 (4)帶位點餐 小王vs服務生 25 63 (5)餐間閒聊1 小王vs美芳 13 36 (6)餐廳上菜 小王vs服務生 21 46 (7)餐間閒聊2 小王vs美芳 21 58 (8)結帳離開 小王vs服務生 13 39
(9)結束道別 小王vs美芳 8 23
總計 176 466
有其常用之母語。每位華語學習者都錄製了30個語句。各個語句細節如表 3.1 所 示。每個語句各有約6 到24個中文字。這些語句都來自台大華語教學軟體,且包 含了大部分常用之華語聲母、韻母與聲調。有了這些真實華語學習者語料庫,國 際華語研習所之華語教師們針對這些錄音的每個字在聲母、韻母與聲調的發音上 評0至5分,以代表學習者在此字上之發音成績。同時,也紀錄學習者在這些發音 單位上的發音狀況,判定是否發音正確,或者錯誤發音成其他發音單位。值得一 提的是,這些錄音之發音錯誤率低於10%,顯示所有參與錄製此語料庫之外國華 語學習者對於華語都有一定之學習程度。同時,我們也可以利用台大華語教學軟 體之發音評量系統來對每一華語學習者的每一語句作評分,如圖 3.3 所示,此系 統可以評量每個字在聲韻母、音調、節奏、重音上的發音表現,並賦予0至100間
圖 3.3: 台大華語之發音評量細節
之分數。
3.3 華 華 華語 語 語教 教 教師 師 師偏 偏 偏誤 誤 誤標 標 標註 註 註與 與 與轉 轉 轉換 換 換
在真實華語學習者語料庫中,由兩位華語教師將所有學習者之錄音以人工標註的 方式記錄了每個發音單位之正確或錯誤方式。代號為 yuhui 之教師標記了所有學 習者的錄音,而代號為 alice 之教師標記 2008 年共 186 位學習者之錄音。表 3.3 為 示範之標註模式:
表 3.3 中,每一列代表一個聲韻母,「Word」為句中的中文字,「Zhuyin」
為對應之注音,「Phoneme」為對應之音位,「Tone」為對應之聲調,「Syllable Score」為對應0到5之人工評分。「Pronunciation Error Pattern」為教師對錯誤類 型的詳細描述,三位數字編號為此偏誤對應在偏誤列表中之編號。「Tone Error Pattern」為教師對聲調偏誤類型之詳細描述,兩位數字編號為此偏誤類型對應在 偏誤列表中之編號。 學習者常有錄音時唸錯而回頭修正的情形,而人工標註只記 錄了修正的重複發音,並未記錄實際念錯時的偏誤情形。因此本論文作者將所有
標註重複發音之錄音檔一一聆聽確認後,再次標註學生修正前實際之偏誤情形。
教師定義之發音偏誤類型,大多以漢語與英語之音位定義,少數輔以日語、
閩南語與客家語之音位。在此使用的偏誤音位轉換,即是以原始正確漢語之音 位,對應到漢語、英語或其他語言的音位。表 3.4 為偏誤類型之音位轉換對照。
表 3.2:華語學習者之 30 句錄音內容
編號 錄音內容 編號 錄音內容
1 珊珊是不是你妹妹? 11 請問,這裡是不是故宮博物院?
2 王小姐是紐約人嗎? 12 站在門口那位就是陳醫生。
3 這班車到不到台灣大學? 13 我們四個人,要點幾道菜?
4 不是的,今天是一月八號。 14 新光三越百貨公司在哪兒?
5 對不起!我不知道。 15 今天有羅宋湯和海鮮濃湯。
6 我穿這件衣服好看不好看? 16 我打算到國外去旅行。
7 有一點遠,公車要坐三站。 17 你看去澳洲怎麼樣?
8 能不能到機場接我們? 18 買什麼水果呢?
9 有健身房和游泳池嗎? 19 飯後有沒有甜點?
10 高雄的夏天熱不熱? 20 麻煩給我一杯冰水。
編號 錄音內容
21 最近的是唭哩岸站。你往前走,看到麥當勞,捷運站就在對面。
22 是。這個手機又小又漂亮,可以照相、聽音樂。價錢也不貴。
23 請問,這裡是大中銀行,還是玉山銀行?
24 請問,我要到台北車站,在這兒等公車嗎?
25 請你往前一直走,再過一個路口,就看到了。
26 請問,您能不能告訴我,今天是幾月幾號?
27 搭汽車要兩個小時,搭飛機四十五分鐘。
28 我幫你們介紹一下,這位是我的老師。
29 現金不好,應該帶旅行支票比較方便吧!
30 請問,下一站是忠孝復興站嗎?
表 3.3:華語教師偏誤標註示範
Word Zhuyin Phoneme Tone
Syllable Score
Pronunciation Error Pattern
Tone Error Pattern
這 ㄓ ㄓ 000 發音正確
這 ㄜ ㄜ 4 3
020舌位往中間 移動,發成英語
”any”中的”a”音
00 聲調正確
裡 ㄌ ㄌ 000 發音正確
裡 ㄧ ㄧ 3 5 000 發音正確 00 聲調正確
是 ㄕ ㄕ 000 發音正確
是 +i +i 4 4 000 發音正確
24
起點調值不夠高,
落點不夠低,調值51 念成42或32 註:「+i」為ㄓㄔㄕㄖ之空韻母。
第
第 第 四 四 四 章 章 章 考 考 考慮 慮 慮發 發 發聲 聲 聲特 特 特徵 徵 徵之 之 之對 對 對話 話 話遊 遊 遊戲 戲 戲架 架 架構 構 構設 設 設計 計 計
於圖 3.3 中,台大華語教學軟體提供量化的發音評量反饋給學習者,讓學習者在 學習華語日常用語的同時, 瞭解其各個發音單位的聲韻母、聲調等表現。 本章節 提出之對話遊戲架構設計,則將台大華語原本單純簡短的兩人對話,延展成不同 情境下, 系統根據學習者發音學習狀況而推薦適當的練習語句。 當練習語句中所 含有的發音單位不足給予使用者練習時,則採用發聲特徵相近或類似的發音單位 提供給學習者。 章節 4.1 將介紹前作之系統架構, 包含前述章節提到之發音評量 系統、實驗語料庫的運用、對話管理者之架構與其增強式學習訓練方法。並介紹 前作之系統原理及實驗結果。 章節 4.2 介紹本論文延伸之系統架構,包含用來訓 練與測試模型用之模擬學習者。 章節 4.3 將深入介紹對話管理者之架構,包含連 續狀態馬可夫決策程序模型與增強式學習訓練演算法。 而章節 4.4 介紹結合發聲 特徵的虛擬練習次數之計算。
4.1 前 前 前人 人 人系 系 系統 統 統
本節先回顧本實驗室過去的研究成果 [53] 作為本論文研究之基礎。
4.1.1 系 系 系統 統 統架 架 架構 構 構
對話遊戲架構之整體系統架構如圖 4.1 所示。 利用章節 3.1 介紹之對話劇本集,
當學習者進行對話遊戲時,在與系統對話過程中的每次回應,學習者所講出的每 個語句, 都會透過自動發音評量系統將語句中的每個發音單位做評分。 接著教學 式對話管理者會透過語句選擇決策來選擇適當的下一個語句給學習者。 此外,由 少量真實華語學習者語料庫統計訓練產生的巨量模擬學習者 (Simulated Leanrer) 被
圖 4.1: 對話遊戲系統架構
用來在增強式學習之演算法中來訓練語句選擇決策。以下將針對此架構之各部分 作介紹。
• 模擬學習者
模擬學習者由少量真實華語學習者語料庫統計訓練成之模型所產生,目的在 於產生大量之模擬學習者作為系統對話管理者決策之訓練與測試語料。章節 4.2.2 將討論其實作細節。
• 增強式學習架構
增強式學習架構包含教學式對話管理者、語句選擇決策、增強式學習等三個 部分。教學式對話管理者為整個系統架構之核心,掌管著如何選擇適當的回 應與學習者進行互動對話。 本論文與前作利用連續狀態馬可夫決策程序模 型作為教學式對話管理者之架構。而語句選擇決策則是使用馬可夫決策程序 模型中的決策 (Policy) ,驅動教學式對話管理者,根據決策來決定下一次該
採用何句對話。 模型之訓練方法,則利用增強式學習中的 Q 值迭代演算法 (Fitted Q Value Iteration Algorithm)。詳細之討論細節將在章節 4.3 做深入介 紹。
• 語料庫
本章節所使用的語料庫為章節 3.2 介紹的兩組實驗語料庫。 其中樹狀對話劇 本集為學習者與系統互相回應語句的依據,在彼此互動的每個對話回合中,
從若干個當下可選語句選擇一個語句作為回應。 真實華語學習者語料庫則 用以訓練一個學習者模擬模型 (Learner Simulation Model),產生模擬學習者 來作為訓練對話管理者之訓練語料。
• 自動發音評量系統
本論文與前作系統使用之自動發音評量系統即為章節 3.2 提到的台大華語軟 體發音評量系統。對於學習者講的每一個語句,都可以為語句中的每個音 進行評分。在此我們著重在其發音 (聲韻母) 與聲調之評分。得到這些分數 後,系統即傳給教學式對話管理者,並回傳其選擇的適合語句給使用者練 習。因此利用此自動發音評量系統,學習者可以得到其語句中各發音單位的 評量分數,同時也可以得到系統提供之往後對話語句選擇。
4.1.2 系 系 系統 統 統原 原 原理 理 理
前作採用連續 (Continuous State) 馬可夫決策程序 (Markov Decision Process, MDP) 來描述並推展目前學習者之發音學習狀況。 此決策程序中,系統狀態 (state) 紀錄 學習者目前所在之對話回合,以及各發音單位目前之平均正規分數。 系統動作 (action)則為可推薦給學習者選擇之下一練習語句。 並以增強式學習訓練出系統 之對話管理決策 (Policy)。 此決策將決定當使用者位於某系統狀態時,其所相對
該採取之動作。 隨著對話練習語句的進行,模擬學習者各發音單位之分數亦會根 據其所練習的次數而逐步上升。 由於對話中每一回合雙方皆有多個語句可以選 取, 整個對話劇本提供了無數的對話路徑 (path) ,每路徑有十分不同的多個發音 單位之練習次數。故實驗之目的,就是隨時選擇最合適的路徑,讓成績不好的發 音單位可以多練習。 此處連續狀態馬可夫決策程序模型系統達成目標之條件,設 定為模擬學習者之95% 列入考量之發音單位皆連續 5 次超過 75 分, 亦即當模擬 學習者練習到 95% 發音單位中連續 5 次超過 75 分時,模型系統方停止練習。 故 設計此對話樹練習系統之目的,就是希望使用者能有效且快速達到學習成效。
4.1.3 前 前 前作 作 作之 之 之結 結 結果 果 果
前作系統之目標為學習者自由選擇練習對話內容之餘,亦能提供適合的練習語 句。 與亂數或貪婪演算法 (Greedy Algorithm) 設計之系統相比,基於連續狀態馬 可夫決策程序模型所設計的前作, 更能提供學習者初學階段發音較差發音單位之 練習。
4.2 本 本 本論 論 論文 文 文系 系 系統 統 統
在前作之系統中,由於有些發音單位出現頻率甚低,若這些單位成績不佳,系統 將必須耗費較多練習回合,以實際練習到這些低頻的發音單位。 為改善此現象,
本論文採用以下重要假設:當發音單位出現不足時,練習與該單位有幾乎相同發 聲特徵之其他發音單位, 亦可視為一種虛擬而有進步效果之練習。 此一假設為本 論文之基礎,雖然吾人並不曾有機會在實驗中證實此假設成立。 因此本論文結合 發聲特徵設定,希望以此虛擬練習次數之設定,彌補在原本對話術中低頻發音單 位進步緩慢的缺陷。
4.2.1 系 系 系統 統 統原 原 原理 理 理
與前作相比,本論文的系統狀態除原始平均正規分數的發音分數向量以外, 增加 了發聲特徵偏誤向量。此外,學習者進步之模型增加了虛擬練習次數的計算。 即 模擬學習者分數之增加,同時考量到實際練習次數與虛擬補償練習次數。 本論文 設計系統之目的,為希冀系統對於學習者實際練習不足之發音單位,仍可提供較 多虛擬練習給這些發音單位。
4.2.2 模 模 模擬 擬 擬 學 學 學習 習 習者 者 者
擁有足量之訓練資料 (Training Data) 與測試資料 (Testing Data) ,是有效的模型訓 練之必要條件。 由於語言學習中大量真實使用者的資料並不十分容易取得,因此 本論文與前作以產生模擬使用者的方法,以期模擬出真實人機互動的對話來訓練 系統之決策。 以下將介紹如何產生模擬學習者的發音單位分數以及發聲特徵之偏 誤。
發
發發音音音分分分數數數向向向量量量
給定真實華語學習者語料庫之集合,在此用台大華語評分系統為錄音語料中 每 個學習者的各句錄音語句評分, 可得到每個語句相對應之發音分數向量 (Pronunciation Score Vector)。 發音分數向量的維度即為考量之發音單位的總數 量。 此處考量之發音單位為 58 種聲韻母、 5 種單聲調、19 種詞內雙聲調,與 19 種跨詞雙聲調,總數量為 101 種發音單位。 當給定一個語句,每個出現在語句中 的發音單位, 其相對應至發音分數向量的元素值即為該發音單位在此語句中的平 均分數。 若某發音單位未出現在語句中,則其在發音分數向量對應之元素被視為 未知資料 (Missing Data)。
圖 4.2: 使用動態時間校準將正確發音之音素序列與學習者發音之音素系列對齊
發 發
發聲聲聲特特特徵徵徵偏偏偏誤誤誤向向向量量量
在此使用與前面所述相同之學習者語料庫, 並將每句錄音根據華語教師所標註之 發音偏誤類型,逐一轉換成音素序列 (Phoneme Sequence),此音素序列忠實紀錄 了學習者此句唸出之發音。 接著根據附錄一定義之音素與發聲特徵轉換,將此句 的音素轉換為各自擁有之發聲特徵。 在附錄一的轉換表格中, 1 即代表該音素有 此發聲特徵, 0 代表該音素未有此發聲特徵。 此外,亦將每句正確發音之音素轉 換為各自之發聲特徵。
在此使用動態時間校準 (Dynamic Time Warping, DTW),將正確發音之音素序 列與學習者發音之音素序列強制對齊 (如圖 4.2)。 在動態時間校準中,正確音素 與學習者產生音素之距離則以兩者發聲特徵之差異合計算。差異合之計算如下:
當正確音素或學習者產生之音素只有其中一方擁有某種發聲特徵時,則差異值加 1,差異合為正確和學生產生之音素所有差異值之總和。 因此當學習者產生之音 素與正確音素完全相同時,其差異合為 0 。
使用動態時間校準後,挑出所有學習者產生之音素與正確音素相異之配對,
以圖 4.2 為例,即為表格中深色格點之部份。 將此配對所造成之發聲特徵差異以
兩陣列 f1、f2 表示之。 表 4.1 為求取f1、f2之示意範例,表中呈現之音素為學生 發出之發音 (CH dz) 與 正確之發音 (CH sh) 。 f1、f2之維度與所有使用的發聲特 徵總數相同,即為表 4.1 中第一列之發聲特徵,本論文所採用者共有 25 項,每一 維表示一種發聲特徵。 f1中的元素為 1 時,代表學習者產生之 (錯誤) 音素有此發 聲特徵,但正確音素沒有此發聲特徵。 f2中的元素為 1 時,代表正確音素有此發 聲特徵,但學習者產生之 (錯誤) 音素沒有此發聲特徵。 因此可將f1視為學生在 試圖發出正確音素時多出之發聲特徵集合,f2視為學生在試圖發出正確音素時缺 少之發聲特徵集合。 將所有相異音素配對之f1與f2求出後,將f1、f2每一維各別 加總,並以配對之總數平均,所得之平均陣列F1、F2即視為此句中發聲特徵的偏 誤。 我們將這兩陣列F1與F2串連在一起成為 50 維之陣列,稱為發聲特徵偏誤向 量 (Articulatory Feature Mispronunciation Vector)。
表 4.1: f1、f2之求取範例
音素 syllabic continuant coronal anterior distributed ... low front
CH dz 1 0 1 1 0 0 0
CH sh 1 1 1 0 0 0 0
f1 0 0 0 1 0 0 0
f2 0 1 0 0 0 0 0
4.2.3 以 以 以高 高 高斯 斯 斯混 混 混合 合 合模 模 模型 型 型建 建 建構 構 構 之 之 之學 學 學習 習 習者 者 者模 模 模型 型 型
利用上述方法,所有學習者錄音語句可被數據化成發音分數向量與發聲特徵偏 誤向量。 本論文將發音分數向量正規化到0–1之區間後,刪除發聲特徵偏誤向量 中其值永遠為0的維度, 將修改後的發音分數向量與發聲特徵偏誤向量串連成一
個150維之大向量。 並將所有語句所產生大向量訓練成一高斯混合模型,並設定 適合的高斯分布數量。 訓練高斯混合模型中,向量含有部分未知資料 (即章節 4.2.2所述中語句裡未包含之發音單位), 我們將高斯構建的平均值向量對應於該 未知資料的值, 用以取代此未知資料。 如此一來便視同不再有這些未知資料,並 可有效訓練出適合的模型。
4.2.4 訓 訓 訓練 練 練與 與 與測 測 測試 試 試
訓練高斯混合模型時,設定高斯分佈之數量與尋找初始分群模型為重要課題。 在 此使用貝氏資訊準則 (Bayesian Information Criterion, BIC) 以決定適合之高斯分佈 數量。 貝氏資訊準則之效果在於限制高斯分布的使用量,避免使用過多高斯分佈 來描述數據點。 模型之BIC值越小,為越適合之模型。 在此測試含3–20個高斯分 佈的高斯混合模型,當高斯分佈數量為 16 時其BIC值最小,因此最後將高斯混合 模型之高斯分佈數量設定為 16 。
4.2.5 模 模 模擬 擬 擬 階 階 階段 段 段
得到學習者模擬模型後,在模擬階段,也就是在利用馬可夫決策程序模型演算法 進行模型訓練/測試時, 即可從學習者模擬模型抽樣其中一個高斯分佈出來,而 這個高斯分佈即可視為一群母語背景接近而有類似發音錯誤狀況的模擬學習者。
在模擬學習者與系統進行對話遊戲時,遇到需發音的每個語句,即可從這組高斯 分佈再抽樣一組對話語句向量, 將須發音語句中的每個發音單位填上語句向量中 前 101 維 (發音分數向量) 相對應之分數,即可代表這個模擬學習者講此語句之分 數。
4.3 連 連 連續 續 續狀 狀 狀態 態 態 馬 馬 馬可 可 可夫 夫 夫決 決 決策 策 策程 程 程序 序 序模 模 模型 型 型
4.3.1 模 模 模型 型 型之 之 之參 參 參數 數 數
連續狀態馬可夫決策程序模型分為系統之狀態、動作與獎勵函數三大部分,以下 分別討論其設定。
• 系統狀態
系統狀態設定描述了學習者目前的發音狀況。我們以兩個變數來記錄之。
1. 目前所在之對話回合
由於樹狀結構之對話設計,系統在不同對話回合可採取的動作各不相 同,須以此變數使系統瞭解目前對話進度。
2. 學習者發音單位之分數與發聲特徵之錯誤機率分佈
為一個陣列,長度為所有考量之發音單位數量,加上兩倍之所有考量 的發聲特徵數量。
(a) 學習者各發音單位之平均正規化分數
陣列中每一個元素為各發音單位之平均分數,分數範圍 0–100 之 連續數字並正規化至 0–1 之間。 因此為高維度且連續之狀態空間 s ∈ [0, 1]U,其中 U 為所有考量之發音單位總數量。
(b) 學習者各發聲特徵之平均錯誤機率分佈
前半部每一個元素為學習者在嘗試發出正確發音時,錯誤出現某一 發聲特徵,因而造成發音錯誤之機率。 後半部每一個元素為學習 者在嘗試發出正確發音時,此一應出現之發聲特徵未能出現,因而 造成發音錯誤之機率。 皆為 0–1 之間之小數。 因此為高維度且連
續之狀態空間 s ∈ [0, 1]2V,其中 V 為所有考量之發聲特徵總數量。
• 系統動作
系統動作之定義為在特定系統狀態下,系統可執行的動作。在此對話遊戲架 構設計裡,系統動作集合為在不同的系統對話回合中,選擇推薦給學習者選 擇的數個下句學習者練習語句。 因樹狀對話劇本集之設計讓各角色在不同 對話回合有不同數量的下句語句可做選擇,導致在不同的系統對話回合有不 同的系統動作數量。
• 獎勵函數
一般來說,系統在執行特定系統動作 (a) 而有狀態轉移 (s → s0) 時,會獲得 一獎勵值。 不同狀態轉移之獎勵值由獎勵函數所決定。當一個完整的對話 互動結束時,這其中所有系統狀態轉移而獲得的獎勵值將被累積,以評量此 對話互動滿足預先設定之獎勵函數的程度。 本對話遊戲之設計目的在於學 習者與系統進行對話遊戲互動時,系統能有效地推薦練習語句並訓練到其不 良發音單位。 這裡指的「有效」提供學習者練習對話語句即可視為在最短 之對話回合內完成此目標。 因此獎勵設計為每經過一個對話回合,則得到 獎勵值 -1 ,此獎勵值亦可視為使對話回合增多的付出之代價 (Cost)。 當系 統完成目標而跳至終點狀態後,則累加所得到的獎勵值。因此達成目標所需 的回合數越少,代價則越小。 本章所提方法之目的在於讓系統跟學習者互 動的對話回合盡量直接配合學習者的學習進度,以達到快速提供練習語句之 目標。
此外,在模型訓練的過程中,若系統與學習者互動完成全部樹狀對話劇本集 時,系統還未達成目標,則會回到第一組子對話劇本繼續互動直到學習者之 各發音單位進步至門檻值而完成系統目標。
4.3.2 模 模 模型 型 型之 之 之訓 訓 訓練 練 練 演 演 演算 算 算法 法 法
連續狀態馬可夫決策程序模型之系統狀態為連續空間,但系統動作則仍為離散空 間。 本論文使用貼合 Q 值迭代演算法 (Fitted Q Value Iteration Algorithm) [54–56]
進行實作。 此演算法用參數之線性近似方法來處理此類連續狀態大規模狀態空間 (Large State Space), 也就是利用事先訂定好的 m 個基底函數 φi(s, a), i = 1, 2, ..., m 與相對應權重 θi之線性組合來逼近真正的最佳狀態-動作價值函數::
Q(s, a) =
m
X
i=1
θiφi(s, a) = θTφ(s, a) (4.1)
其中此 m 個基底函數可形成一基底函數向量 (Vector) φ(s, a) 。每個基底函數 都可視為一狀態-動作 (s,a) 組合之特徵函數 (Feature Function), 當代入特定 (s,a) 組合時各基底函數產生之值即可代表此組合之各種特徵值。 貼合 Q 值迭代演算法 利用採樣 (Sampling) 之方法迭代地得到最佳解。 其作法為:將採樣得到之值代入 各基底函數,並求得各特徵值,再利用這些特徵值與相對應之採樣點進行貼合 (fitting),以更新特徵值對應的權重值。
多數的馬可夫決策程序模型利用式2.2 與式 2.5,採取不同的演算法求取穩定 且最佳的狀態價值函數。而 在貼合 Q 值迭代演算法裡,當價值函數區趨近於最佳 值時, 式 2.2 與 2.5 又可表示為:
Q∗(s, a) = R(s) + γ max
a0 E[Q∗(s0, a0)] (4.2) 在此可用蒙特卡羅法採樣 (Monte Carlo Sampling) 近似,蒙特卡羅法利用大數 定律概念將採樣取得之價值函數平均以趨近期望值。 因此可將狀態–動作價值函 數之更新方式為:
圖 4.3: 線性回歸分析範例圖
Q(s, a) ← 1
N(R(s) + γ max
a0 Q∗(s0, a0)) (4.3) 在此 N 為所有 (s,a) 組合被採樣之總數量。 當此增強式學習演算法採樣足夠 數據點時,在進行狀態–動作價值函數更新前,即是使用監督式學習 (Supervised Learning)之方法。 在此使用的貼合方式為最小平方線性回歸 (Least Squares Linear Regression) [57]。
線性回歸分析為監督式學習中常見貼合資料點之方法。 另,多維度資料點之 線性回歸,又稱為多元回歸 (Multiple Linear Regression), 如圖 4.3 所示,其包含 二維資料點 (x1,x2)與相對應之標籤 y 之集合。 線性回歸分析可視為找尋一超平面 (Hyper-plane) 來精準預測給定資料點的標籤值。
假設給定資料點集合為 {(xj, yi)|j = 1, ..., N }, 其中 xj 為第 j 個多維度之資 料點,y 為其標籤值 (Label)。 若將各資料點以列向量 (Row Vector) 形式相疊成一
圖 4.4: 狀態-動作價值函數曲線與高斯函數之疊加
矩陣 X, 標籤值疊成一行向量 (Column Vector) y,則此多元回歸之超平面各變數 權重即有直接公式解 (Closed Form Solution):
θlin = (XTX)−1XTy (4.4)
權重向量 θlin 即是線性回歸分析欲求得之解。
當線性回歸應用至本系統時,每個採樣到的 (s,a) 組合與其 Q 值即可畫上系 統之狀態–動作空間,並代入上述提到之 m 個基底函數來獲取其特徵值, 接著 再將每筆 (s,a) 組合得到特徵值與其 Q 值視為數據點與其標籤值。 利用線性回歸 得到解。本系統使用之基底函數為多元高斯函數 (Multivariate Gaussian Function),
因此當代入系統狀態儲存之學習者各發音單位之平均正規化分數陣列至各基底函 數時, 可得到相對應之特徵值。 此外,這些多元高斯函數之平均值向量 (Mean Vector)與共變異數矩陣 (Covariance matrix) 為預先設定好的。
如 圖 4.4 左 下 所 示 , 在 此 簡 化 為 一 維 之 例 子 , 初 始 化 基 底 函 數 時 ,
此 5 個 藍 色 高 斯 函 數 被 平 均 配 置 在 0–1 之 間 , 也 就 是 各 自 之 平 均 值 為 0.1、0.3、0.5、0.7、0.9, 而 共 變 異 數 也 是 另 外 預 先 設 定 固 定 值 , 各 自 之 高 度預設為 1。紅色曲線為此 5 個高斯函數之疊加曲線, 此曲線即是欲求得的狀 態–動作價值函數。其曲線走向視 5 個高斯函數之分布而定, 因平均值與共變異 數皆為固定,故可變動之變數即為高斯函數之高度,這些高度就是式 4.1 之權重 θ
。 因此線性回歸在此之目的即為尋找出適合的高斯函數高度,以疊加至最佳的狀 態–動作價值函數曲線。 圖 4.4 之右側為更新後之對話回合 1 之各狀態-動作價值 函數, 其中系統動作 2 之狀態–動作價值函數曲線由其下方之更新高度後的高斯 函數所疊加組成。 須注意,各系統對話回合下的所有狀態–動作價值函數都必須 放置高斯函數以迭代更新,因各狀態–動作價值函數彼此大不相同。
在此使用之線性回歸形式如下:
θn+1= arg min
θ∈RM N
X
j=1
( ˆQθn− ˆB(Q(si, ai)))2+λ
2||θ||2 (4.5) 權重向量 θlin即是線性回歸分析欲求得之解。 其中 ˆQθn 是第 n 次訓練迭代時,利 用參數近似之狀態動作價值函數, B(Q(si, ai))則為取樣所得到之狀態–動作價值 函數,而 N 為總數量。 最後一項為二規範正則化,讓目標函數加上權重向量之 平方和,以避免發生過度貼合。
貼合 Q 值迭代演算法之詳盡細節如演算法 1 中所示。
Algorithm 1 貼合 Q 值迭代演算法 (Fitted Q Value Iteration Algorithm)
1: 初始化權重向量 θ = 1,採樣之數據點集合 ˆB = {},採樣之標籤值集合 ˆL = {}
2: 最大訓練迭代數 = E
3: for i = 1 to E do
4: 初始化狀態 s 為起始狀態
5: while 狀態 s 未達到終點狀態 do
6: 利用系統策略 π 當前選擇狀態 s 下適當之動作 a
7: 執行動作 a,狀態轉移至 s0並獲取獎勵值 r
8: B = ˆˆ BS{(s, a)}
9: L = ˆˆ LS{r + γ maxa0Q(s0, a0)}
10: end while
11: if i mod 25==0 then
12: 取出所有 ˆB與ˆL中之數據點與相對應標籤值
13: 貼合:θ ← arg minθ∈RM
PN
j=1( ˆQθ− ˆB(Q(si, ai)))2+λ2||θ||2
14: end if
15: end for
4.4 虛 虛 虛擬 擬 擬練 練 練習 習 習
雖然樹狀對話劇本集有音素平衡與韻律多元之特性,某些較低頻之發音單位在語 句中實際上出現之頻率,比起其他較常見之發音單位,仍嫌不足。 在前作之系統 中,若發音單位之出現次數少時,系統將必須耗費較多練習回合,以實際練習到 這些低頻的發音單位。 這些低頻發音單位的例子包括結合韻母中的,如「ㄧㄣ 、 ㄩㄣ」,空韻母及翹舌音ㄖ。
為改善此現象,本論文採用以下重要假設:當發音單位出現不足時,練習與 該單位有高比例相同發聲特徵之其他發音單位, 亦可視為一種虛擬而有進步效果 之練習。 故本實驗利用與有高比例相同發聲特徵之其他發音單位,作替代的虛擬 練習。 例如,當「ㄓ」未出現在此次練習句中,但與其類似的「ㄔ」出現在此次 練習句中,則以「ㄔ」的練習作為「ㄓ」的虛擬練習。 本實驗結果將與未採用發 聲特徵的循環式對話系統前作 [53] 實驗結果相比較, 期望可以使用較少對話回 合,達到相同的練習效果。
4.4.1 虛 虛 虛擬 擬 擬練 練 練習 習 習次 次 次數 數 數計 計 計 算 算 算
若提供之語句裡未存在某發音單位 ps,此發音單位的實際 (real) 練習數因此為 0
。 我們以此句中其他擁有類似發聲特徵之發音單位 pn作為替代的練習,而被替 代的此發音單位 ps,其練習次數, 則以這些發音單位 pn的次數以及其發音特徵 計算。設 ps之虛擬 (pseudo) 練習次數為 dpsd(ps),其詳細計算如式 4.6 :
dpsd(ps) = 1 J · λ
N
X
n=1 J
X
j=1
cj(pn) (4.6) J 為 ps所擁有發聲特徵之總數量, j 為某發聲特徵之編號, cj(pn)指含有此 發聲特徵 j 的發音單位 p , 其在本句內所出現之次數。 λ 為一正規化常數,其