• 沒有找到結果。

中文自發性語音語料庫之建立(II)

N/A
N/A
Protected

Academic year: 2021

Share "中文自發性語音語料庫之建立(II)"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期中進度報告

中文自發性語音語料庫之建立(2/3)

計畫類別: 個別型計畫

計畫編號: NSC91-2219-E-009-039-

執行期間: 91 年 08 月 01 日至 92 年 07 月 31 日

執行單位: 國立交通大學電信工程學系

計畫主持人: 陳信宏

共同主持人: 王小川,王駿發,鄭秋豫,吳宗憲,王新民,李琳山

報告類型: 精簡報告

處理方式: 本計畫可公開查詢

中 華 民 國 92 年 6 月 2 日

(2)

中文自發性語音語料庫之建立

(2/3)

Spontaneous Mandarin Speech: Corpus and

Processing

期中報告

計畫編號:NSC-91-2219-E-009-039

執行期限:91 年 8 月 1 日至 92 年 7 月 31 日

主持人:陳信宏 國立交通大學電信工程學系,[email protected]

共同主持人:鄭秋豫,李琳山,吳宗憲,王駿發,王新民,王小川

一、中英文摘要

本三年計畫擬建立中文自發性語音語料 庫,以提供國內學術界進行先進語音辨認科技 研究及產業界發展實用語音辨認系統之用。本 報告說明在第二年度我們的成果,包括:(1) 新 聞廣播語音之錄製及文字標示、切割等處理; (2) TAICAR-汽車環境下語音收集;(3) 新竹 IC 電台語料收集處理;(4) 中央社訪談式錄音語 料處理。 關鍵詞:自發性語音語料庫、語音辨認、新聞 廣播語音、對話語音、文字標示、切割 The three-year project aims at constructing a spontaneous Mandarin speech database to be used in academic and industrial researches for the development of advanced speech recognition technologies. In the second-year progress report, we describe the recording and processing (transcription and segmentation) of four databases: broadcast news, and in-car speech, IC Broadcast Station speech, and Central Broadcast Station dialogue speech.

Keywords: Spontaneous Mandarin speech database, Speech recognition, Broadcast news speech, Dialogue speech, Transcription, Segmentation.

二、緣由與目的

近年來朗讀語音辨認技術已有長足進 步,一些實用系統陸續被開發出來,但語音辨 認科技之實用化關鍵在於進一步發展自發性語 音辨認技術。為因應此趨勢,本計畫結合中研 院、台大、清大、成大、交大、工研院、中華 電信研究所,合力建立一個中文自發性語音語 料庫,以提供國內學術界進行先進語音辨認科 技研究及產業界發展實用語音辨認系統之用。 計畫在三年內錄製及處理大量的新聞廣播語 音、對話語音及車內語音。

三、結果與討論︰

(一) 新聞語音語料庫之建立

本計畫準備利用三年的時間收集及處理 220 小時的新聞語音資料。預計第一年處理 40 小時的語料,第二、三年分別處理 80 小時及 100 小時的語料。 第一年度計畫執行之初的數個月主要進 行各項準備工作,包括聯繫電視及廣播公司洽 談授權、準備標註軟體、決定標註方式等。經 與公共電視洽談後,公視同意授權我們使用其 新聞節目,並建議我們採用『公視新聞深度報 導』節目及願意協助我們錄音(影),錄音工 作自 90 年 11 月 7 日起正式展開。『公視新聞 深度報導』於每週一至五晚間 21:00-22:00 播 出一個小時,自 91 年 7 月起,變更節目名稱 為『公視晚間新聞』,自 91 年 9 月起,播出時 間改為晚間 21:00-21:45,播出 45 分鐘,另於 21:45-22:00 播出 15 分鐘的『公視手語新聞』, 92 年 1 月 31 日起,『公視晚間新聞』移至 19:00-20:00 播出,21:00-21:45 則播出『公視 全球現場』,21:45-22:00 仍播出『公視手語新 聞』。自 90 年 11 月 7 日起至 92 年 2 月底止, 錄音時間固定為 21:00-22:00,92 年 3 月起, 錄音時間則包括 19:00-20:00 及 21:00-22:00 兩 個時段。本計畫錄音工作預計進行至 92 年 6 月底結束,可以收錄約 300 個小時的新聞節 目,主要內容為國內新聞,也有一小部分為國 際新聞。語料收集及語料保存方式簡單說明如 下:: A. 語料收集

(3)

1. 錄音採 TASCAM DA-40 DAT 錄音座,經 由主控台在新聞播放時利用 AES/EBU 平衡 式類比輸入同步錄音。 2. 錄影採 SONY SLV-ED88 錄放影機,利用 一般 RCA 接頭同步錄影,錄影帶採用 TDK HS-160 型號。 3. 錄音/錄影格式 (1) DAT tape: 格式:44.1kHz、 16bit、stereo (2) VHS tape: stereo B. 語料保存 1. 聲音資料 (1) 公視取回的 DAT(數位錄音帶),經 USB 介 面直接將錄音帶內的數位信號讀進 PC 內 轉為格式為 44.1kHz、16bit、stereo 的聲音 檔 (windows PCM、.wav),並燒錄於光碟 中以便保存。 (2) 標註使用的聲音檔,因考量檔案傳輸及讀 取速度的問題,將原始的檔案,利用聲音 編 輯 軟 體 — CoolEdit 2000 將 己 轉 為 windows PCM 的聲音檔進行格式轉換。 轉換為 16kHz、16 bit、mono 後,為便利 日後管理及利用,每週的公視新聞深度報 導儲存於同一光碟中保存。 2. 影音資料 公視取回的VHS 錄影帶,經由UPMOST 301BTR類比影像擷取卡,擷取avi 格式的影 像,並由影像編輯軟體 – 會聲會影(友立出品) 即時壓縮成MPEG1格式保存。 3. 語料標註 本 計 畫 採 用 LDC(Linguistic Data Consortium)提供的Transcriber系統[1]標註電視 新聞錄音資料,請參考圖一。在標註過程中, 舉凡雜訊、背景環境、發音不標準、方言、說 話者性別、主播/記者/被採訪者等資訊都盡量鉅 細靡遺標註下來,標註的結果以XML檔案儲 存,請參考圖二。標註的基本架構已於第一年 度的期中報告中說明,在此不再贅述。 第一年度預計完成的第一階段40小時的語 料庫已於91年7月底如期完成,本年度截至目前 為止已完成約60小時的語料庫,預計第二階段 的80小時的語料庫7月底前可如期完成。本年度 除進行語料標註工作之外,我們也將第一年度 完成的40小時語料庫進行第一次的完整修訂工 作,主要是將語料庫中原標註不一致處訂定統 一標準,盡量達到語料標註的一致性,另外, 我們也針對此一40小時語料庫進行初步的統計 分 析 , 並 寫 成 一 篇 會 議 論 文 發 表 於 2003 IEEE&ISCA Workshop on Spontaneous Speech Processing and Recognition[2]。第一階段的40小 時語料共包括40集新聞錄音及其標註檔案,每 五集儲存在一片光碟,共有8片光碟,此一語料 庫已送交本計畫其他共同執行單位測試中,相 信很快可以授權學術單位或產業界使用。 C. 成果討論: 第一年度計畫執行之初的數個月主要進行 各項準備工作,包括聯繫電視及廣播公司洽談 授權、準備標註軟體、決定標註方式等,加上 標註人需要時間熟悉標註工具及學習標註方 法,所以只預計完成40小時新聞錄音語料的標 註工作。第二年度因為有了前一年度的經驗, 所以標註工作進行的比較順利,目前已完成約 60小時的語料標註,7月底前應可如期完成80 小時的語料標註。語料標註是一件非常繁複累 人的工作,再加上隨時會碰到不知如何標註的 特殊情況,幸好中研院語言所的鄭秋豫博士及 曾淑娟博士在標註應注意事項及標註符號方面 提供很多的協助,並提供咨詢服務,在此一併 致謝。

(二) TAICAR-汽車環境下語音收集

(此項工作由本計畫、教育部 ITS 卓越計畫及 成功大學共同合作進行) 語料的收集乃是語音辨識、語言模組的一 項重要工作,有大量的語料才能提供訓練模組 訓練出符合實際情況的語音模型以及語言模 型。而汽車環境下的語料收集尤其重要,因為 在台灣目前尚未有此種資料庫,因此藉由本計 畫的執行,我們進行汽車語料的收集。合作的 單位有台灣大學、清華大學、交通大學、成功 大學、工研院、電信研究所等六個單位,收集 的語料內容主要有兩種,第一種是含有汽車環 境噪音的提示卡語料,另一種是純粹的汽車環 境噪音。前者可供訓練語音模組,而後者可提 供為雜訊消除之有效資料。 1. 麥克風 我們收集的汽車語料包含了「麥克風陣 列」及「高指向性麥克風」,「麥克風陣列」放 置在擋風玻璃上方,為顧及安全由前方乘客來 錄音模擬駕駛者,其前方放置一高指向性麥克 風,另有一頭戴式高指向性麥克風。 2. 錄音內容 在汽車環境下的語音辨識需要考慮到其 語音特性跟在室內的語音特性有相當大的差 異,因此需要重新訓練語音模型。而訓練語音 模型得要有所謂的「平衡語料」,這部分我們 參考國內執行過的大型計畫「MAT 語料收集」 之作法,先由程式從 100 萬字的文字庫中挑選 出能夠涵蓋所有國語基本音節的短詞、單字 等,並加上英文、數字部分,總共這樣的語料 有 360 份,所佔硬碟空間有 2.65M 之多。 為了噪音環境下的語音分析所需,我們也 錄製車子內的噪音,亦即,當錄音進行時,人 員不得交談、說話,錄製的噪音可供日後評估 噪音消除演算法所需。 – 以車輛為單位,怠速噪音錄製

(4)

60 秒 – 市區路段噪音每人錄製 30 秒 – 快速道路噪音每人錄製 30 秒 為了實際記錄各種不同路況,錄音時我們 分兩種路段:市區路段以及快速道路路段。市 區路段下,時速為 0~50 公里;快速道路則需 維持在 70~100 公里。 之 前 提 到 的 語 料 在 錄 音 時 將 發 給 錄 音 者,我們稱之為『提示卡』。合作的單位必須 負責找來 40 個人,每個人分別於不同路段各 講上一節的提示卡語料一次。因此,我們將收 集到各種不同車種、路況、語者的平衡語料。 而汽車本身的噪音,對於雜訊消除也是一 個重大的依據,我們也同時請錄音者錄下汽車 單純的環境噪音。這分成三個部分:怠速狀態 下、市區路段行駛中、快速道路行駛中的汽車 噪音。 3. 語料錄製結果 整個錄音的結果如下表所示: 單位 語料音 檔數 語料大 台灣大學 21 15,687 1,558 M 清華大學 交通大學 40 29,880 3,918 M 成功大學 40 29,880 3,347 M 電信研究所 40 29,880 2,936 M 工研院 40 29,880 2,939 M TOTAL 181 135,207 14,658 M

(三) 新竹 IC 電台交談節目語料

經過和新竹 IC 電台洽談後,我們獲得他 們的許可錄製語料,經處理後去除牽涉個人隱 私語料後,我們可以使用處理後之語料。因此 我們開始由廣播直接錄製訪問性語料,經先處 理一小部份語料進行語音辨認後,確認如此錄 製之語料可以使用。 我們已錄製一些語料,目前完成處理兩個 小時的節目,預計至七月底完成 10 個小時的 節目語料處理。至於語料之標註處理將採用和 新聞語料標註處理相同的軟體及格式。

(四)

中央社訪談式錄音語料

從 2002 年底開始到 2003 前五月,陸續從 中 央 社 取得 電 台訪 談 的語料 ( 屬 於自 發性 Spontaneous Speech),有九片光碟(共 77 個 檔案,合約九小時又三十分鐘,內容以第一片 為範例見附錄一),實付中央社八萬元台幣。 在我們的要求下,每個檔案錄音格式為標準的 Windows wav (Linear PCM’‘),也附有描述每 段訪談的主題和對話者的性別的文字檔。訪談 內容以電台廣播方式呈現,內容大多為男、女 主播採訪著名專業人士,剖析其相關領域的專 業知識,有的檔案有獨立的主題,有些則是具 連貫性主題的系列訪談。大部分的訪談錄音 中,說話速度適中,語調清晰,但是部份檔案 音量偏小,主播或受訪者聲音含混,也有穿插 笑聲、彼此搶話等現象。 由於主播及被訪者的交談屬於自發性語 音(並非照著稿子所唸),因此常常出現各式 各樣的語氣詞、停頓、口語不清、喘氣、搶話、 笑聲、聲量忽大忽小、發音不清等現象,例如 連續說"對對對對對"來贊同對方所講的話,發 出"嗯"、"哦"、"那"、"哇"等語氣詞;在多人 訪談時,時常會有搶話的現象;而節目開始前 通常會先來段音樂緩和氣氛或是訪談到一半 大家想休息一下時,也會播放音樂。 我們請工讀生利用中研院推薦的語料標 註軟體(Transcriber),將從這些訪談的原始錄 音資料聽取到的內容標記下來,除了將說話的 文字內容以繁體中文標註之外,也仔細地標註 每則訪談的語氣詞、停頓、口語不清、喘氣、 搶話、笑聲、聲量忽大忽小、發音不清等現象, 使我們日後在自發性語音辨識研究方面能有 豐富的研究資料。 除了將自發性語音中會發生的種種現象 也清楚標記之外,我們也正在請工讀生將這些 語音及標記作進一步的分析整理。我們計畫根 據 transcriber 的標記,將每則訪談的語音檔切 割成一句話一個語音檔,然後以句子為單位在 資料庫(MS SQL)中分別記錄其標記特性。因 為當我們想要找所有有搶話特性的句子時,如 果靠人一句一句地慢慢找的話並不可行,所以 我們將語氣詞、停頓、口語不清、喘氣、搶話、 笑聲、聲量忽大忽小、發音不清等這些特性在 資料表中分別分配一個欄位,有此特性這欄位 就標成 true,沒有的話則標成 false,例如某句 子有夾雜笑聲的話,就將這句子的笑聲欄位設 成 true。這些欄位建立好後,我們只要利用 SQL 的 query language 就可以在短短幾分甚至幾秒 中查到我們想要的檔案或語料長度等。這部分 的分析整理預計在七月底完成。

四、計畫成果自評:

本計畫經第一年完成 40 小時廣播新聞語 料之處理,本年度除繼續進行廣播新聞語料之 處理外,新增車內語音、及廣播交談語料之處 理,目前計畫進行順利,與預定時程相符。

參考文獻

[1] Barras, E. Geoffrois, Z. B. Wu, M. Liberman, “Transcriber: Development and Use of S tool for Assisting Speech Corpora Production,” Speech Communication, 33, pp. 5-22, 2001. [2] Hsin-min Wang, "MATBN 2002: A

(5)

Mandarin Chinese broadcast news corpus," in Proc. ISCA & IEEE Workshop on Spontaneous Speech

Processing and Recognition

(SSPR2003), Tokyo, April 2003. 附錄一:中央社訪談式錄音語料第一片光碟中 檔案內容資訊 此光碟中所有檔案錄音長度共計 52'8":  主要工作經驗談(16'40"): 女主播採訪專業立委,對話中穿插許多語氣 詞,受訪者語調平穩,聲音清晰,片尾因剪 接導致說話者言論中斷。  國外見聞(14'42"): 兩位女主播的聲音不太清楚,受訪者說話速 度偏快,偶爾女主播搶話導致言論中斷。  搭飛機經驗個人生涯規劃(20'46"): 片頭有非關採訪內容的對白,此檔案承續上 則國外見聞,受訪者說話速度偏快,女主播 的語調略嫌含混。

圖一:利用 Transcriber 標註新聞語音的實例

(6)

參考文獻

相關文件

學習語文必須積累。語文能力是在對語文材料大量反復感受、領悟、積累、運用的過程中

(ii)支援非華語學童---2018/19學年完結前,每所獲

語音四要素 語音四要素與朗誦的關係 音高 語音的高低抑揚顯示語言的節奏感 音強

訓練目的之一為小組討論中學生擷取材 料時,可用自然流暢的口語表達,不顯

加強「漢語拼音」教學,使學生掌握

•三個月大的嬰兒在聆聽母語時,大腦激發 的區域和成人聆聽語言時被激發的區域一

目的 ^ 材料 ^ 步驟 ^ 結果/結論 香港大學教育學院岑紹基博士 香港大學教育學院岑紹基博士

個人、社會及人文教育 |英國語文教育| 藝術音樂教育 | STEM 教育 全球意識與文化敏感度 |體驗學習| 接觸大自然