• 沒有找到結果。

中文自發性語音語料庫之建立(I)

N/A
N/A
Protected

Academic year: 2021

Share "中文自發性語音語料庫之建立(I)"

Copied!
4
0
0

加載中.... (立即查看全文)

全文

(1)

1

中文自發性語音語料庫之建立

(1/3)

Spontaneous Mandar in Speech: Cor pus and Pr ocessing

期中報告

計畫編號:NSC-90-2213-E-009-109

執行期限:90 年 8 月 1 日至 91 年 7 月 31 日

主持人:陳信宏 國立交通大學電信工程學系

[email protected]

一、中文摘要

本三年計畫擬建立中文自發性語音語料 庫,以提供國內學術界進行先進語音辨認科技 研究及產業界發展實用語音辨認系統之用。本 報告說明在第一年度我們的成果,包括:(1) 新聞廣播語音之錄製及文字標示、切割等處 理;(2) 對話語料之規劃及錄製;(3) 其它語 料之錄製及處理。 關鍵詞

自發性語音語料庫、語音辨認、新聞 廣播語音、對話語音、文字標示、切割

Abstr act

The three-year project aims to construct a spontaneous Mandarin speech database to be used in academic and industrial researches for the development of advanced speech recognition technologies. In the first-year progress report, we describe the recording and processing (transcription and segmentation) of two databases: broadcast news speech and dialogue speech. The recording of other types of spontaneous speech, such as lecture and monologue, are also planned.

Keywor ds:

Spontaneous Mandarin speech database, Speech recognition, Broadcast news speech, Dialogue speech, Transcription, Segmentation.

二、緣由與目的

近年來朗讀語音辨認技術已有長足進 步,一些實用系統陸續被開發出來,但語音辨 認科技之實用化關鍵在於進一步發展自發性語 音辨認技術。為因應此趨勢,本計畫結合中研 院、台大、清大、成大、交大、工研院、中華 電信研究所,合力建立一個中文自發性語音語 料庫,以提供國內學術界進行先進語音辨認科 技研究及產業界發展實用語音辨認系統之用。 計畫在三年內錄製及處理大量的新聞廣播語 音、對話語音及演講語音。

三、結果與討論︰

(一) 新聞語音語料庫之建立

本計畫準備利用三年的時間收集及處理 220 小時的新聞語音資料。第一年將處理 40 小時的語料,第二、三年分別處理 80 小時及 100 小時的語料。 經與公共電視洽談後,公視同意授權我們 使用其『公視新聞深度報導』節目,並願意協 助我們錄音(影),所以錄音工作自 90 年 11 月 7 日起正式展開,截至目前為止,已經收錄 約 120 個小時的節目。以下就語料收集、語料 保存及語料標註分別說明: A. 語料收集

1. 錄音採 TASCAM DA-40 DAT 錄音座,經 由主控台在新聞播放時利用 AES/EBU 平 衡式類比輸入同步錄音。 2. 錄影採 SONY SLV-ED88 錄放影機,利用 一般 RCA 接頭同步錄影,錄影帶採用 TDK HS-160 型號。 3. 錄音/錄影格式

(1) DAT tape: 格式:44.1kHz、16bit、stereo (2) VHS tape: stereo B. 語料保存 1. 聲音資料 (1) 公視取回的 DAT(數位錄音帶),經 USB 介面直接將錄音帶內的數位信號讀進 PC 內轉為格式為 44.1kHz、16bit、stereo 的 聲音檔 (windows PCM、.wav),並燒錄於 光碟中以便保存。 (2) 標註使用的聲音檔,因考量檔案傳輸及讀 取速度的問題,將原始的檔案,利用聲音 編 輯 軟 體 — CoolEdit 2000 將 己 轉 為 windows PCM 的聲音檔進行格式轉換。 轉換為 16kHz、16 bit、mono 後,為便利 日後管理及利用,每週的公視新聞深度報 導儲存於同一光碟中保存。 2. 影音資料 公 視 取 回 的 VHS 錄 影 帶 , 經 由 UPMOST 301BTR類比影像擷取卡,擷取avi 格式的影像,並由影像編輯軟體 – 會聲會 影(友立出品)即時壓縮成MPEG1格式保存。

(2)

2 3. 語料標註

電 視 新 聞 錄 音 資 料 之 處 理 是 採 用 LDC(Linguistic Data Consortium) 提 供 的 Transcriber系統,在標註過程中,舉凡雜訊、 背景環境、發音不標準、方言、說話者性別、 主播/記者/被採訪者等資訊都盡量鉅細靡遺 標註下來,限於篇幅,無法將標註細節於本 報告詳述,以下僅就標註的基本架構說明:

nontrans-空白

nontrans-廣告

filler-間隔音樂

filler-節目重點內容介紹

report-新聞主題

.

. (數則新聞)

.

report-新聞主題

filler-節目重點內容介紹

nontrans-廣告

report-新聞主題

.

. (數則新聞)

.

report-新聞主題

report-氣象預報

filler-結尾

filler-片尾音樂

nontrans-廣告

nontrans-空白

C. 成果討論: 由於語料標註是一件非常繁複累人的 工作,再加上計畫執行之初的數個月都在進 行各項準備工作,包括聯繫電視及廣播公司 洽談授權、準備標註軟體、決定標註方式 等,截至目前為止,僅完成15捲新聞錄音語 料的標註工作,預計到7月底第一年計畫結 束時應可以如期完成40捲新聞錄音語料的 標註工作。在計畫執行的過程中,中研院語 言所的鄭秋豫老師及曾淑娟老師在標註應 注意事項及標註符號方面提供很多的協 助,在此一併致謝。依據第一年度的經驗, 原預計第二年及第三年要完成的80小時及 100小時的語料標註工作應可如期完成。

(二) 對話語料之規劃、錄製及處理

自發性對話語料種類繁多,無法進行廣 泛收集,我們經過多次討論後決定本年度先 收集廣播中的訪問性談話,再收集兩人交談 的語料,在明年度再收集資料查詢式的對話 語料。 經過和新竹 IC 電台洽談後,我們獲得 他們的許可錄製語料,經處理後去除牽涉個 人隱私語料後,我們可以使用處理後之語 料。因此我們開始由廣播直接錄製訪問性語 料,我們擬先處理一小部份語料後,進行語 音辨認,評估如此錄製之語料是否可以使 用。 兩人交談的語料擬採由專人錄製,依選 定主題自由交談,目前正接洽中廣人員參與 中。 另外,我們已開始進行資料查詢式的對 話語料的設計,選定以車上駕駛可能使用的 資料查詢為主題,先規劃錄音方式,並試驗 性錄製,以作為明年度錄製大量語料之參 考。 至於語料之標註處理將採用和新聞語 料標註處理相同的軟體及格式。

(三) 其它語料之錄製

另外,我們擬錄製一些其它種類的自發 性語音,包括:專業性演講、獨白、新聞評 論。本年度已開始進行專業性演講語料之錄 製,由各校在 seminar 課程中邀請學者進行 專業演講時,進行錄音。

四、計畫成果自評:

本計畫擬進行之自發性語料收集及處 理,由於語料種類繁多,需考慮未來應用之需 求,同時需獲得語者之授權,因此在錄製語音 之前,進行多次的討論以決定錄製語料的標的 及方式,以及拜訪多家廣播公司以尋求授權, 目前計畫進行順利,已開始錄製語料並進行處 理,與預定時程相符。

圖一

見圖一

見圖二

同圖二

見圖三

見圖四

(3)

3

圖二:

(4)

4

參考文獻

相關文件

學習語文必須積累。語文能力是在對語文材料大量反復感受、領悟、積累、運用的過程中

備註:地下配電線路裝 置、施工標準,在國家 標準未頒布前,暫依台 灣電力公司所訂之地下 配電線路設計、施工及

(1)建立有效之篩選機制進行篩選(不得低於 總校數之 2%) ,除能針對篩出學校之個別 情形提出改進辦法外,並需進行訪視工作 加強輔導,使各校確實依改進規劃落實執

,經由 50 週年校慶籌備委員會進行兩輪投票後,選出下列 5 則標語參加全校決選,請各位小朋友於下方標語中選出一 則你最喜歡的標語。

複選通過標準:國語文性向測驗成績達平均數正 2 個標準差或 PR97 以上,外 語文性向測驗成績達平均數正 1.5 個標準差或 PR93

(二) 依【管道一】複選鑑定,國語文性向測驗成績達平均數正 2 個標準差或 PR97 以上,外語文性向測驗成績達平均數正 1.5 個標準差或 PR93

• 陳佳萍: 自製影片的英語配音真是照妖鏡,聽到 自己的發音還真是需要加油。第一個班級先作曲

學校中層管理者是一個召集人,責任包括個別學科的教 學、對同工的計劃及工作的支持、資源管理、評核及記