• 沒有找到結果。

適合網路環境下之中文口語處理技術之研究(I)─子計畫一:適合網路環境下之國語聲學處理技術之研究(I)

N/A
N/A
Protected

Academic year: 2021

Share "適合網路環境下之中文口語處理技術之研究(I)─子計畫一:適合網路環境下之國語聲學處理技術之研究(I)"

Copied!
3
0
0

加載中.... (立即查看全文)

全文

(1)

1

行政院國家科學委員會專題研究計畫成果報告

適合網路環境下之中文口語處理技術之研究(I)

子計畫一: 適合網路環境下之國語聲學處理技術之研究(I)

Acoustic Pr ocessing Technology for Mandar in Chinese under

Networ k Envir onment

計畫編號:NSC 87-2213-E-002-018

執行期限:86 年 8 月 1 日至 87 年 7 月 31 日

主持人:李琳山 國立台灣大學資訊工程研究所

E-mail: lsl@speech.ee.ntu.edu.tw

一、中文摘要 發展「適合網路環境下之中文口語處 理技術」的目標是為迎向未來的網路資訊 世界,開拓口語處理技術的新天地,本子 計畫的任務則是在聲學處理技術方面推動 前瞻性的學術研究,並考慮在新的網路環 境下聲學處理技術所面臨的新挑戰。在未 來的世界裡,網路將成為全球性的最大資 訊系統,使用者的終端設備將多元化,同 時語音介面需求將大增,各種應用環境亦 使聲學問題複雜化,在這樣的環境下口語 處理將極具挑戰性,聲學處理的難度也極 高,故需此一計畫來作長期深入的探討。 關鍵詞:口語處理、語音辨認、網路 Abstr act

To develop the “Chinese Spoken Language Processing Technology under Network Environment” is to face the new era of network information world. The role of this project is then focused on the acoustic processing technology in the group project, considering the constraints and challenges under network environment. In future network information world, the user terminals may not be a PC and the network provides plenty and plurality of resources which are also dynamic. There will be large number of users under completely uncontrollable environments and conditions. Acoustic processing in such situations will be highly challenging and very difficult,

therefore require in-depth long-term scientific research.

Keywor ds: Chinese Spoken Language Processing, Speech Recognition, Internet

二、計畫緣由與目的 語音處理在人類發展智慧型人機介面 的過程中,一直佔有相當重要的地位;而 近年在電腦技術飛躍進步的環境下及大力 追 求 自 然 化 、 多 媒 體 、 多 模 式 化 (Multi-modality)、生活化的目標下,語音在人機 介面的角色更加重要。世界各主要國家為 研究其本國語言之語音介面,幾乎都投入 大量的人力物力。在中文社會中,由於中 文鍵盤輸入難度特別高,一直阻礙中文社 會全面資訊化的進展,所以發展一套便捷 的口語處理技術,使中文得以方便適應新 的資訊環境,尤其是十分迫切需要。台大 的「語音實驗室」多年來和中研院資訊所 的中文語言研究結合,在國語聽寫機的研 究已經有相當成果,在過去多項研究計畫 及最近三年的「實用智慧型國語聽寫機」 產學合作研究計畫的大力推動下,已有第 一、第二、第三代國語聽寫機「金聲一號、 二號、三號」分別在 80 年、82 年及 84 年 完成,並於 85 年完成視窗九五版的「金聲 三號」,至此國語聽寫機的構想已經相當 接近具實用性產品了。 但在另一方面,資訊科技也在飛躍進 步;大眾化資訊環境已逐步由個人電腦轉 移至網路,網際網路(Internet)已經成為全球

(2)

2 性最大的資訊系統,未來使用者的終端設 備將多元化,包括雙向電視(Interactive TV)、電話、PDA 等均有可能,而個人電 腦只是其中之一,反而成為此一網路的視 窗。由於龐大的資訊與運算能力都可能由 網路隨時取得,使用者的 Client 端在記憶 容量及計算速度要求上因而大為降低,而 整個網路可能成為軟體系統發展的重要平 台。在這樣新的網路環境下,口語語言處 理的需求大為增加,而相關配合技術,包 括聲學處理技術,語言模型技術,語言分 析技術等也都需要有全新的面貌,以面對 新的挑戰。 在聲學處理方面,由於人機(人與網路) 的互動大幅增加,文字輸入處理已經不再 是最主要的電腦應用,故語音聽寫輸入可 能不再是最主要的應用方向;諸如網路瀏 覽搜尋、資訊檢索、電話業務及應用、對 話系統等都可能和聽寫機有相當不同的環 境;一方面網路應用繁多,使用者及使用 狀況均便得十分複雜,語音、發聲型態、 背景雜訊、干擾等聲學條件將大幅改變並 不易掌握,不可能再像聽寫機那樣可以單 純化,又一方面在網路環境下可在 Server 提供龐大的計算資源,系統設計未必在受 限於個人電腦條件,因此整個技術發展有 了新的空間。為了充分利用網路資源提高 聲學處理技術能力,本計畫預計以三年時 間擴充聲學處理能力使其適合在網路環境 發展種各應用。有關這項研究主題不僅在 中文世界有其迫切需求,即使在國際上也 極具前瞻性與競爭力。 三、結果與討論 近年來在語音辨認技術逐漸成熟及實 際應用需求快速成長之下,各種口語對話 系統(Spoken dialogue systems)被廣泛地 探討,關鍵詞擷取(Keyword Spotting)技 術咸認是處理這類的語音辨認問題最有效 的方式。關鍵詞擷取並不需要把語者所說 的每一個字詞辨認出來,只需要知道特定 的若干個關鍵詞是否在句子中出現,在處 理 可 能 包 含 遲 疑 ( Hesitations ) 、 重 複 ( Repetitions ) 、 詞 典 外 詞 彙 ( Out-of-vocabulary ) 等 口 語 化 的 自 發 性 語 音 (Spontaneous speech),或是考慮不同應 用的可攜性(Portability)時,關鍵詞擷取 可能比大字彙語音辨認(Large-vocabulary speech recognition)更有實用價值,技術上 也更為可行。本年度在關鍵詞擷取技術的 研 究 方 面 , 主 要 探 討 填 充 模 型 ( Filler models)及語段確認(Utterance verification) 技術,已完成國語關鍵詞擷取核心架構, 並進一步與其他應用系統結合,包括國語 語音資料檢索系統、自動語音查號對話系 統等。 在語音辨認系統由實驗室走向實際應 用的過程中,不同語者和環境產生的變異 性(speaker and environmental variations)往 往造成辨認的正確率大幅下降,因此系統 的強健性(Robustness)成為不可或缺的一 環 。 其 中 包 括 了 語 者 不 特 定 (Speaker-independent)的處理、背景雜訊的消除(noise cancellation)以及通道雜訊的補償(channel noise compensation)。在過去一年的研 究 中,我們首先利用三連音素(triphone)來建 立聲學模型,以增加處理自發性口語語音 (spontaneous speech)的能力,同時利用決策 樹(decision tree)的建立,使得聲學模型的參 數能共享,進一步改善模型的強健性。此 外 提 出 一 個 相 關 性 平 行 模 型 整 合 (correlated parallel model combination)的演 算法來提升系統在有背景雜訊下的正確 率。另外,利用倒頻譜偏移消除(cepstral bias removal)的技術來補償通道雜訊造成的影 響。接著,我們進一步提出一個時域特徵 參數(temporal features)的改良性演算法,來 增強語音特徵參數在雜訊環境下的鑑別力 (discriminability)及一種基於亂度(Entropy) 的語音信號端點偵測(End-point Detection) 法。此外,為了能更有效的結合聲學處理 及語言學處理,我們首先在聲學處理的輸 出 改 為 非 對 齊 (non-aligned) 的 音 節 格 構 (syllable lattice)以取代以前所採用的排列 音節格構,其目的為提高聲學處理輸出的 涵蓋率(inclusion rate),以降低語言學處理 的複雜度,而為了處理此非對齊的音節格 構,我們在搜尋上也作了若干的改進,以

(3)

3

增快搜尋的速度。在語者調適技術方面, 完 成 幾 種 State-of-the-art 技 術 ( 包 括 : maximum a posteriori (MAP) , maximum likelihood linear regression (MLLR),vector field smoothing(VFS) )的實驗探討,找到 具加成性的結合方式,達到快速且精確的 模型調適效果。利用以上所提出來的技 術,我們成功的整合並完成一個在電話環 境(telephone environments)下的語音辨認系 統,進一步將與其他應用系統結合,包括 國語語音資料檢索系統、自動語音查號對 話系統等。以上成果均有論文發表在語音 處理領域重要期刊及會議。 四、計畫成果自評 本計畫原預期進行之工作項目包括: 1. 前端訊號處理及特徵擷取 2. 聲學模型研究 3. 連續語音之進一步辨認技術 4. 不同語者特性變化之研究 5. 背景雜訊及干擾消除技術 6. 電話線之語音辨認技術 7. 關鍵詞偵測(Keyword Spotting)技術 8. 自發性語音之處理技術 皆已達到一定成果,詳見前述「結果與討 論」,且大部份的成果都已在(或即將在) 相關國際研討會及重要期刊發表,共計完 成學術論文 11 篇,詳見參考文獻[1-11]。 五、參考文獻1

[1] Jia-lin Shen, Wen-liang Hwang, “New Temporal Features for Robust Speech Recognition with Emphasis on Microphone Variations”, to appear in Computer Speech and Language, 1998.

[2] Jeih-weih Hung Jia-lin Shen, Lin-shan Lee, "Improved Robustness for Speech Recognition Under Noisy Conditions Using Correlated Parallel Model Combination", ICASSP’98, pp. 553-556.

[3] Tai-Hsuan Ho, Kae-Cherng Yang,

Kuo-Hsun Huang and Lin-Shan Lee, “Improved Search Strategy for Large Vocabulary Continuous Mandarin

1 參考文獻[1-11]均為執行本計畫的相關著作。

Speech Recognition”, ICASSP’98, pp. 825-828.

[4] Jia-lin Shen, Lin-shan Lee, “Improved

Robust Speech Recognition Considering Signal Correlation Approximated by Taylor Series”, ICSLP’98.

[5] Jia-lin Shen, Wen-liang Hwang,

“Statistical Integration of Temporal Filter Banks for Robust Speech Recognition Using Linear Discriminant Analysis (LDA)”, ICSLP’98.

[6] Jia-lin Shen, Jeih-weih Hung and Lin-shan Lee, “Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments”, ICSLP’98.

[7] Jeih-weih Hung, Jia-lin Shen, and Lin-shan Lee, “Improved Robustness for Speech Recognition Under Noisy Conditions Using Modified Parallel Model Combination”, ICSLP’98.

[8] Jia-lin Shen, In-Jeih To, Bo-Yu Liang, and Lin-shan Lee, “Speaker-Independent Continuous Mandarin Speech Recognition Under Telephone Environments”, ROCLING-XI, 1998.

[9] Jia-lin Shen, Bo-Yu Liang, and Lin-shan Lee, “Decision Tree Clustering for Acoustic Modeling in Speaker-Independent Continuous Mandarin Speech Recognition”, ISCSLP’98.

[10]Berlin Chen, Hsin-min Wang, Lee-feng

Chien, and Lin-shan Lee, “A*-Admissible Key-Phrase Spotting with Sub-Syllable Level Utterance Verification”, ICSLP’98.

[11]Berlin Chen and Hsin-min Wang, “A Vocabulary-Flexible Chinese Keyword Spotting System”, RAMS' 98, pp. 176-180.

參考文獻

相關文件

In the past researches, all kinds of the clustering algorithms are proposed for dealing with high dimensional data in large data sets.. Nevertheless, almost all of

[7] C-K Lin, and L-S Lee, “Improved spontaneous Mandarin speech recognition by disfluency interruption point (IP) detection using prosodic features,” in Proc. “ Speech

熟悉 MS-OFFICE

本研究主要以 But-for 崩塌竣工時程分析技術為基礎進行理論推導,確認此延遲分析技術 計算邏輯之問題與完整性,之後提出修正之計算邏輯,使

二、 本計畫已將部分研究結果整理,發表於國際研討會(Chan, Y.-H., Lin, S.-P., (2010/7), A new model for service improvement design, The 2010 International Conference

Students’ cognition toward low-carbon diet showed significant differences among students with different grades, could be affected by their comprehension on

本研究探討空氣流量及轉爐石量對於 Chlorella sp.生長之表面物 化特及釋出有機物性質影響,可透過傅立葉轉換紅外線光譜(Fourier transform

Therefore, in this research, innovative curriculum was designed with the combination of horticultural therapy program and activities with Special Education Syllabuses