• 沒有找到結果。

通訊/資訊聚合式車機系統之研發與應用---子計畫二:行動語音人機介面的研究與開發(II)

N/A
N/A
Protected

Academic year: 2021

Share "通訊/資訊聚合式車機系統之研發與應用---子計畫二:行動語音人機介面的研究與開發(II)"

Copied!
5
0
0

加載中.... (立即查看全文)

全文

(1)

行政院國家科學委員會專題研究計畫 期中進度報告

子計畫二:行動語音人機介面的研究與開發(2/3)

計畫類別: 整合型計畫 計畫編號: NSC94-2218-E-009-021- 執行期間: 94 年 08 月 01 日至 95 年 07 月 31 日 執行單位: 國立交通大學電信工程學系(所) 計畫主持人: 張文輝 報告類型: 精簡報告 報告附件: 出席國際會議研究心得報告及發表論文 處理方式: 本計畫可公開查詢

中 華 民 國 95 年 5 月 29 日

(2)

行政院國家科學委員會專題研究計畫報告

行動語音人機介面的研究與開發

ITS information access using voice over MANET

計畫編號:NSC 94-2218-E-009-021 執行期限:94 年 8 月 1 日至 95 年 7 月 31 日 主持人:張文輝 交通大學電信工程系 教授 一、中文摘要 (關鍵詞:語音對話系統,播放排程演算法。) 人性化的隨身資訊服務是智慧型運輸系統 必備的功能,網際網路的興起更成為資訊 傳播的重要平台,使用語音作為人機介面 則可以提升行車安全與便利。本子計劃在 MANET無線網路架構下,建構一行動語音 對話系統,讓駕駛員以聲控操作取得道路 指引及購物消費的生活資訊。本年度研究 規劃針對MANET 的應用環境,設計製作 一網路服務品質的量測平台,建立不同因 素所對應的音質損害,再整合推導出一能 正確反應通話品質的音質評量指標,以提 供系統關鍵元件在錯誤控制與參數調整之 用。在接收端,語音封包的播放緩衝器設 計必須在播放延遲與封包漏失這兩者之間 做一個權衡。針對這項需求,我們建立一 個能具體反應網路電話的音質評量指標, 以提供系統參數調整之準則。 英文摘要

(Keywords: spoken dialogue system, play-out buffer algorithm.)

The purpose of this three-year research is to de-velop a spoken dialogue system that allows driv-ers to use voice-controlled commands to access the ITS information server through a mobile ad-hoc network (MANET). This year, we focus on optimization of playout buffer in wireless speech transmission. Adaptive playout buffer algorithms rely on estimates of playout delay to compensate for variable network delays. In the proposed algorithm, the safety factor that con-trols the estimation process is dynamically ad-justed according to a simplified version of the conversational-quality E-model. Perceptual based buffer design is formulated as an uncon-strained optimization problem leading to a better balance between end-to-end delay and packet loss. Experimental results show that the proposed playout buffer algorithm can achieve better per-ceived speech quality than the basic adaptive

algorithms. 二、計劃緣由與目的 行動語音人機介面採用雙向互動模 式,遠端伺服器依辨認結果取得行車相關 資訊,執行低位元率語音編碼處理,再經 MANET 網路傳回到車內終端機作解碼播 放。如同網路電話的工作原理,即時語音 通訊必須架構在無連結式的UDP(User Datagram Protocol)傳輸協定,其缺點則是 網路壅塞而封包漏失時不能要求重送。網 路電話的服務品質取決於諸多因素,包括 封包漏失、延遲時間、背景雜訊、及語音 編碼失真,其中封包漏失率及延遲的容忍 上限分別為10%及150msec。目前相關技術 都採用錯誤控制碼(forward error control)及 播放緩衝機制(playout buffer algorithm)。前 者運用保護位元執行封包漏失的回復處理 [1],後者則彈性調整封包播放時間以對抗 延遲擾動(delay jitter)[2]。這兩者之間其實 存在因果循環關係,有效的錯誤控制碼所 增加的延遲時間較長,進而影響播放緩衝 時間的設定。除此之外,語音編碼處理有 許多選擇[3],如G.711 PCM、G.729 CS-ACELP、G.723.1 MPC-MLQ,而不同 模式所衍生的信號失真及延遲時間亦存在 明顯差異。較理想的系統設計是整體考量 不同關鍵元件的最佳組合設計,且因應隨 時變化的網路傳輸特性作合理調整。針對 此項需求,首要之務為建立一個能具體反 應網路電話音質的聽覺評量指標[4],以提 供系統關鍵元件在錯誤控制與參數調整之 用[5]。問題是音質不容易得到一致而客觀 的認定,產業界通常使用昂貴的檢測儀器 來衡量。主要是因為音質評量牽涉到通道 特性及系統架構兩層面,而不同服務品質 因素所對應的音質損害程度更存在明顯差 異。有鑑於此,我們將針對Voice over

(3)

MANET 的特定應用環境,設計並製作一 正確量測各項服務品質因素的測試平台 [6]。同時參考國際電信聯盟ITU 針對網路 系統規劃所制定的E-model[7],根據聽覺評 量建立不同因素所對應的音質損害,再整 合推導出單一能具體反應網路通話品質的 音質評量指標。 三、研究方法與結果 計畫主要設計製作一網路服務品質的量測 平台,以提供系統關鍵元件在錯誤控制與 參數調整之用。行動語音對話系統採雙向 互動的模式,遠端伺服器經由無線網路接 收語音特徵參數,再依辨認結果回傳相關 資訊給行動終端機作解碼播放。因應時變 的無線網路服務品質,我們採用錯誤控制 碼作封包漏失的回復處理,同時彈性調整 封包播放時間以對抗其延遲擾動,系統流 程如圖一所示。系統整合成敗的關鍵在於 明確掌握MANET 傳輸特性且建立其對應 的數學模型,方能因應不同車速及應用環 境作合理規劃。 (1) 音質評量指標的制定 v 不同的網路服務品質參數所對應的音質損 害,會因為通道特性及系統架構兩層面而 存在明顯的差異,傳統的音質評量難以達 到一致且客觀的標準認定。因此我們參考 國際電信聯盟ITU 針對網路系統規劃所制 定的E-model,配合量測所得的封包漏失率 及延遲時間來制定音質評量指標。推導過 程描述如下:首先利用量測結果比對得到 延遲時間與音質損害參數的對應關係,再 建立不同語音編碼處理所對應的音質損害 值。這是因為語音編碼處理依位元率區隔 而有許多選擇,如G.711 PCM、G.729 CS-ACELP、G.723.1 MPC-MLQ,不同模 式所衍生的信號失真亦存在明顯差異。除 此之外,網路傳輸常常會因為網路擁擠或 其他不可預知的因素導致封包漏失,而不 同的漏失率所對應的音質損害也必須納入 設計考量。藉由完成不同音質損害的估 測,即可整合推導出一項能具體反應網路 通話品質的音質評量指標,進而提供系統 關鍵元件在錯誤控制與播放控制參數調整 之用。 (2) 封包漏失與延遲的估測 語音封包傳輸過程經由Sniffer 軟體分別 在傳送端與接收端蒐集到每個封包之識別 碼以及抵達時間差等資訊﹐將用於估測封 包漏失與延遲擾動(delay jitter)等網路服務 品質參數。由於延遲擾動會受到傳送與接 收兩端電腦時脈誤差的影響﹐而無法獲得 準確的估測﹐因此我們提出一有效去除時 脈誤差的估測演算法﹐以期每個封包量測 的準確度能維持在50 微秒誤差範圍之 內。其演算過程描述如下:首先利用序列 識別碼來判定封包的漏失並將接收封包依 序排列﹐配合傳送與接收序列所對應的抵 達時間差計算其累加相差時間﹐再利用此 時間與累加封包數目的近似線性關係進行 線性逼近﹐所求得的斜率即可用於去除兩 端電腦的時脈誤差﹐進而提昇延遲擾動的 估測準確度,也用以提升品質量測與播放 緩衝演算法的精確度。 (3) 播放緩衝機制 語音信號會以固定的間隔來產生封包,透 過網路傳送到接收端。每個封包的網路延 遲會取決於所走的路徑頻寬以及該路徑上 路由器的壅塞程度,而網路延遲的差異即 為延遲顫動。為了降低顫動的影響,接收 封包在播放前會先被暫存在一緩衝器一小 段時間,藉此減少封包漏失的機會。播放 延遲被設計為dplay i, = +dˆi βˆi,其中 與 由過去所紀錄的封包網路延遲資訊來 估算,而 ˆ i d ˆi v β 是一個安全緩衝因子。較大的 β 值會導致一個較低的封包漏失率,然而 播放延遲會因此增加。現存演算法中的β 值是固定大小,並未考量通話音質。為了 使播放緩衝機制能夠因應時變的網路特 性,需建立網路延遲與封包漏失所對應的 音質損害模型,有效的整合於單一具體反 應通話音質的評量指標,進而提出音質最 佳化的適應性播放排程機制。音質評量模 型 (E-model) :R=94.2−I dd( )−Iec( )rIepl( )e 利用統計方法分析網路延遲並建立封包漏 失與播放延遲的關聯性,將音質最佳化的 適應性播放排程機制轉換為一個最佳化的

(4)

問題,針對每個封包的播放延遲適應性的 調整 * arg max{ } i R β β = 。 (4) 系統結構的最佳化設計 播放排程演算法為了達到較低的漏失率常 造成較長的播放延遲,而漏失率與平均播 放延遲存在著一個取捨(trade-off)的關 係。考慮因應網路環境的變化進行播放排 程調整,較合理的方法彈性地修改播放排 程演算法的安全因子β 。目的是希望能夠 因應時變的網路特性,適度的去權衡封包 漏失率以及平均播放延遲之間的關係進而 動態地調整安全因子β 值。而進一步考慮 音質效果,搭配彈性的播放排程以封包為 單位來調整播放時間,運用音長調整機制 延伸或壓縮播放時間,用以補償可適性播 放緩衝機制中過度延遲的封包。音長調整 機制如圖二所示,利用正弦分析模型解析 聲帶激發訊號以及發聲共振腔系統模型, 利用聲帶訊號延長和壓縮激發聲音訊號並 考慮合成訊號在不同封包所造成聲音不連 續的現象,藉由相位連續性的估算,產生 連續清晰的聲音訊號。因此利用音長調整 將可以精確的配合時變性播放緩衝的機 制。 四、實驗結果與討論 透過正確的量測網路延遲與漏失,運用音 質評量指標評估語音傳輸系統的優劣程 度。針對網路傳輸影響的程度,我們考慮 使用彈性的錯誤控制碼、可適性的播放緩 衝估測演算法以及時變的音長調整,可充 分補償過度延遲或漏失封包所造成嚴重的 音質衰減問題。在實驗中針對 AR-based 與 NLMS-based 這兩種播放排程演算法的效 能做比較,如表一所示。其中β 值分別設 定為 4,6 與動態調整的βi 。由表一可發 現,AR-based 演算法中不存在一個固定的 β 值,在面對不同的網路環境皆可達到最 好的音質表現。例如; β = 6 適用於 light 的網路環境,β = 4 適用於 heavy 的網路 環境。模擬的結果顯示,適應性的調整βi 可強化現存的演算法。在 heavy 的網路環 境,一個動態的βi 值得音質評量分數比 β =4 或 6 來的音質評量分數高。主要是因 為適應性的調整βi 值可以達到延遲與封 包漏失間的最佳權衡值。 五、結論 藉由分析網路通道所造成的漏失及延遲,進 行音質評量的鑑別,可提供使用者對於網路 環境優劣程度以及傳輸聲音品質有一客觀 的衡量準則。進一步利用延遲與漏失的量 測,設計音質最佳化的語音封包播放緩衝機 制。由實驗結果得知可適性的播放緩衝機制 配合音長調整機制,可以在延遲與漏失的權 衡下,在聽覺品質的量測中獲得較好的效 果。 六、具體成果 此研究結合隨意行動網路與分散式語 音辨認平台,開發一車用旅行資訊檢索系 統。本年度針對語音在無線網路所面臨的 傳輸狀況量測、音質評量指標的建立以及 播放緩衝機制等問題進行探討。具體研究 成果將在下列國際語音通訊相關研討會發 表。

[1] C. F. Wu, I-Te Lin, and W. W. Chang, “Adaptive playout scheduling for

multi-stream voice over IP networks” ac-cepted to present in 2006 European Signal Processing Conference.

[2] C. F. Wu, and W. W. Chang, “Perceptual optimization of playout buffer in VoIP applications” submitted to Internet Con-ference on Communication and Network-ing in China.

[3] I-Te Lin, C. F. Wu, S. H. Chen , and W. W. Chang, “Multiple description quanti-zation for recognizing voice over packet Networks” submitted to Internet Confer-ence on Communication and Networking in China.

[4] C. L. Lee, and W. W. Chang, “Symbol-Based Source-Controlled Channel decoding and its Application to Distributed Speech Recogni-tion,” submitted to International Conference

(5)

on Information Sciences.

七、參考文獻

[1] J. C. Bolot, S. F. Parisis, and D. Towsley, “Adaptive FEC-based error control for Inter-net Telephony,” in Inforcom’99, March 1999. [2] S. B. Moon, J. Kurose, and D. Towsley,

“Packet Audio Playout Delay Adjustment: Performance Bounds and Algorithms,” ACM/Springer Multimedia Systems, vol. 5, pp. 17-28, January 1998.

[3] L. Hanzo, F.C. A. Somervilie, and J.P. Woodard, Voice Compression and Communi-cations. Wiley-Interscience, 2001.

[4] M.E. Perkins, C.A. Dvorak, B.H. Lerich, and J.A. Zebarth, “Speech Transmission Perform-ance Planning in Hybrid IP/SCN Networks, “Communications Magazine, IEEE , Volume: 37 , Issue: 7 , July 1999, pp. 126 – 131.

[5] W. Jiang and H. Schulzrinne, “Comparison and optimization of packet loss repair methods on VoIP perceived quality under bursty loss,” in Proc. ACM International Workshop on

Network and Operating Systems Support for Digital Audio and Video, May 2002, pp.

73-81.

[6] J. Feigin and K. Pahlavan, “Measurement of characteristics of voice over IP in a wireless LAN environment,” in Proc. IEEE

Interna-tional Workshop on Mobile Multimedia Com-munications, Nov. 1999, pp. 236 – 240.

[7] “The E-Model, a Computational Model for Use in Transmission Planning, ” ITU-T Rec-ommendation G.107May 2002.

圖 1:語音傳輸系統方塊圖。

圖 2:音長調整機制方塊圖。

數據

圖 1:語音傳輸系統方塊圖。

參考文獻

相關文件

¾系統思考( systems thinking)法 第五項 修煉( fifth

電機工程學系暨研究所( EE ) 光電工程學研究所(GIPO) 電信工程學研究所(GICE) 電子工程學研究所(GIEE) 資訊工程學系暨研究所(CS IE )

教育局網頁 www.edb.gov.hk > 課程發展 > 課程範疇 > 全方位學習. 與津貼有關的重要資訊 會通過聯遞系統 Communication and Delivery

根據研究背景與動機的說明,本研究主要是探討 Facebook

(計畫名稱/Title of the Project) 提升學習動機與解決實務問題能力於實用課程之研究- 以交通工程課程為例/A Study on the Promotion of Learning Motivation and Practical

本研究旨在使用 TI-Nspire CAS 計算機之輔助教學模式,融入基礎 統計學的應用,及研究如何使用 TI-Nspire CAS

本研究以河川生態工法為案例探討對象,應用自行開發設計之網

本研究以河川生態工法為案例探討對象,應用自行開發設計之網