第三章 語音資料庫介紹與語音評量方法的國際標準
3.3 客觀評量方法的國際標準
ITU-T 在 2001 年 2 月和 2004 年 5 月分別提出兩套客觀式評量語音品質的方 法,前者是侵入式的評量方法 P.862 [2],後者是非侵入式的評量方法 P.563 [8],
兩者均適用於窄頻帶(Narrow-band)3.1kHz 以下的電話網路系統。
3.3.1 ITU-T P.862 (PESQ)
P.862 是侵入式的客觀評量語音品質方法,亦是大家所熟知的 PESQ(Perceptual evaluation of speech quality),其適用範圍可參考:表 3-6。PESQ 的計算模型考慮相 當多因素,例如:語音壓縮或經通道傳輸造成的失真、傳輸過程的時間延遲、通 道的雜訊以及通道發生音框遺失或位元錯誤情形。
表 3-6:PESQ 評量語音品質所考慮的因素
資料來源:J. G. Beerends, "Psychoacoustic model", 1998
PESQ 尚有許多和語音品質好壞有關但尚沒有考慮進去的因素,例如:響度 的損失(loudness loss)、回音(echo)、側音(sidetone)、串音(crosstalk)、VAD 的影響等。
而且 PESQ 只能處理窄頻帶的電話網路通訊以及單方向(listening only)語音品質,
對於寬頻(wide-band)以及雙方向(conversational)的語音品質或甚至是音樂(audio)品 質仍無法得到準確可靠的評量結果。
PESQ 是侵入式評量方法,需要來源端的乾淨語音和接收端經過損傷的語音 做比較以得到人耳感知聽覺上的語音品質分數;PESQ 模型主要的參作程序有:
時間對位、振幅大小校準、頻率的壓縮(Bark scale)以及響度的壓縮,最後在頻譜 上做分析比對得到預測的語音品質分數。PESQ 的基本概念可參考:圖 3-1。
圖 3-1:PESQ 的基本概念與方法
資料來源:http://www.eedesign.com.tw,作者 P. Denisowski
由圖 3-1 可看到,右上角圖是將兩個訊號做時間上的對位,左下角圖是振幅 大小的調整,最後將時域上信號轉換至頻域上信號,再依據人耳聽覺與頻率之間 的非線性相關,使用 Bark scale 在頻帶上做不同的解析,由右下角圖可看到低頻端 的頻帶頻寬較窄而高頻帶的頻寬較寬,最後在頻譜上做感知分析得預測的 MOS。
PESQ 可能遇到的問題在於:電話網路傳輸的延遲時間相當不固定,不同封 包的時間延遲長度不同導致時間扭曲(time-warping),造成接收訊號和原來傳送訊
號長度不同,因此在做時間對位時,必須藉由調整兩個訊號間的交叉相關性 (cross-correlation)達到最大,來校正兩個訊號間的時間差;另外,在振幅校準時也 不易處理,因為接收端的訊號經過的哪種損傷和衰減實際上並不清楚,如果只是 藉由放大訊號來調整訊號的振幅或整句語音的功率,可能存在許多問題。
3.3.2 ITU-T P.563
P.563 是非侵入式的客觀評量語音品質方法 [8],只使用接收端經過損傷的語 音訊號來預測語音品質分數而不需要傳送端的原始乾淨訊號;P.563 演算法的模型 是建構在人的口腔發聲系統和人耳聽覺的感知系統的特性。此演算法的目的在於 希望能預測窄帶(3.4kHz 以下)語音訊號的主觀品質,這些語音訊號經過電話網路 傳輸後可能伴隨很多損傷,例如:背景雜訊、網路元件的頻率響應(filtering)、不 同的時間延遲以及因為通道傳輸發生錯誤或語音壓縮編解碼所造成的失真。
圖 3-2:P.563 演算法架構完整描述 資料來源:ITU-T Rec., P.563 [8]
因為非侵入式方法只有接收端的訊號可作為評分依據,因此對於接收端訊號 必須先做一些假設。P.563 演算法分成三個階段循序進行,分別是預先處理階段 (preprocessing)、失真評估階段(distortion estimation)以及感知映照階段(perceptual mapping)。因為沒有單一的方法能夠將所有失真問題一起處理,P.563 綜合三個基 本原則來評估所有失真造成的效應,這三個基本原則分別是:從口腔管(vocal tract) 建立發聲系統模型、從接收到的損傷語音重建一個乾淨的參考語音以及確認並評 估特定失真(例如:temporal clipping、robotizationa、noise)的影響;因為當很多損傷 或失真情況同時發生時,人類聽者會專注在最主要的(dominant)失真情況上,因此 P.563 最後使用失真相依的權重(distortion-dependent weighting)將所有失真參數一起 考慮得到預測的語音品質分數。整個 P.563 的演算架構可參考 圖 3-2。
P.862.1 [27]是 ITU-T 在 2003 年提出,將原始 PESQ 的分數透過一個函數轉換 到更接近 MOS 的方法。表 3-7 列出 P.563 和 P.862.1 對於語音資料庫 ITU-T Supp.23 語音品質評量分數的效能優劣比較,由 表 3-7 看到,P.563 的評量結果和 MOS 的 平均相關性約 0.89,而 P.862.1 的評量結果和 MOS 的平均相關性約 0.95;P.563 的 結果比較不準確是可以預期的,因為它並沒有來源訊號當作評分參考。
表 3-7:P.563 和 P.862.1 使用 Supp.23 database 的評量結果
資料來源:ITU-T Rec., P.563 [8]
P.563 適用範圍相當廣泛,可參考 表 3-8,但其仍有不足的地方。首先,因為 P.563 在評量時,會將語音訊號分為低基頻(low-pitched)和高基頻(high-pitched)兩 類,再使用不同的參數和權重對兩種不同類的語音做評分;因此,倘若要評分的 語音音高變化非常大,則 P.563 的評分結果就不可避免地相當糟糕。其次,因為 P.563 的評分機制裡沒有語義分析(semantic analysis),倘若語音中有一個字(word) 全部遺失,P.563 的分數不會受到任何影響,但實際主觀的 MOS 卻會相當低。最 後,P.563 是設計來評量窄頻帶(3.4kHZ)、取樣速率 8kHz 的語音,對於現在或將來 更寬頻的語音傳輸更普遍的應用,原有 P.563 就顯得不足。
表 3-8:P.563 的相關應用範圍
資料來源:ITU-T Rec., P.563 [8]