音質評量指標

第四章播放排程的聽覺最佳化設計

4.1 通話品質預測模型

4.1.2 音質評量指標

正因為主觀聽覺測試無法反應傳送與接收兩端之間經過網路傳輸所造成的音質損害，因此國際電信聯盟ITU制定一個具體的音質評量模型E模型(E-model，ITU-T G.107)，採用主觀聽覺測試先建立不同因子所對應的音質損害，再加以整合計算得到最後的評分R，提供系統規劃及調整系統關鍵元件參數之用。E模型的方程式表示如下

0 s d e

R = R − −I I − +I A ^(4.1) 其中

R₀: 訊號雜音比，雜音部分包括背景噪音以及電路雜訊。

Is: 與語音信號同時產生的音質損害因子，包括量化、連接雜訊和側音(Sidetone)帶來的干擾。

I_d: 語音延遲(包括通話迴聲)造成的音質損害因子。

Ie: 低位元率語音編碼處理和封包漏失所造成的音質損害因子。

A: 補償損害因子(Compensation Impairment Factor)，用以補償用戶基於接聽的方便而能忍受音質的影響，如行動電話。

我們將R與平均評比分數的對應關係整理成表4.1:

評分因子分數品質 90<R<100 4.34-4.5 極佳 80<R<90 4.03-4.34 佳 70<R<80 3.60-4.03 普通 60<R<70 3.10-3.60 差 50<R<60 2.58-3.10 極差

表 4.1 R與平均評比分數對應關係

由於我們是針對網路傳送層來探討音質損害，因此對於R₀和I_s 而言，它們與網路傳送過程並沒有直接的關係。因此我們可以採用ITU 所設定的初始值，簡化R的計算方式，直接針對通道特性及系統架構兩層面來評估音質[10]。如(4.3)所示

( , , ) 94.2 _d( ) _e( , )

R d r e = −I d −I r e ^(4.3) 其中d為單一路徑口對耳延遲(mouth-to-ear delay)，r是編碼位元率，e則是封包漏失率。針對Ie進一步分析顯示，影響因素有低位元率語音編碼處理所造成的訊號失真，以及在傳輸過程中因網路擁擠或其他不可預知因素所導致的封包漏失。可分開討論如下

( , ) ( ) ( )

e ec ep

I r e = I r + I _l e (4.4)

其中I_ec表示語音編碼造成的音質損害，I_epl則表示封包漏失所造成的音質損害。

[1] 語音編碼損害因子-I_ec

使用語音壓縮技術可以減少資料傳輸量，有效節省頻寬的使用。

其中編碼處理有許多選擇，如 G.711 PCM、G.729a CS-ACELP、G.723.1 MPC-MLQ，依位元率區隔不同模式所衍生的信號失真亦存在明顯差異。每一種編碼標準均有其特定的聆聽 MOS(listening MOS)，利用圖 4.1 即可求得其對應的R 值。一般而言，聆聽 MOS 並未將延遲及封包漏失的音質損害納入考量，因此公式(4.3)可簡化為

( ) 94.2 _ec( )

R r = −I r (4.5) 由前人研究得知，隨著編碼位元率的下降，音質的損害值明顯的增加。這是由於較高的壓縮率雖然能節省頻寬的使用，然而封包與封包之間的關聯性卻明顯的降低，在網路傳送語音封包時，若發生封包漏失的現象即有可能造成聲音斷斷續續有如被剪掉一樣。因此有必要在封包傳送前對封包做保護的動作。

[2] 封包漏失損害因子–I_epl

在前一個小節提到聲音在一開始傳送時首先會經過語音編碼處

理，由數據顯示造成的音質損害會隨著位元率的下降而提昇，而這小節主要是探討受到網路通道行為影響的音質損害。在網路中常常面臨到通道頻寬有限卻需要傳送大量語音封包或資料封包，路由器 (router)需要更多時間消化而造成網路擁塞的現象，導致封包佇列時間過久而無法在預定時間內抵達終點，造成封包漏失的現象。若是資料封包的傳送可以使用要求重送(ACK)的機制來改善，然而對有即時傳輸需求的語音封包而言，卻無法利用重送機制來做補強，使得整段語音經過網路後會發生斷斷續續的現象。根據研究指出，語音編碼與封包漏失損害因子I_e可近似為一個數學公式，

1 2 3

( , ) ( ) ( ) ln(1 )

e ec epl

I r e = I r + I e = +γ γ +γ e (4.6) 其中I_ec( )r =γ₁，I_epl( )e =γ₂ln(1+γ₃e)，而不同的語音編碼模式會對應一組γ₁，γ₂，γ₃[10]，如表4.2所示。

Codec Type γ₁ γ₂ γ₃

G.729a 11 40 10 G.711 0 30 15

表 4.2 不同語音編碼的γ_i

[3] 延遲損害因子-I_d

就單向聆聽 MOS 而言，用戶往往對延遲比對封包漏失更能容忍，

因為封包漏失會造成聽不清楚對方的話，而延遲並不會影響單向通話的音質。但就雙向的對話品質(Conversational MOS，MOSc)而言，延遲增大到一定程度以後，可能導致雙方同時講話或相互沈默，從而影響正常通話，減少雙方的互動。而造成延遲的因素有很多，例如編碼與封裝處理造成延遲、傳送路徑延遲、播放暫存器造成的延遲。

在前人研究[10]中，參考 E 模型(ITU G.107)比對單一路徑口對耳的延遲與其損害因子，利用片段線性分析可推導得

0.024 0.11( 177.3) ( 177.3)

Id = d + d − H d − (4.7)

在文檔中行動語音人機介面之研究 (頁 51-56)

第四章 播放排程的聽覺最佳化設計

4.1 通話品質預測模型

4.1.2 音質評量指標

第四章播放排程的聽覺最佳化設計